星辰大海|“国家关键语料库”要来了,是什么?怎么建?
发稿时间:2025-05-02 13:24:00 来源: 中国青年报客户端
近期,教育部、国家语委、中央网信办印发《关于加强数字中文建设推进语言文字信息化发展的意见》。其中提到“国家关键语料库”这一个新概念。
文件内容具体为,到2027年,国家数字中文建设行动取得重要成效,语言文字数据要素价值有效释放。基本形成“政府主导、部门协同、社会参与、共建共享”的语言文字信息化工作机制;基本建成国家语言文字大数据中心,初步建成国家关键语料库和国家战略语言资源信息库;语言文字信息化标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强。
“国家关键语料库”是什么?
教育部语言文字信息管理司相关负责人对中青报·中青网记者提到,语料库是自然语言处理、大语言模型、人工智能技术创新应用的重要支撑,是经济社会信息化建设、数字化赋能和智能化发展的基础要素,促进语言数据赋能信息技术创新与信息技术赋能语言文字资源使用的双向赋能。
以文化传承领域为例,目前已经建设了中华思想文化术语库、中华精品字库、甲骨文数据库、中国语言资源保护数据库等。
“国家关键语料库”怎么建?
面向人工智能时代,该负责人介绍,要开展语言资源建设、管理、应用、共享标准研究,重点推进语料库、数据标注、数据评价等规范标准的制订;服务教育教学,研制大语言模型能力素养(师生版),引导师生有效、安全使用大语言模型等人工智能技术;助力文化传承,研制甲骨文数字化共享技术标准。
此外,既要支持语言文字信息处理基础标准研究,也要鼓励高校、企业开展行业标准、企业标准研制。加强与工信部、国家民委、国家标准委等部门单位合作。推动已有语言文字信息化相关规范标准的修订工作,加强已有规范标准的宣传推广等。
在专业化人才队伍培养上,要推动高校增设语言智能、计算语言学等交叉学科方向,增设“语言文字+人工智能”核心课程。
2027年要初步建立的“国家关键语料库”将会如何改变生活和学习,让我们拭目以待。
我是中青报数智主播辰辉,一起奔向星辰大海,我们下次见!
中国青年报社 出品
记者:杨洁
编辑: 原春琳 梁国胜
剪辑:刘烨(实习生)
数智主播生成:杨洁
视觉包装:张岩 李晗
图片来源:中国青年报客户端、教育部网站
本次播报由中国青年报“青年语料库”支持