破解大模型中文语料不足问题，并非毫无办法

2024年03月12日星期二新京报
分享：

　　■ 专栏

　　获得反复验证的百科全书式知识信息，才是大语言模型最为可靠的语料库。

　　在2024年全国两会上，有委员提出，应重视当前国内人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺问题。

　　截至2023年底，我国从事研发10亿参数规模以上的大模型厂商以及高校院所超过200家，目前已有20多个大模型产品获批向公众开放提供服务。但在一定程度上，高质量中文语料资源短缺，限制了我国人工智能技术的发展和创新应用。

　　ChatGPT训练中文语料占比低

　　AI大语言模型（LLM，简称大模型），是由具有许多参数（通常数十亿个或更多）的人工神经网络组成。其基础是人类已经产生的各类知识产品，包括各类公开发表的或在网上出现的文章、著作，以及各类网文、帖子等。

　　目前，大模型最大的语料库来自用户生成内容（UGC），但获得反复验证的百科全书式知识信息，才是大模型最为可靠的语料库。这些信息和知识就是各类公开发表物，包括在报纸、期刊发表的文章和著作。

　　ChatGPT作为大模型能先领风骚，主要依赖于英文语料库；如果中国的大模型AI发展要获得突破，必然要依赖于中文。

　　全球目前最有科学性和经过验证的语料来自学术资料库，包括期刊和文化、出版物，但遗憾的是，在这些载体上发表文章的语言绝大部分都是英语。以ChatGPT为例，训练数据中的中文语料比重不足千分之一，而英文语料占比超过92.6%。

　　补齐优质中文语料数据短板

　　这对中国的人工智能发展显然是一个挑战。中国要研发更可靠和更实用的大模型AI，必须依赖中文语料，或建立中文语料库。然而，中国目前欠缺系统化、优质的中文语料，这会极大地限制中国AI的发展。

　　值得注意的是，这并非没有解决办法。比如，在中国公开出版的中文报纸、期刊等或许可以成为一种优势。公开资料显示，尽管中国的报纸出版有波动，但2019年中国报纸出版种类为1851种。

　　中文社会科学引文索引（CSSCI）和中国科学引文数据库（CSCD）是国内具有较高知名度的两大学术引文索引数据库。CSSCI（2021-2022）共收录613种来源期刊、229种扩展版来源期刊及2种报纸理论版。CSCD（2021-2022）共收录1262种来源期刊，包括926种核心库来源期刊和336种扩展库来源期刊，其中大多数都为中文期刊。

　　此外，中国期刊全文数据库的中文语料更丰富，收录国内各类期刊7400种。中国国家图书馆是亚洲最大图书馆，藏书3700万册，主要是中文图书。这些情况表明，中国国内的中文语料极为丰富，是研发中文大模型AI的坚实基础。

　　建设多元化和多模式的语料库

　　更具体来说，加快中文语料的开发，首先在于提高语料库的质量，如此才能进一步共享和利用。

　　中国目前的中文语料库国家标准有《信息处理用现代汉语分词规范》《信息处理用现代汉语词类标记规范》等，但这些只是作为推荐性标准，行业采用率并不高。这也形成了语料库之间的异构性，资源之间难以相互转换，同时导致重复建设。因此，不妨根据国际标准、中文标准和行业认同，建立统一的语料库编码规范标准。

　　其次，要注重建设多元化和多模式的中文语料库。现实情况是，中文语料中的文本语料库占大多数，口语、方言的语料库较少，难以形成多模态语料库，也无法给AI深度学习提供丰富的中文语料。此外，中文语料库的共享难度，成为阻碍AI发展的瓶颈。

　　对此，一些研究人员提出应当建立Web检索，由此推动语料库共享进程。也有人建议搭建由国家、省级图书馆和各高校图书馆主导的中文语料库资源共享平台。

　　当然，建立中文语料库少不了资金、人力和场地，因此需要国家预算投入更多的资源。而相关知识产权也需要纳入相关的设想方案中。如此，才能推动中国大模型产业快速和高质量发展。

　　□张田勘（专栏作者）

　　评论投稿信箱：shepingbj@vip.sina.com xjbpl2009@sina.com

更多详细新闻请浏览新京报网 www.bjnews.com.cn