A02:社论
 
前一天  后一天

数字版首页 > 第A02:社论
上一篇  下一篇

破解大模型中文语料不足问题,并非毫无办法

2024年03月12日 星期二 新京报
分享:

  ■ 专栏

  获得反复验证的百科全书式知识信息,才是大语言模型最为可靠的语料库。

  在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。

  截至2023年底,我国从事研发10亿参数规模以上的大模型厂商以及高校院所超过200家,目前已有20多个大模型产品获批向公众开放提供服务。但在一定程度上,高质量中文语料资源短缺,限制了我国人工智能技术的发展和创新应用。

  ChatGPT训练中文语料占比低

  AI大语言模型(LLM,简称大模型),是由具有许多参数(通常数十亿个或更多)的人工神经网络组成。其基础是人类已经产生的各类知识产品,包括各类公开发表的或在网上出现的文章、著作,以及各类网文、帖子等。

  目前,大模型最大的语料库来自用户生成内容(UGC),但获得反复验证的百科全书式知识信息,才是大模型最为可靠的语料库。这些信息和知识就是各类公开发表物,包括在报纸、期刊发表的文章和著作。

  ChatGPT作为大模型能先领风骚,主要依赖于英文语料库;如果中国的大模型AI发展要获得突破,必然要依赖于中文。

  全球目前最有科学性和经过验证的语料来自学术资料库,包括期刊和文化、出版物,但遗憾的是,在这些载体上发表文章的语言绝大部分都是英语。以ChatGPT为例,训练数据中的中文语料比重不足千分之一,而英文语料占比超过92.6%。

  补齐优质中文语料数据短板

  这对中国的人工智能发展显然是一个挑战。中国要研发更可靠和更实用的大模型AI,必须依赖中文语料,或建立中文语料库。然而,中国目前欠缺系统化、优质的中文语料,这会极大地限制中国AI的发展。

  值得注意的是,这并非没有解决办法。比如,在中国公开出版的中文报纸、期刊等或许可以成为一种优势。公开资料显示,尽管中国的报纸出版有波动,但2019年中国报纸出版种类为1851种。

  中文社会科学引文索引(CSSCI)和中国科学引文数据库(CSCD)是国内具有较高知名度的两大学术引文索引数据库。CSSCI(2021-2022)共收录613种来源期刊、229种扩展版来源期刊及2种报纸理论版。CSCD(2021-2022)共收录1262种来源期刊,包括926种核心库来源期刊和336种扩展库来源期刊,其中大多数都为中文期刊。

  此外,中国期刊全文数据库的中文语料更丰富,收录国内各类期刊7400种。中国国家图书馆是亚洲最大图书馆,藏书3700万册,主要是中文图书。这些情况表明,中国国内的中文语料极为丰富,是研发中文大模型AI的坚实基础。

  建设多元化和多模式的语料库

  更具体来说,加快中文语料的开发,首先在于提高语料库的质量,如此才能进一步共享和利用。

  中国目前的中文语料库国家标准有《信息处理用现代汉语分词规范》《信息处理用现代汉语词类标记规范》等,但这些只是作为推荐性标准,行业采用率并不高。这也形成了语料库之间的异构性,资源之间难以相互转换,同时导致重复建设。因此,不妨根据国际标准、中文标准和行业认同,建立统一的语料库编码规范标准。

  其次,要注重建设多元化和多模式的中文语料库。现实情况是,中文语料中的文本语料库占大多数,口语、方言的语料库较少,难以形成多模态语料库,也无法给AI深度学习提供丰富的中文语料。此外,中文语料库的共享难度,成为阻碍AI发展的瓶颈。

  对此,一些研究人员提出应当建立Web检索,由此推动语料库共享进程。也有人建议搭建由国家、省级图书馆和各高校图书馆主导的中文语料库资源共享平台。

  当然,建立中文语料库少不了资金、人力和场地,因此需要国家预算投入更多的资源。而相关知识产权也需要纳入相关的设想方案中。如此,才能推动中国大模型产业快速和高质量发展。

  □张田勘(专栏作者)

  评论投稿信箱:shepingbj@vip.sina.com xjbpl2009@sina.com

更多详细新闻请浏览新京报网 www.bjnews.com.cn