A06:北京新闻
 
前一天  后一天

数字版首页 > 第A06:北京新闻
上一篇

字节跳动启动古籍数字化工作,实现古籍从纸质到数字化迁移

“识典古籍”上线智能助手 大模型助力古籍阅读

2024年03月15日 星期五 新京报
分享:
识典古籍相关海报。受访者供图

  让古籍活起来,把文脉传下去,是近年来传统文化保育的重点之一。针对古籍工作,党和国家从时代发展和文化建设需要出发,及时颁布了相关的政策和文件。2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出“推进古籍数字化”。

  在2021年,字节跳动公益就发起过“寻找古籍守护人”活动,邀请来自不同领域的专家学者、文化名人和抖音达人加入该活动,同时推出“古籍新说”系列访谈栏目,涵盖古籍修复师故事、古籍知识专题、经典古籍解读等内容。2022年,字节跳动启动了古籍数字化的工作,真正实现古籍从纸质到数字化的迁移。当年10月,字节跳动联合北京大学数字人文实验室共同打造的古籍数字化阅读平台“识典古籍”正式上线。

  识典古籍上线以来,收获了许多文史爱好者与研究者的正面反馈与支持。与一些访问门槛较高的古籍数字化平台不同,“识典古籍”是完全免费的公益平台,而且增加了分词检索、图文对照、繁简转换、字典释义、文白对照、实体百科等一系列便捷功能。古文中的人名、地名、书籍、时间、官职等信息都被标注出来,还添加了标点符号,真正做到了让普通人也能走近古籍,深入了解其中的文化内涵。识典古籍目前已免费开放2900余部古籍,内容丰富,种类繁多。古籍资源还在持续扩充。

  产品上线后,由于资源丰富、功能众多,不时有用户反馈找不到、不会用的问题。针对多元的用户需求,识典古籍进一步推出了古籍智能助手。有了这个智能助手,用户遇到不会的古文,只要选中原文,点击“问AI”,就能看到这句话的白话文翻译。

  用户还可以直接提问:比如“古人是如何说梦的?”“我想找跟北京相关的古籍。”智能助手会通过语义检索识典古籍的资料库,给出解答,直接在回答中显示引用的参考资料和原文链接。语义检索也是智能助手的技术难点和亮点。同时,借助大语言模型在总结和创意生成方面的优势,智能助手还可以为读者总结长篇古籍的主要内容,提出可以参考的研究问题等。这些都为研究和检索古籍提供了便利。汪晴说:“现在能慢慢看到用户的问题越来越丰富。不局限在眼前的文本,有很多直接跟智能助手交流的问题。”相比其他GPT(Generative Pre-Trained Transformer,一种基于互联网的、可用数据来训练的、文本生成的深度学习模型)类产品,古籍智能助手可以感知用户正在阅读的古文的上下文,基于正在阅读的内容进行解释、总结并展开讨论。汪晴还介绍了识典古籍和抖音百科的联合,用户在阅读过程中就可以看到对应的百科词条,获得超越当前文本的拓展知识。

  由于大语言模型生成式的特点,人工智能的回答产生错误或者“幻觉”是不可避免的。针对这个问题,古籍智能助手使用了检索增强生成技术,要求大模型根据从数据库和字典中检索到的可靠资料作答,一定程度上限制大模型产生“幻觉”。同时,也会在界面上提示用户:“内容由AI生成,使用前请注意查证。”汪晴补充道:“用户可以直接看到原始资料里,哪些内容符合自己的需要,也可以在此基础上进一步求证。”

  识典古籍的研发人员表示:“技术方面,我们使用的是字节跳动自主研发的云雀大语言模型。这个模型为智能助手提供了技术底座。在这个基础上,我们又进行了多项定制和优化,以便更好地判断用户的需求和意图,然后灵活调用目前已经涵盖的内容。”

  古籍智能助手是一个创新功能,目前还有一定实验性,用户更多的使用、反馈,都有助于产品进一步提升。字节跳动希望在促进古籍的高效利用和文化传承中,能不断发挥新作用。用先进的技术,修复古老的记忆,通过数字化平台、人工智能工具丰富大众的文化生活需要,助力古籍焕发新生。

  文/王菡

更多详细新闻请浏览新京报网 www.bjnews.com.cn