】 【打 印】 
【 第1页 第2页 第3页 第4页 】 
数字化,让古籍触手可及
http://www.CRNTT.com   2024-01-10 10:46:02


 

  一本古籍,如何从纸页“搬”到网页?

  进入“识典古籍”平台,平台设计者、北京大学人工智能研究院副研究员杨浩开始演示:“古籍的数字化分为两步。一是图像化,我们与海内外古籍收藏单位合作,广泛收集古籍数字化图像资料。二是文本化,利用人工智能技术对古籍文字进行识别、排序、校对、结构整理、标点、实体识别等,对内容作精细化处理。”

  杨浩上传了一页古籍图像,不一会儿,文字自动识别处理完成。古籍图像上显现出不同颜色的小方框,“每个方框对应一个文字,先切分再调整顺序。红色方框是提醒此处需要人工介入,来进一步判断和处理。”

  与此同时,古籍图像旁已自动识别出一段文字,并可比照原图像进行修改调整。杨浩继续解释:“这个过程中,主要使用了文字识别、自动标点和命名实体识别等人工智能技术。文字识别技术,是对古籍数字图像中的文字进行单个切分,再进行文字识别和顺序读出;自动标点技术,是通过序列标注的方式对古籍自动进行现代标点;命名实体识别技术,则是通过序列标注方法识别出文本中的人名、地名、书名、时间、官职等信息。”同时,在机器自动识别后,会有专人复查结果,进一步提升准确率。

  据悉,“识典古籍”平台文字识别的准确率达到96%以上,自动句读的准确率达到94%,命名实体识别在中古史料上的准确率接近98%。

  “大部分古籍阅读平台或只提供扫描文稿,或只提供文本内容,有些商业数据库收费高昂,获取资源十分不便。”北京大学历史学系学生刘沐含说,“识典古籍”平台有着丰富的检索功能以及分类与年代筛选功能,可以辅助开展学术研究。

  一个全流程的智能化整理平台

  集纳展示古籍数字版本,不是“识典古籍”平台的全部。团队有着更大的设想——在一个平台实现古籍智能整理的全部环节。

  “‘识典古籍’平台由两部分组成,前端是阅读平台,后端是古籍整理平台。”王军作了一个比喻,“就像是餐厅的前厅和后厨。” 


 【 第1页 第2页 第3页 第4页 】 


扫描二维码访问中评网移动版 】 【打 印扫描二维码访问中评社微信  

 相关新闻: