科技守护文明:中国古籍“回家”之路

20210521期来自:安徽日报

现代科技照亮中国古籍“回家”之路

中国浩如烟海的文献典籍记录了历史,然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外

“汉典重光”项目,教会AI识别中国古籍,将它们以数字化的形式接回故土,目前以97.5%的准确率,已识别20万页古籍

中国古籍拥有非常庞大且复杂的知识体系,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。所涉及的范围也是极其广泛,有应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等的经验,有战争、瘟疫、地震、洪涝灾害、病虫害等方面的经验总结,还有医疗、中药、养生、家具、服饰、饮食文化等生活经验。

加州大学伯克利分校的东亚图书馆是全美三大东亚图书馆之一,90万册藏书里四成都是中文书,还有不少甲骨文和拓片。第一次到这儿的中国学者总感觉在穿越历史的“虫洞”,这些古籍不能运回中国,那就用数字化手段让古籍的内容“回家”。

2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院副院长王果与中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,最后获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。

前所未有的挑战

据王果介绍,“汉典重光”的分工非常明确——采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统。东亚图书馆完成第一个环节后,四川大学将和达摩院共同完成另外两个步骤。其中,四川大学将提供一切非计算层面的专业支持,并与达摩院的机器视觉实验室合作,共同开发古籍AI技术。

首批数字化的古籍共20万页,包含40余种珍贵宋元善本。刚开始大家对这个项目很有信心,但实际一上手才知道难度有多大。

首先是中国古籍的载体很多,纸、布、竹子、木头、甲骨、石碑……几乎所有能用的载体都被古人留了字,不同载体上面的字识别起来差别非常大。年代久远的纸张大多残缺不全,上面还布满斑点,而且排列非常复杂。古人喜欢从上到下,从右到左,还非常喜欢在上面做批注。

字迹的精美也成了负担。隶书、楷书、草书、行书都漂亮,但也真难认。大部分字还是手写的,不但两个人写的同一个字不一样,同一个人写的同一个字也差别很大,很多字还有不同写法。

团队原有的OCR(图像文字识别)的识别准确率只有40%,这显然是不够的,较早涉足古籍识别的GoogleBooks(谷

powered by 闻道