藏汉机器翻译关键技术及应用:

搭建藏地与域外交流的桥梁

20210527期来自:青海科技报

上世纪80年代开始,藏汉机器翻译关键技术及应用实验室成员在国内率先以藏文字符处理为基础,展开了藏文信息处理的基础理论和应用技术的研究,是国内最早研究藏文信息处理的实验室。

1994年依托国家“863”计划,项目在青海师范大学成立了“藏文智能信息处理与机器翻译”省级重点实验室,2012和2014年研究团队2次获得教育部“长江学者与创新团队”发展计划的支持,2013年被获批为青海省科技厅省级重点实验室。

经过20余年的发展该团队形成了计算语言学与机器翻译、藏文信息处理技术方向和复杂网络与藏文信息安全等具有鲜明特色的研究方向。

在该团队的努力下,“汉藏机器翻译关键技术及应用”脱颖而出,该项目提出了面向藏汉/汉藏机器翻译的数据资源构建与处理技术,主要解决了藏文编码识别及转换、藏文分词及标注、藏汉词语对齐、藏文句子边界识别、藏汉句子对齐等技术问题,构建了200万句对的藏汉双语平行语料,为藏汉/汉藏机器翻译系统的开发提供了数据资源保障。

同时,实验室利用该技术制定了藏文分词及标注、藏汉词语对齐、藏文句子边界识别、藏汉句子对齐等科学问题,为藏汉/汉藏机器翻译系统的开发提供资源保障;制订的“信息处理用藏语短语分类及标记规范”“藏文字符排序规范”等5项藏文信息处理领域的国家标准已颁布实施,促进了藏文信息处理的规范发展;研究的藏汉/汉藏机器翻译关键技术,提出了基于深度学习的藏汉机器翻译模型与藏语语义倾向性分析模型,开发了支持舆情服务的藏汉机器翻译系统,解决了藏语舆情分析与机器翻译系统的无缝链接技术问题。

参与制定的国家标准《信息处理用藏文分词规范》、《信息处理用藏文词类标记集》适用于计算机信息处理的藏文分词规范标准和藏语词类标记集规范标准。

开展的藏汉/汉藏机器翻译的应用示范研究,包括藏汉/汉藏机器翻译新闻翻译应用示范、农牧业汉藏信息服务示范应用、汉藏双语VR生物教育示范应用等,其示范应用成果在青海省互联网信息办公、政协果洛州委员会、玉树州教育局、海北州藏语言文字工作办公室等部门进行了应用。

实验室还针对低资源条件下藏汉机器翻译性能不佳的问题,先后提出了一种融合单语语言模型的藏汉机器翻译方法和迭代式回译策略的藏汉机器翻译方法,有效提升了低资源条件下的藏汉机器翻译的性能。

藏汉机器翻译关键技术及应用实验室是藏区干部群众期待已久的重要创新,对帮助基层干部更好地向少数民族群众传达党和国家的扶贫政策,更好地促进各族群众交往交流交融,助力精准扶贫,发展藏区经济文化意义

重大。

本报综合

powered by 闻道