保护川藏少数民族文化,他们用AI打造一本全自动“濒危语言词典”

关注
2021年12月 , 中国语言资源保护工程公布最新数据 , 经过5年的调查、采集、翻译与保存 , 语保工程一期收集到123种语言和全国各地方言的原始语料数据1000多万条 , 其中音视频数据各500多万条 , 这其中就包括四川凉山彝族自治州和雅安地区的藏民熟悉的“尔苏语” 。

保护川藏少数民族文化,他们用AI打造一本全自动“濒危语言词典”
文章图片

文章图片

目前全球现存7000余种有记录的语言中 , 已经有超过400种濒临灭绝 , 超过200种处于接近濒危的状态 , “比如尔苏语 , 目前会这种语言的只有不到2万人 , 超过一半都是70岁以上、不会说汉语的文盲老人 。我们想要去翻译、保存 , 即必须找到同时会尔苏语和汉语的人来进行“人工对齐” 。但如果遇到更生僻、更濒危的语言 , 找不到会两种语言的人怎么办?我们现在就是希望通过AI算法 , 代替人工做这件事 。”彭同学解释到 。

保护川藏少数民族文化,他们用AI打造一本全自动“濒危语言词典”
文章图片

文章图片

2020年 , 来自英国谢菲尔德大学的彭同学及其团队 , 利用专业知识在飞桨平台建立模型 , 并基于无监督跨语言词向量算法 , 成功地实现了对濒危语言词典的自动化生成 。项目成果不仅拿下了第三届“中国高校计算机大赛人工智能创意赛”海外赛区的一等奖、最佳案例奖和优质开源奖 。
后续 , 他们还把项目的源码、文本说明和相关权利全部捐赠给了国家语保工程的“语言典藏”项目 , 帮助完善语言翻译工具链 , 在内测阶段已经获得了较为理想的翻译结果 , 未来 , 或将更大规模地运用在少数民族语音和地方方言的保护工作上 。
谈到为什么想到用AI保护濒危语言 , 彭同学觉得这是一种对文明传承的情怀 。从大学的计算机专业 , 到博士期间研究“计算机语言学”并将自然语言处理和表示学习作为研究方向 , 彭同学一直有一个通过AI帮助一线预报工作者减轻工作量 , 守护濒危语言的愿望 。

保护川藏少数民族文化,他们用AI打造一本全自动“濒危语言词典”
文章图片

文章图片

彭同学介绍称 , “具体来说 , 我们选择了选取了独龙、尔苏、嘉绒、撒拉这四种数据较为丰富的语言作为实验对象 。每种语言含有的句子数量均超过三千条 。算法分为四个步骤 。第一是对少数民族濒危语言语料进行采集;第二 , 利用飞桨平台能力构建主题一致的现代汉语数据集 , 因为少数民族语料大多围绕神话传说、民间故事、民歌和日常会话 , 所以团队最终选择了《故事会》近200期文本内容进行开源 。第三步就是在低资源条件下训练单语词向量 , 最终借助飞桨实现跨语言词向量对齐算法 , 全自动地生成大规模“汉语-少数民族语言”词典 。”
而其中最重要的算法 , 其作用就是把少数民族语言单词对应的“向量” , 与汉语等大语种的“向量” , 通过数学的运算、变形 , 在高维空间中形成两组被贴近的“向量云” , 再进行一对一的抽取和翻译 。
通过几何分布的方法 , 来解决传统需要双语学者才能做到的翻译工作 , 不仅能节省人力物力 , 也能很大程度上提升翻译的精准度 。

保护川藏少数民族文化,他们用AI打造一本全自动“濒危语言词典”
文章图片

文章图片

注:高维度空间里词向量的可视化模块
说起百度飞桨平台 , 彭同学表示自己早在18年就进行了注册 , 当时的用户id序列是八十多 , 而现在已经有几十万的用户注册使用了 。对于在飞桨平台搭建一个AI 算法 , 彭同学觉得这就像在搭积木 , 原来需要自己去砍树去打磨 , 现在拿起积木就能动手 。