冬奥会上虚拟“冰冰”的“出生地”,原来是阿拉长宁!

本文转自:人民网
北京冬奥会上 , 长宁企业科大讯飞量身打造了《冰冰带你说冬奥》专属H5 , 推出的“3D虚拟冰冰” , 因为酷似央视主播王冰冰的眉眼和神韵 , 解锁了多达31种语言技能 , 迅速捕获了众多网友的心 。
冬奥会上虚拟“冰冰”的“出生地”,原来是阿拉长宁!
文章图片

文章图片

据了解 , 科大讯飞从央视C+MG动漫工作室得到王冰冰的卡通原画形象 , 再通过语音合成、语音识别、3D虚拟人肢体动作控制、AI口唇表情合成等多项人工智能技术 , 打造了一个总台采访人员王冰冰的虚拟形象 。
原来 , 科大讯飞2021年率先发起了虚拟人交互平台1.0 , 这个平台具有“多模感知、情感贯穿、多维表达、自主定制”的特点 。其中虚拟人发声的语音合成技术是科大讯飞语音合成团队10多年来一直在多语种合成领域默默耕耘 , 创造出来的成果 。
团队在语音合成发展最快的两年时间里 , 快速、高效地完成了全球60个主要语种的合成研发 , 其中37个语种达到了与国际一流厂商并跑或者领跑的水平 。
冬奥会上虚拟“冰冰”的“出生地”,原来是阿拉长宁!
文章图片

文章图片

而这技术领跑的背后 , 是团队经历国际技术壁垒的压力 。2019年1月科大讯飞进入美国实体清单后 , 为了打破技术壁垒 , 公司开始全面布局多语种 , 当时给他们语音合成团队定的初步目标是两年内完成37个语种的覆盖 , 并且效果对标国际最好的互联网巨头 。“说实话 , 当时接到这个任务的时候 , 很有压力 , 同时也有信心把这个工作做好 。”团队负责人高丽说道 。
团队的压力来自于没有数据积累 , 同时小语种缺少语言专家的支持 。对于合成来说 , 每个语言都需要找到专业且有声音特色的母语者 , 用专业的录音设备录制20小时以上的高品质音库 。
“但是我们当时没有任何可以提供高品质发音人的录音渠道 , 团队规模也只有10人左右;新冠疫情的爆发 , 特别是国外疫情的持续 , 给我们数据的跨国采集以及寻找专家资源的支持 , 都带来了非常大的难度 。同时基于我们当时的技术方案 , 两年内完成37个语种的国际并跑 , 是不可能的事情 。”高丽介绍说 。
冬奥会上虚拟“冰冰”的“出生地”,原来是阿拉长宁!
文章图片

文章图片

于是 , 高丽的团队分成两步开展工作 , 一方面通过各种渠道进行发音人的拓展 , 截至目前团队已经累积了全球100多个发音人渠道;另一方面成立紧急研究攻关小组 , 研发了一套通用性强、稳健的新一代语音合成系统 。“此外 , 因为很多语种没有一套比较完善的语言学理论作为基础 , 多语种合成难度相比中英文合成要大很多 。所以 , 我们团队很多时候是在探索和研究语言学和工程学的高效融合 。”高丽表示 。
团队经过10年的积累 , 最终拥有属于自己的一套技术方法 , 且达到商用级别 , 目前已经应用到了手机、车载、翻译机、扫描笔等终端设备上 。
“我们要始终保持一个开放、自省的心态 , 不断地吸收新鲜血液 , 给团队带来更多可能 , 同时我们要始终坚持‘用正确的方法做有用的研究’ , 这样你的需求在不断拓展 , 方法也在不断创新 。”高丽介绍说 , 未来团队的创新技术可以服务于机器翻译、语义理解等方向 , 给消费者带来更多、更懂消费者的AI技术和产品 。
同时 , 高丽期待团队研发出的AI语音合成技术 , 开展濒危语言的复刻 , 比如锡伯语、彝语等少数民族语言 , 上海话、苏州话、客家话等方言 , 传承人类文化瑰宝和保护濒危语言 。(来源:上海长宁)