收录词汇语句总规模超10万,虚拟主播变身冬奥手语播报员( 二 )


“新闻主播的语速通常是每分钟两百多不到三百字 , 手语表达达不到那么快的语速 , 但必须要能在正常合理的时间内把主要意思表达出来 。这样 , 由语音播报转手语时 , 不能完完整整的逐字逐句的去翻译 , 需要动态去精简一些内容 。”张鹏表示 , 这是一个难题 , 需要算法反复地去学习、调优 。
为构建能够理解、翻译语音和手语的智能数字大脑 , “冬奥手语播报数字人”系统以超大规模预训练模型为核心技术 , 通过语义蒸馏及手语翻译快编模型 , 实现新闻播报语音蒸馏成语义高度接近的手语文字 , 并翻译成符合手语习惯的语序 。最终 , 手语数字脑可以通过计算机模仿听障人士的大脑 , 进行手语播报驱动 。
此外 , 要让数字人展现出高精度、高自然度的人物形象和手语动作姿态 , 也是一件难事 。
为此 , 研发团队自主搭建了多模态肢体动作、表情、手指同步采集系统 。通过采集多模态动作捕捉数据 , 运用跨模态拟人生成算法对超写实数字人进行自然、流畅的驱动和渲染 , 实现对文本内容的手语播报 。
其中 , 通过肌肉绑定技术驱动实现面部采集 , 结合业内领先的语音识别及高清视频合成等技术 , 呈现给听障人群亲切自然的冬奥手语播报服务 。
收录词汇语句总规模超10万,虚拟主播变身冬奥手语播报员
文章图片

文章图片

【收录词汇语句总规模超10万,虚拟主播变身冬奥手语播报员】“冬奥手语播报数字人” 。项目研发方供图
与“虚拟AI主播”有何不同?
新亮相的“冬奥手语播报数字人”与常见的“AI虚拟主播”有何不同?
中科院计算机所所务委员、泛在中心主任陈益强向澎湃新闻采访人员表示 , “虚拟主播”与“冬奥手语播报数字人” , 身上都用到了虚拟人相关的技术 , 都追求形象的流畅性 。
双方最大的区别在于:一般而言 , AI主播动作比较自然即可;手语播报数字人则需要通过手势动作来实现表意的准确性和可懂度 。
另外 , 传统的AI模型主要是进行语音播报 , 基本不存在可懂度的问题;但AI手语人存在手语打得是否可懂的问题 , 它需要用丰富的、夸张的表情来提高手语的可懂度 。
张鹏表示 , 手语播报数字人的应用场景广泛 , 可以为新闻媒体提供全流程智能化的数字人手语生成服务 , 也可将声音广播内容转化为手语 , 以便听障人士可及时获取冬奥会赛事相关信息 。
此外 , 推广手语播报数字人可加速国家通用手语推广落地 , 推动国家通用手语标准普及 , 为残疾人平等参与社会生活创造无障碍环境 。