字节跳动音乐检索系统bytecover2入选( 五 )
在说话人日志赛道中 , 结合前端信号处理技术 , 团队提出一种融合声源定位信息的说话人日志方法 , 提高识别准确率;同时针对竞赛数据中存在的说话人重叠问题 , 提出一种多通道融合算法 , 减少重叠部分的说话人漏检 , 最后采用修改的DOVER-Lap算法对多套系统进行融合 , 最终在测试集上的DER(说话人日志错误率)相比官方基线相对下降53.7% 。
该技术可以被用在会议室多通道麦克风场景下 , 生成包含说话人信息的多说话人语音转录结果 。
五、超脑方向:单一模型支持跨语言语音识别 , 减轻部署维护成本
在超脑方向 , 火山语音团队基于稀疏共享子网络的跨语言语音表征学习论文被ICASSP2022收录 。
该工作提出了一种基于稀疏共享结构的多语言语音表征学习方法 , 即从模型中划分出多个稀疏子网络来分别对不同语言进行建模 , 进而实现语言自适应训练 , 每个语言的子网络都通过裁剪不重要的参数进行提取 。
基于此 , 文中探索了一种基于彩票假设(LotteryTicketHypothesis)的提取方法以及另一种基于一阶泰勒展开的快速提取方法 。在下游多语言语音识别任务上 , 所提出的方法可以大幅降低基线XLSR模型的错误率 , 并超过GatingNetwork、Adapter等其他自适应训练方法 。
文章图片
文章图片
▲基于稀疏共享结构的多语言预训练流程
在国际化背景下 , 为了满足不同语言的字幕、审核和翻译等需求 , 需要针对各个语言去搭建语音识别系统 。多语言语音识别的目标是用单一模型去支持多个语言的语音识别 , 可以有效的减轻部署和维护的成本 , 并能在一些低资源场景下提升识别效果 , 具有非常重要的意义 。
结语:AI语音正在业务场景释放更大价值
字节跳动火山语音团队是原字节跳动AILabSpeech&Audio智能语音与音频团队 , 致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等AI能力与方案 。
自2017年成立以来 , 字节跳动火山语音团队研发的AI智能语音技术 , 已经为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件等字节跳动旗下重量级产品提供了各类AI解决方案 。
截至目前 , 该团队已服务上百个业务合作伙伴 。伴随字节跳动业务的快速发展 , 其语音识别和语音合成覆盖了多种语言和方言 , 已有多篇论文入选各类AI顶级会议 , 未来希望继续发展70+语言和20+方言 , 用于满足内容创作与交流平台的需求 。随着字节跳动火山语音团队不断探索AI与业务场景的高效结合 , 我们期待看到其智能语音技术实现更大的用户价值 。
- 微信音乐自动转视频引吐槽
- 骁龙8+:平衡了性、音乐播放后,这增加是今年最强
- 网易云音乐ios版更新:歌词窗口不透明
- 微信状态听歌怎么添加歌曲 网易云音乐怎么分享到微信状态上
- 微信状态现已支持网易云音乐一键分享功能
- 网易云音乐净收入同比增38.6%,在线音乐服务付费率超20%
- 《英雄联盟》官方公布“虚空女皇”卑尔维斯主题音乐视频
- 字节跳动游戏发行业务线裁员80%官方回应
- 字节跳动独立电商appfanno即将关停
- 音乐产业的时代已经结束了