字节跳动音乐检索系统bytecover2入选( 四 )


字节跳动音乐检索系统bytecover2入选
文章图片

文章图片

▲a.协同解码b.细粒度语境知识选择
应用场景方面 , 该方法可被用于语音识别定制化 , 例如在智能语音助手和在线视频会议等应用场景中 , 许多同背景相关的关键短语、个性化信息、热词等内容都较难识别 。
此外 , 它也可以用在移动端智能语音助手的应用场景下 , 联系人列表中的联系人姓名 , 频繁出没的地点位置等个性化信息;在线会议场景下 , 参会人员的姓名 , 会议主题相关的专业术语等 , 针对性地提升这些定制化和个性化文本内容的语音识别性能 , 在实际应用场景中有重要意义 。
2、非自回归Transformer自动语音识别的最小词误差训练
这篇论文由字节跳动和南洋理工大学(NTU)共同完成 。近年来由于基于非自回归Transformer(NAT)的自动语音识别(ASR)框架的以下优点 , 分别是“当前的输出与历史的输出无关”以及“其推理速度非常快” , 其在业界日益受到重视 。
对此 , 团队对于其在语码转换语音识别任务(CSSR)上的性能有所期待 。另外据不完全了解 , 似乎并没有出现将最小词错率(MWER)准则应用于NAT模型的先例 , 所以该工作在一定程度上填补了此项空白 , 且在SEAME语码转换数据集上得到了验证 。
本文的贡献主要在两个方面:(1)在语码转换的场景下 , 提出了多种CTC掩蔽的方式训练NAT模型;(2)在MWER训练准则下 , 提出了多种N-best假设的生成方法 。
其发现及结论是:(1)无论在单语言还是跨语言的场景下 , 上下文相关的场景信息非常重要 , 而NAT没有历史信息 , NAT模型相比自回归的Transformer(AT)得到了一致性更差的结果;(2)严重受限于N-best假设的生成方法 , 在NAT模型上进行基于N-best的MWER训练只得到了细微的提升 , 所以如何生成更丰富的N-best有待进一步研究 。
3、使用梯度掩码改进端到端语音识别的伪标签训练
【字节跳动音乐检索系统bytecover2入选】一直以来 , 打伪标签在自监督学习中都是最重要的方法 , 最近在语音识别领域也展现出极好的效果 , 但是自监督学习对伪标签的质量极其敏感 , 主要是因为伪标签中的错误或者噪声常常会导致模型训练的不稳定并最终收敛到非最佳的状态 , 特别是对于e2e的模型比如RNNT 。
对此该论文提出了Gradient-mask的方法来应对以上问题 。此方法在训练过程中抹去了encoder中可见input的对应梯度 , 从而鼓励模型从不可见的部分进行推测 , 并且能有效降低模型对corruptedlabel的overfit 。
应用场景方面 , 此方法可以有效应对模型overfit到corruptedlabel并提升模型训练的效果 , 例如半监督自学习中 , 因为domain不match等原因导致pseudo-label质量过差 , 以及已知一部分数据标注质量过差的问题 。
4、ICASSP2022多方会议转录挑战赛的火山语音系统
会议场景是语音识别和说话人日志技术应用中最有价值和挑战的场景之一 , 会议场景包含了丰富的说话风格和复杂的声学条件 , 需要考虑重叠语音、未知数量说话人、远场信号、噪音、混响等挑战 。
ICASSP2022多通道多方会议转录挑战(M2MeT)提供了120小时真实记录的中文会议数据 , 包含8通道麦克风远场数据和对应耳机麦克风采集的近场数据 。M2MeT挑战赛包括多说话人语音识别和说话人日志两个赛道 , 团队在限定训练数据子赛道上分别获得第二名和第四名 。
针对多说话人语音识别赛道 , 团队提出一种神经网络前端模块和语音识别模块端到端联合训练的方法 , 输入8通道音频输出多说话人识别文本 , 除此之外加入了丰富的8通道数据仿真 , 在测试集上和官方基线相比CER相对下降32.6% 。