抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

机器之心发布
机器之心编辑部在今年的音乐科技顶会ISMIR 2021(International Society for Music Information Retrieval)上 , 字节跳动海外技术团队有 7 篇论文入选 , 涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向 。
如今抖音已经成为音乐宣发的一个重要渠道 。一支支音乐先在抖音上以短视频 BGM 火起来 , 再扩散到各大音乐平台上 。抖音神曲甚至成了很多音乐平台的一个重要分类 。
有人说神曲能火是因为歌词和旋律简单 , 听得多了就印在脑子里 。但是对一个有着海量用户、复杂多样内容场景的短视频平台来说 , 如何让音乐更好地和短视频创作及互动融合在一起 , 绝不是一件简单的事 。
包括抖音在内 , 字节跳动旗下的众多短视频 / 音乐类应用已有存量亿级的曲库 , 音乐片段更高达数十亿量级 。让海量音乐和海量用户更懂对方的 , 是一整套语音、音频和音乐的智能创作能力 , 即 SAMI (Speech, Audio and Music Intelligence) 。
就在今年的音乐科技顶会ISMIR 2021(International Society for Music Information Retrieval)上 , 字节跳动海外技术团队有 7 篇论文入选 , 涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向 。该团队成员分布在美国、英国等国家和地区 , 支持了字节系产品音乐的搜索、推荐、内容创作等场景 , 这些技术恰恰揭示了一首首神曲是如何炼成的 。
音乐与视觉联动技术 , 让创作更简单
千万播放量的变装视频 , 原来人人都可以拍 。音乐与视觉效果的联动 , 不断激发创作者发挥自己的无限想象 。甚至只需上传照片 , 不需要任何的裁剪编辑 , 就可以变成属于自己的“视觉大片” 。这个操作起来很简单的功能 , 逐渐成为了抖音素人用户的创作神器 , 极大程度上降低了视频拍摄门槛 , 让用户的创意充分展现出来 。
这些视频创作效果 , 是基于抖音音频算法技术对音频内容的深度分析 , 结合视觉等算法技术形成的 。SpectTNT 就是一种新型的、专为音乐频谱提取设计的深度学习模型 。这项技术可被用于视频编辑中的声乐旋律提取和音乐结构分析 , 达到更好的音频和画面匹配效果 。随着技术的不断提升 , 该技术还将用在音乐标记、和弦识别和节拍跟踪中 , 不断衍生出多种多样的视频玩法 。ISMIR 2021 论文:SpecTNT: a Time-Frequency Transformer for Music Audio
SpectTNT 模型的原理是将音频信号经过短时傅立叶变换 , 得到频谱图 。然后 , 频谱图经过时间和频域的转换模型提取高层次特征 。模型本身包含残差结构 , 使得底层信息能够充分流入到高层中 。
抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?
文章图片

文章图片
以算法理解音乐 , 让曲库不再“庞大”
当我们面对着海量音乐库 , 哪首歌曲才能唤醒此刻的心情?算法技术 , 可以对音乐这一抽象的 “听觉艺术” 进行客观的分析及展示 , 大大提升用户发现音乐的效率 。
用户想给视频找个合适的配乐 , 往往通过标签分类进行查询 , 例如曲风就是最常见的分类 。目前字节提出了一种半监督式的 Transformer音乐模型来实现音乐的标签化 , 实现海量音乐数据的曲风、相似性的归类 。音乐标签化已广泛服务于Resso、抖音、剪映等产品的音乐推荐系统中 。
抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?
文章图片

文章图片
抖音音乐的标签搜索ISMIR 2021 论文:
论文提出的半监督式 Transformer 音乐模型 , 能够突破传统卷积神经网络的一些表现 , 进一步提出了基于噪声学习和半监督学习的方法 , 充分利用有标记数据和无标注数据 , 大幅减少人工数据标注的工作量 。该模型已经超越了现在大规模使用的深度残差网络表现 。