抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?( 三 )


抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?
文章图片

文章图片
西瓜音乐智能延长
ISMIR 2021 论文:
【抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?】字节的音乐高光检测等技术利用一种较为前沿的音乐结构分析方法 , 音频经过深度神经网络提出特征 , 提取的特征会送到一个数据挖掘模块中继续分析 。本文提出的方法已用在 HarmonixSet, SALAMI, RWC 等多个数据集上 。
抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?
文章图片

文章图片
除上述音乐理解技术外 , 技术团队还提供着音乐物料制作的能力支持 , 提升音乐在多样业务场景中的灵活性 。
例如音源分离技术 , 能够把一首乐曲分离成人声及伴奏 。在音视频编辑场景中 , 支持创作者给人声换个更优质的背景乐 , 或是提取背景音乐 , 换成更优质的人声 。音源分离是音乐信号处理里的关键技术 , 该新模型效果超越大多数声音分离系统 , 并已在 TikTok 等场景中使用 。ISMIR 2021 论文:
这项技术的创新之处在于 , 作者们提出了一种同时估计幅度谱和相位谱的方法 , 提升了理想掩模方法的上限 , 进一步提出了一个 143 层的深度残差网络 。实验表明 , 该系统在人声分离中取得了 8.98 dB 的值 。
抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?
文章图片

文章图片
来源:机器之心Pro