抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?( 二 )
文章图片
文章图片
语种识别技术提升多地区、多语种用户体验
除了曲风、相似度等标签之外 , 在全球化环境下的音乐类应用 , 语种类型的识别也非常重要 。字节的音乐语种识别系统 , 可快速分别一首歌中的中文、英语、印地语等几十种类别组成及占比 。这项技术正在为 Resso 的曲库提供语言识别服务 。准确地向用户推送合适语种的音乐 , 已经被证实能有效提高多地区、多样化语种用户的留存率 。ISMIR 2021 论文:
字节提出的音乐语种识别 , 支持多模态作为系统的输入 。基于音频的对数梅尔谱图 , 经过 50 层的深度残差网络提取嵌入特征 , 并且支持使用音乐的一些结构化文本数据 , 例如专辑名等作为输入 。经过一个语言识别模型输出嵌入特征 。最后通过结合音频和元数据的多模态特征 , 经过全连接层输出预测的语言结果 。
文章图片
文章图片
自动和弦识别 , 帮 AI 成为创作能手
除了最常见的 “标签化” 理解模式 , 字节的音乐理解算法 , 还注重对于音乐本身的内容结构分析 , 也是其音频算法的一大“法宝” 。这一技术 , 让产品更懂音乐也更会用音乐 。
对海量音乐 MIDI 的和弦的分析 , 不断发现好音乐背后的编曲奥秘 , 进而输出快速、大规模、高质量的和弦片段 。这一技术也为 AI 自动作曲系统提供了前置条件 , 帮助 AI 音乐创作出更符合大多数人喜爱的音乐片段 。AI 创作的音乐已经在 TikTok、抖音等产品中被广泛运用 。ISMIR 2021 论文:
该技术提出了一种能够识别音乐和弦的方法 , 可识别非常丰富的和弦种类 , 是一种基于神经网络的自回归蒸馏估计方法 NADE 。经过详实的数据实测 , 该方案在一些经典的数据集上的和弦识别效果优于很多同类研究 。
文章图片
文章图片
音乐表征基本功:以对比学习降低数据成本
除音乐和弦理解外 , 其他音乐结构分析的能力也必不可少 。字节对音乐结构的理解更大程度上提高了音乐在 UGC 及 PUGC 视频场景中的使用效率 , 也促使着抖音成为“神曲创造机” 。
先理解音乐是如何 “表达” 的 , 才能对音乐进行更好地 “结构化” 分析 , 可以大幅降低音乐内容理解的门槛 。字节提出的一种新型的音乐表征模型 CLMR , 只需极少的数据标注 , 而且通用性很强 。该模型已被应用到庞大的音乐数据集中 , 作为音乐标签、节奏提取等的重要前置 , 极大地降低了成本 。ISMIR 2021 论文:
CLMR 只需极少的数据标注 , 避免了监督学习中需要大量标签的情况 , 大幅降低了数据成本 。通过对音频数据做出多种增强处理 , 并使用对比学习的方法 , 训练出音乐的通用表征 。在多个音频分类的迁移学习任务上 , CLMR 表征均取得了非常好的效果 。
文章图片
文章图片
音乐结构分析新办法 , 帮你发挥创作潜力
人可以轻易地分辨出音乐中的高潮片段 , 并且可以自我发挥把一首 3 分钟的歌自然地哼到五六分钟 , 那么机器可以做到这么自然地过渡吗?
西瓜的音频编辑场景中 , 已经用到了这项技术 , 通过使用音乐结构分析算法 , 批量识别音乐中的高光、循环片段 , 能使得智能延长的效果更加自然 , 帮助用户随意延长或缩短音乐的长度 , 方便创作者发挥 。
- 抖音拉黑别人怎么不看对方视频(抖音拉黑好友具体步骤)
- 抖音营业执照怎么解绑(抖音营业执照绑定步骤)
- 抖音账单能不能删(抖音查看账单方法详解)
- 抖音歌词怎么做到一句一句的滚动(抖音歌词每句滚动特效设置流程一览)
- 七款新品集中亮相,数说故事超前布局「数据驱动+AI 赋能」应用闭环
- 「科普」世界上有哪些类型的海洋钻井平台?
- 「长文综述」康红普院士:无煤柱开采围岩控制技术及应用
- 「星辰大海」37层楼高、能“钻”到地球最深点……建造者揭秘“蓝鲸1号”到底有多强?
- 抖音经常聊天的人怎么看(抖音对方作品查看方法)
- 「中工漫评」国产品牌百花齐放,助力全民阅读迈进新时代
