用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大

萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
用AI搞视频编解码器 , 现在路子有点“野” 。
插帧、过拟合、语义感知、GAN……你想过这些“脑洞”或AI算法 , 也能被用到编解码器上面吗?
例如 , 原本的算法每帧压缩到16.4KB后 , 树林开始变得无比模糊:
用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大
文章图片

文章图片
但在用上GAN后 , 不仅画面更清晰 , 每帧图像还更小了 , 只需要14.5KB就能搞定!
用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大
文章图片

文章图片
又例如 , 用插帧的思路结合神经编解码器 , 能让最新压缩算法效果更好……
这一系列算法的思路 , 背后究竟是什么原理 , 用AI搞编解码器 , 潜力究竟有多大?
我们采访了高通工程技术副总裁、高通AI研究方向负责人侯纪磊博士 , 了解了高通一些AI编解码器中的算法细节和原理 。
编解码器标准逐渐“内卷”
当然 , 在了解AI算法的原理之前 , 需要先了解视频到底是怎么压缩的 。
如果不压缩 , 1秒30帧、8bit单通道色深的480p视频 , 每秒就要传输80+Mbps数据 , 想在网上实时看高清视频的话 , 几乎是不可能的事情 。
目前 , 主要有色度子采样、帧内预测(空间冗余)和帧间预测(时间冗余)几个维度的压缩方法 。
色度子采样 , 主要是基于我们眼睛对亮度比对颜色更敏感的原理 , 压缩图像的色彩数据 , 但视觉上仍然能保持与原图接近的效果 。
用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大
文章图片

文章图片
帧内预测 , 利用同一帧中的大片相同色块(下图地板等) , 预测图像内相邻像素的值 , 得出的结果比原始数据更容易压缩 。
用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大
文章图片

文章图片
帧间预测 , 用来消除相邻帧之间大量重复数据(下图的背景)的方法 。利用一种名叫运动补偿的方法 , 用运动向量(motion vector)和预测值计算两帧之间像素差:
用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大
文章图片

文章图片
这些视频压缩的方法 , 具体到视频编解码器上 , 又有不少压缩工作可以进行 , 包括分区、量化、熵编码等 。
然而 , 据侯纪磊博士介绍 , 从H.265到H.266 , 压缩性能虽然提升了30%左右 , 但这是伴随着编码复杂度提高30倍、解码复杂度提高2倍达成的 。
这意味着编解码器标准逐渐进入了一个“内卷”的状态 , 提升的压缩效果 , 本质上是用编解码器复杂度来交换的 , 并不算真正完成了创新 。
因此 , 高通从已有压缩方法本身的原理、以及编解码器的构造入手 , 搞出了几种有意思的AI视频编解码方法 。
3个方向提升压缩性能
具体来说 , 目前的AI研究包括帧间预测方法、降低解码复杂度和提高压缩质量三个方向 。
【用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大】“预判了B帧的预判”
从帧间预测来看 , 高通针对B帧编解码提出了一种新思路 , 论文已经登上ICCV 2021 。
I帧:帧内编码帧(intra picture)、P帧:前向预测编码帧(predictive-frame)、B帧:双向预测内插编码帧(bi-directional interpolated prediction frame)
用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大