用AI打破编解码器内卷，高通最新几篇顶会论文脑洞有点大( 二 ) 萧箫发自凹非寺量子位报道|公

文章图片

文章图片
目前的编解码大多集中在I帧（帧内预测）和P帧上，而B帧则是同时利用I帧和P帧的双向运动补偿来提升压缩的性能，在H.265中正式支持（H.264没有）。
虽然用上B帧后，视频压缩性能更好，但还是有两个问题：
一个是视频需要提前加载（必须提前编码后面的P帧，才能得到B帧）；另一个是仍然会存在冗余，如果I帧和P帧高度相关，那么再用双向运动补偿就显得很浪费。
打个比方，如果从I帧→B帧→P帧，视频中只有一个球直线运动了一段距离，那么再用双向运动补偿的话，就会很浪费：

文章图片

文章图片
这种情况下，用插帧似乎更好，直接通过时间戳就能预测出物体运动的状态，编码计算量也更低。
但这又会出现新的问题：如果I帧和P帧之间有个非常大的突变，例如球突然在B帧弹起来了，这时候用插帧的效果就很差了（相当于直接忽略了B帧的弹跳）。
因此，高通选择将两者结合起来，将基于神经网络的P帧压缩和插帧补偿结合起来，利用AI预测插帧后需要进行的运动补偿：

文章图片

文章图片
别说，效果还确实不错，比谷歌之前在CVPR 2020上保持的SOTA纪录更好，也要好于当前基于H.265标准实现开源编解码器的压缩性能。

文章图片

文章图片
除此之外，高通也尝试了一些其他的AI算法。
用“过拟合”降低解码复杂度
针对编解码器标准内卷的情况，高通也想到了用AI做自适应算法，来像“过拟合”一样根据视频比特流更新一个模型的权重增量，已经有相关论文登上ICLR 2021 。

文章图片

文章图片
这种方法意味着针对单个模型进行“过拟合” ，对比特流中的权重增量进行编码，再与原来的比特流进行一个比较。如果效果更好的话，就采用这种传输方式。

文章图片

文章图片
事实证明，在不降低压缩性能的情况下，这种方法能将解码复杂度降低72% ，同时仍然保持之前B帧模型达到的SOTA结果。
当然，除了视频压缩性能以外，单帧图像被压缩的质量也需要考虑，毕竟视觉效果也是视频压缩追求的标准之一。
用语义感知和GAN提高压缩质量
用语义感知和GAN的思路就比较简单了。
语义感知就是让AI基于人的视觉来考虑，选出你在看视频时最关注的地方，并着重那部分的比特分配情况。
例如你在看网球比赛时，往往并不会关注比赛旁边的观众长什么样、风景如何，而是更关注球员本身的动作、击球方法等。
那么，就训练AI ，将更多的比特放到目标人物身上就行，像这样：

文章图片

文章图片
从结构上来讲也比较简单，也就是我们常见的语义分割Mask（掩膜）：