ICCV 2021 | 基于生成数据的人脸识别( 二 )


ICCV 2021 | 基于生成数据的人脸识别
文章图片

文章图片
公式1:身份系数空间的mixup
ICCV 2021 | 基于生成数据的人脸识别
文章图片

文章图片
图3:身份随着Identity Mixup的权重的改变而平滑过渡
为了验证IM能够增大生成人脸数据的类内距离 , 我们可视化了三种不同程度(通过系数调节)IM后生成人脸的特征(参见图2) 。我们可以看到从青色三角形到蓝色正方形 , 再到红色圆圈 , 它们的类内距离是逐渐增大的 , 相应的准确率也从88.75到89.47再到90.95 , 充分说明了IM能够增大类内距离从而来提高识别准确率 。另外从表2也可以看到 , 加入IM后 , 识别准确率从88.98大幅度提升至91.97 。后续的图5图6以及表3的实验结果也同样证明了IM的有效性 。
Domain Mixup (领域混合)为了进一步缩小用生成数据训练得到模型与真实数据得到模型之间的准确率差距 , 我们引入了Domain Mixup(DM)作为一种通用的domain adaptation(领域适应)的方法来缓解 。具体来说 , 我们仅利用一小部分带有标注的真实数据加上大规模的生成数据 , 通过DM的方式来训练模型 , DM具体数学形式参见公式2 , 和分别代表生成和真实的人脸图片 , 其对应的标签也随之线性改变 。
ICCV 2021 | 基于生成数据的人脸识别
文章图片

文章图片
公式2:领域空间的mixup
于是我们利用DM来混合真实与生成数据来进行模型训练 , 与只用真实数据训练模型得到的对比结果如表2. 可以观察得到 , 我们引入的DM能够极大且稳定地提升在各种不同设置下的准确率 。
ICCV 2021 | 基于生成数据的人脸识别
文章图片

文章图片
表2:利用真实数据以及混合数据训练得到模型的准确率
比如最后一组实验中 , 95.78相较于91.22的提升非常大 。我们推测这是由于混合小部分真实数据能够给生成数据带来真实世界的外观信息比如模糊和光照等 , 如此一来缩小了两个领域的差异 , 进而提升了准确率 。如果我们继续增加真实数据到2K_20 , 那么准确率可以从95.78进一步提升至97.65 。整体流程图包括Identity Mixup以及Domain Mixup可参见图4.
ICCV 2021 | 基于生成数据的人脸识别
文章图片

文章图片
图4:整个框架流程图4实验分析
利用我们得到的Mixup Face Generator , 我们可以控制生成人脸的数量 , 身份 , 表情 , 姿态以及光照 , 故而接下来我们来系统性地分析这些因素在人脸识别任务中的具体影响 。
首先我们来分析长尾分布的问题 , 由于真实人脸数据基本都是从互联网上收集而来 , 导致某些类(人)拥有大量样本 , 某些类则只有少数几个样本 , 这样不平衡的分布训练得到的模型性能较差 。我们控制生成数据每个类别样本数量来模拟这一问题 , 如图5, 2K_UB1到2K_UB2再到2K_50 , 它们的分布越来越平衡 , 可以看出它们对应的准确率也是逐步上升 。通过控制生成数据的类别样本数量 , 我们可以天然地避免长尾分布带来的问题 。此外通过引入Identity Mixup (IM) , 所有的设置都得到了大幅度的提升 。
ICCV 2021 | 基于生成数据的人脸识别
文章图片

文章图片
图5:长尾分布问题