ICML国际机器学习顶会来袭，格物钛分享AI开放数据( 二 ) ICML2021第三十八届国际机器学习

以上的三个数据集都是完全公开的，由此可见公开数据集着实推动了AI研究的发展。
公开数据集四大痛点
第一，查找公开的数据集具有一定的难度，尤其是当你搜索具备某些特殊性质的公开数据集，直接在网上搜索并不能给到你满意的结果。

文章图片

文章图片
为什么数据集这么难找呢？如果你知道你想用来训练的数据集名字，比如说你想用MNIST或者是ImageNet ，那么查找这些数据集是比较简单的。但是如果你只知道你要用的公开数据集需要有某种特定的标注格式时，那么这个时候会非常难搜索到。比如说你去搜含有2D框标注的公开数据集，我们可以看到前三个结果竟然是和3D框标注相关的，并不是我们需要的2D框标注格式。如果我们把搜索关键词改为2D多边形或者是2D立方体，搜索结果也不是我们想要的，而且搜索结果的数量也非常有限。
【ICML国际机器学习顶会来袭，格物钛分享AI开放数据】第二，不是所有的公开数据集都有完整的标注。有些数据集只有一部分数据被人工标注了。

文章图片

文章图片
标注并不总是完整的。从谷歌公开图像数据集中选的一张图像。我们可以发现这辆车的后轮并没有被标注出来，但是如果我们用整个训练数据集去训练一个模型并将再其用在训练数据集上，标注完整性的问题就暴露了出来。
另一个例子是Udacity的自动驾驶数据集，该数据集中有11.5%的图片都没有被标注。图中所有用红框标出来的都是缺失的标注。基于这类存在标注缺失的公开数据集的模型其实是非常危险的，因为这个模型有很大的可能性会识别不了像图中的自行车手以及推着婴儿车过马路的母亲。
第三，即使某些公开数据集被用作基准数据集，它们的标签/标注也存在一些错误。

文章图片

文章图片
来自MIT和Amazon的学者做了一项研究，他们发现许多著名的基准数据集都有错误的标签。比如说这只来自CIFAR-10数据集中的绿色青蛙就被打上了猫的标签，我可从来都没见过绿色的猫。右图则是更系统的分析，我们可以看到即使是非常有名的ImageNet中也有5.83%的标签错误率。QuickDraw数据集就更糟糕了，它的标签错误率甚至达到了10%左右。要知道这里罗列的可都是行业内公认的AI基准数据集，但它们中也存在错误。
第四，偏差（bias）问题。我们都知道如果数据集本身是有偏差的，那么基于该数据集训练出来的模型也会是有偏差的。

文章图片

文章图片
在图中我们可以看到这些公开数据集的种族分布，很大一部分人脸数据都是以白人为主的，这肯定有些偏颇的。在左下我们可以看到这些数据集在性别与年龄的比例上也是有偏差的。如果我们使用这样有偏见的公开数据集去训练模型，那么这个模型也会是有偏差的。右图展示了微软、旷视以及IBM的商用人脸识别模型的预测准确性，结果是非常让人震惊的：对于肤色较深的女性，这些模型的准确性都非常差，最高的错误率甚至达到了34% 。但是对于肤色较浅的男性，模型的预测准确性都非常的高。正是这类现象说明了带有偏见的数据会导致最终训练出来的模型也是存在偏见的。