惨遭下架后，MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet，mit数据库

更新时间：2024-06-11 08:41作者：小乐

近日，麻省理工学院研究团队发表论文，指责著名数据集ImageNet 存在系统性错误。该论文还被国际机器学习会议ICML2020接收。

同时，这篇论文编号为《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》，也发表在预印本存储库arXiv上。

MIT研究团队之所以在ICML会议上介绍这项研究，是因为最近的“Tiny Images”争议。

就在本月早些时候，麻省理工学院(MIT) 宣布永久删除包含8000 万张图像的Tiny Images 数据集，并公开道歉。原因是相关研究人员发表论文，指控Tiny ImageNet数据集包含多个危险标签，包括种族歧视、性别歧视、色情内容等，而且指控有理有据。

论文显示，ImageNet 在语义结构分析中使用了WordNet 名词，其中包含种族歧视等危险内容。同时，由于图像太小，数据量太大，没有对图像标签进行人工一一检查，导致出现问题。

众所周知，著名的数据集ImageNet也使用WordNet进行语义结构分析。那么，ImageNet数据集是否也存在同样的问题呢？对此，麻省理工学院的研究团队给出了答案。

ImageNet 基准测试与实际情况不符。大规模ImageNet数据集的出现可以说意味着机器学习深度革命的新起点。 2009年，李飞飞领导的研究团队在计算机视觉与模式识别大会（CVPR）上首次推出了ImageNet。 ImageNet 数据集包含10,000 个类别和超过100 万张图像。数据量是前所未有的。

正是由于数据量大、质量高，ImageNet数据集被广泛用于预训练和基准测试。然而，麻省理工学院的研究团队在最近的一项研究中指出：

ImageNet存在明显的“系统标注问题”，导致其作为基准数据集时与实际情况不符。

他们发现ImageNet 数据集中大约20% 的图像包含两个或更多对象。

在分析多个物体识别模型后，数据显示，包含多个物体的照片导致整体基线的准确度下降10%。

举个简单的例子：如果这张图片是ImageNet数据集中的一张高清图像，我们可以看到这张图片包含了多个物体，包括一个女孩、一把吉他和一个唱歌的麦克风，而该图片的主要目标是图片应该是个女孩。

然而，ImageNet的数据标签可能不是女孩，也可能是唱歌的麦克风或吉他。重要的是ImageNet只会标注一个标签，这可能会导致ImageNet在目标识别中出现错误。

研究人员在论文中指出

“总的来说，单个ImageNet 标签可能并不总是捕获ImageNet 图像的主要对象。然而，当我们训练和评估时，我们将标签视为图像的底层真相，因此这可能会导致测试和现实世界的物体识别任务之间出现不一致，无论是在模型执行还是评估性能方面。”

看到这里，你可能会想，为什么图像不能被准确标注呢？其实问题的关键在于ImageNet使用的标记工具WorldNet。

WordNet 名词标记是关键WordNet 由George Armitage Miller 在20 世纪80 年代创立，广泛应用于数据集收集和标记过程。简单理解，ImageNet会根据WorldNet提供的名词及其语义层次结构作为数据集的初始来源，在搜索引擎或Flickr等网站中进行图像搜索。

当WordNet提供名词时，根据其设定的语音层次结构，ImageNet需要扩展该名词的父节点的同义词，并将其作为搜索关键字。例如，搜索“whippet”类别名词（父节点为：“狗”）也会包含“whippet 狗”。

这类似于我们经常看到的“相关搜索”。为了进一步扩大图像库，数据集创建者还进行了多种语言的搜索。

但这里重要的一点是，对于每个检索到的图像，已经确定了一个标签，如果该标签包含在数据集中，它将被分配给该图像。也就是说，标签仅由用于相应搜索查询的WordNet 节点给出。

在这个过程中，WordNet的语义结构会将非主要目标的图像纳入到数据集中，从而导致前面提到的标签偏差。正如论文中的数据所示，不同的对象目标出现在同一分类标签中。（如图所示）

既然如此，为什么在数据集创建过程中广泛使用WordNet名词呢？

一方面，这是因为WorldNet可以完成大量数据的自动标注。我们知道，所有的数据集在使用之前都必须完成标注任务，而优秀的数据集的规模是非常大的。如果全部都是手工标注的话会非常困难，但是WorldNet可以很好的解决这个问题。

另一方面，对于ImageNet、WordNet来说，仅获得初始数据标签，其准确性还需要通过相关模型再次验证。一般来说，ImageNet数据集的创建过程分为两个阶段：自动图像采集（automated data collection）和众包过滤（crowd-sourcedfiltering），众包过滤就是所谓的评审阶段，分为以下5个阶段步骤：

潜在标签（Candidate Labels）：通过将现有的ImageNet图像标签与模型预测的前5个标签相结合，获得每张图像的潜在标签。

选择频率：通过Mechanical Turk（MTurk）平台，将潜在标签与注释内容进行比较。经过反复的过滤循环，最好的标签就是出现频率最高的标签（一般小于5）。

CLASSIFY任务：针对获得的少数多个标签，重新定义一组新的标注内容，根据标注信息为不同的对象分配标签，确定主要对象的标签。这个过程称为分类。

物体标注：总结以上训练后，得到更细粒度的图像标注；

与原始ImageNet标签相比，众包过滤后生成的注释可以更细粒度地表征图像的内容。然而研究人员发现，这些注释内容可能达不到预期的效果。如下图所示，CONTAINS 任务会选择Multiple labels are valid for images，并且对于70% 的图像，选择的注释的标签频率至少是ImageNet 原始标签的一半。

下图显示，尽管他们只感知单个物体，但他们经常选择多达10 个类别标签。因此，对于单目标图像，ImageNet验证过程无法获得准确的标签。

因此，可以说图像标注在很大程度上仍然依赖于自动检索（WorldNet）过程，而众包过滤的评审过程仍然有很大的改进空间。

关于未来如何优化创建数据集的任务，研究人员在论文中表示，我们相信开发注释过程，特别是审查阶段，以更好地捕获地面事实，同时保持可扩展性，是未来研究的重要途径。 ”

涉嫌种族歧视，大规模数据集作为人工智能技术的基础持续存在争议。数据集在许多研究领域有着广泛的使用场景，尤其是在计算机视觉领域。近年来，因数据集的使用而引发的隐私泄露、种族歧视等问题接连出现，让人工智能技术的发展备受争议。

除了近期麻省理工学院因涉嫌种族歧视删除包含8000张图像的Tiny Image数据外，此前，一种图像修复算法PULSE也曾在学术圈引起轩然大波。有网友发现，PULSE修复马赛克图像时，将奥巴马的脸部图像变成了高分辨率的白人。这件事引起了黑人网友的不满。

对此，图灵奖之父Lecun在推特上表示，训练结果存在种族偏见，因为数据集本身就存在偏见，工程师在使用时应该注意这一点。

今年因数据集引发的种族歧视事件多起，而解决这些数据集争议的无非是在数据收集和标注阶段进行改进。研究人员表示，对于大型数据集，理想的方法是收集世界各地指定目标的图像，并让专家按准确的类别手动过滤和标记它们。这里需要注意的是，非专家的手动标记也可能会出现错误。

但从目前来看，这个方法是非常不现实的。事实上，ImageNet等数据集都是从互联网搜索引擎爬取的图像，质量参差不齐，图像审核不够严谨。同时，专家对大量数据的手工标注也很难实现。然而，正如这项研究声称的那样，技术可以进一步改进自动图像审查的过程，以提高数据集的质量。

此外，学术界越来越关注与数据集相关的缺陷，计算机语言协会（ACL）本月早些时候重点关注了这个问题。

参考链接：雷锋网雷锋网雷锋网

https://arxiv.org/abs/2005.11295

https://arxiv.org/pdf/2005.11295.pdf

https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

https://venturebeat.com/2020/07/01/mit-takes-down-8000万个微小图像数据集由于种族主义和攻击性内容/

上一篇：英伟达StyleGAN已催生一堆假片网站，这些waifu、猫、人都不存在（英伟达论坛）

下一篇：超全！拯救设计师之100个设计资源网站，再也不用愁配图了（设计资源下载网站）

加载中...

美国留学

惨遭下架后，MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet，mit数据库

为您推荐

iPhone打败了相机，但拍照专项测试却输给了这款国产手机（iphone拍照能力）

国外免费高清图片网站分享(2)（国外高清图片素材网站推荐）

英伟达StyleGAN已催生一堆假片网站，这些waifu、猫、人都不存在（英伟达论坛）

超全！拯救设计师之100个设计资源网站，再也不用愁配图了（设计资源下载网站）

人脸识别在美国：科技也是“双刃剑”

明查 | 英国发明“九宫格”红绿灯？因造成交通混乱被废除？

热门文章

热门推荐

最新文章