网站首页
手机版

惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet,mit数据库

更新时间:2024-06-11 08:41作者:小乐

近日,麻省理工学院研究团队发表论文,指责著名数据集ImageNet 存在系统性错误。该论文还被国际机器学习会议ICML2020接收。

同时,这篇论文编号为《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》,也发表在预印本存储库arXiv上。

MIT研究团队之所以在ICML会议上介绍这项研究,是因为最近的“Tiny Images”争议。

就在本月早些时候,麻省理工学院(MIT) 宣布永久删除包含8000 万张图像的Tiny Images 数据集,并公开道歉。原因是相关研究人员发表论文,指控Tiny ImageNet数据集包含多个危险标签,包括种族歧视、性别歧视、色情内容等,而且指控有理有据。

论文显示,ImageNet 在语义结构分析中使用了WordNet 名词,其中包含种族歧视等危险内容。同时,由于图像太小,数据量太大,没有对图像标签进行人工一一检查,导致出现问题。

众所周知,著名的数据集ImageNet也使用WordNet进行语义结构分析。那么,ImageNet数据集是否也存在同样的问题呢?对此,麻省理工学院的研究团队给出了答案。

ImageNet 基准测试与实际情况不符。大规模ImageNet数据集的出现可以说意味着机器学习深度革命的新起点。 2009年,李飞飞领导的研究团队在计算机视觉与模式识别大会(CVPR)上首次推出了ImageNet。 ImageNet 数据集包含10,000 个类别和超过100 万张图像。数据量是前所未有的。

正是由于数据量大、质量高,ImageNet数据集被广泛用于预训练和基准测试。然而,麻省理工学院的研究团队在最近的一项研究中指出:

ImageNet存在明显的“系统标注问题”,导致其作为基准数据集时与实际情况不符。

他们发现ImageNet 数据集中大约20% 的图像包含两个或更多对象。

在分析多个物体识别模型后,数据显示,包含多个物体的照片导致整体基线的准确度下降10%。

举个简单的例子:如果这张图片是ImageNet数据集中的一张高清图像,我们可以看到这张图片包含了多个物体,包括一个女孩、一把吉他和一个唱歌的麦克风,而该图片的主要目标是图片应该是个女孩。

然而,ImageNet的数据标签可能不是女孩,也可能是唱歌的麦克风或吉他。重要的是ImageNet只会标注一个标签,这可能会导致ImageNet在目标识别中出现错误。

研究人员在论文中指出

“总的来说,单个ImageNet 标签可能并不总是捕获ImageNet 图像的主要对象。然而,当我们训练和评估时,我们将标签视为图像的底层真相,因此这可能会导致测试和现实世界的物体识别任务之间出现不一致,无论是在模型执行还是评估性能方面。”

看到这里,你可能会想,为什么图像不能被准确标注呢?其实问题的关键在于ImageNet使用的标记工具WorldNet。

WordNet 名词标记是关键WordNet 由George Armitage Miller 在20 世纪80 年代创立,广泛应用于数据集收集和标记过程。简单理解,ImageNet会根据WorldNet提供的名词及其语义层次结构作为数据集的初始来源,在搜索引擎或Flickr等网站中进行图像搜索。

当WordNet提供名词时,根据其设定的语音层次结构,ImageNet需要扩展该名词的父节点的同义词,并将其作为搜索关键字。例如,搜索“whippet”类别名词(父节点为:“狗”)也会包含“whippet 狗”。

这类似于我们经常看到的“相关搜索”。为了进一步扩大图像库,数据集创建者还进行了多种语言的搜索。

但这里重要的一点是,对于每个检索到的图像,已经确定了一个标签,如果该标签包含在数据集中,它将被分配给该图像。也就是说,标签仅由用于相应搜索查询的WordNet 节点给出。

在这个过程中,WordNet的语义结构会将非主要目标的图像纳入到数据集中,从而导致前面提到的标签偏差。正如论文中的数据所示,不同的对象目标出现在同一分类标签中。 (如图所示)

既然如此,为什么在数据集创建过程中广泛使用WordNet名词呢?

一方面,这是因为WorldNet可以完成大量数据的自动标注。我们知道,所有的数据集在使用之前都必须完成标注任务,而优秀的数据集的规模是非常大的。如果全部都是手工标注的话会非常困难,但是WorldNet可以很好的解决这个问题。

另一方面,对于ImageNet、WordNet来说,仅获得初始数据标签,其准确性还需要通过相关模型再次验证。一般来说,ImageNet数据集的创建过程分为两个阶段:自动图像采集(automated data collection)和众包过滤(crowd-sourcedfiltering),众包过滤就是所谓的评审阶段,分为以下5个阶段步骤:

潜在标签(Candidate Labels):通过将现有的ImageNet图像标签与模型预测的前5个标签相结合,获得每张图像的潜在标签。

选择频率:通过Mechanical Turk(MTurk)平台,将潜在标签与注释内容进行比较。经过反复的过滤循环,最好的标签就是出现频率最高的标签(一般小于5)。

CLASSIFY任务:针对获得的少数多个标签,重新定义一组新的标注内容,根据标注信息为不同的对象分配标签,确定主要对象的标签。这个过程称为分类。

物体标注:总结以上训练后,得到更细粒度的图像标注;

与原始ImageNet标签相比,众包过滤后生成的注释可以更细粒度地表征图像的内容。然而研究人员发现,这些注释内容可能达不到预期的效果。如下图所示,CONTAINS 任务会选择Multiple labels are valid for images,并且对于70% 的图像,选择的注释的标签频率至少是ImageNet 原始标签的一半。

下图显示,尽管他们只感知单个物体,但他们经常选择多达10 个类别标签。因此,对于单目标图像,ImageNet验证过程无法获得准确的标签。

因此,可以说图像标注在很大程度上仍然依赖于自动检索(WorldNet)过程,而众包过滤的评审过程仍然有很大的改进空间。

关于未来如何优化创建数据集的任务,研究人员在论文中表示,我们相信开发注释过程,特别是审查阶段,以更好地捕获地面事实,同时保持可扩展性,是未来研究的重要途径。 ”

涉嫌种族歧视,大规模数据集作为人工智能技术的基础持续存在争议。数据集在许多研究领域有着广泛的使用场景,尤其是在计算机视觉领域。近年来,因数据集的使用而引发的隐私泄露、种族歧视等问题接连出现,让人工智能技术的发展备受争议。

除了近期麻省理工学院因涉嫌种族歧视删除包含8000张图像的Tiny Image数据外,此前,一种图像修复算法PULSE也曾在学术圈引起轩然大波。有网友发现,PULSE修复马赛克图像时,将奥巴马的脸部图像变成了高分辨率的白人。这件事引起了黑人网友的不满。

对此,图灵奖之父Lecun在推特上表示,训练结果存在种族偏见,因为数据集本身就存在偏见,工程师在使用时应该注意这一点。

今年因数据集引发的种族歧视事件多起,而解决这些数据集争议的无非是在数据收集和标注阶段进行改进。研究人员表示,对于大型数据集,理想的方法是收集世界各地指定目标的图像,并让专家按准确的类别手动过滤和标记它们。这里需要注意的是,非专家的手动标记也可能会出现错误。

但从目前来看,这个方法是非常不现实的。事实上,ImageNet等数据集都是从互联网搜索引擎爬取的图像,质量参差不齐,图像审核不够严谨。同时,专家对大量数据的手工标注也很难实现。然而,正如这项研究声称的那样,技术可以进一步改进自动图像审查的过程,以提高数据集的质量。

此外,学术界越来越关注与数据集相关的缺陷,计算机语言协会(ACL)本月早些时候重点关注了这个问题。

参考链接:雷锋网雷锋网雷锋网

https://arxiv.org/abs/2005.11295

https://arxiv.org/pdf/2005.11295.pdf

https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

https://venturebeat.com/2020/07/01/mit-takes-down-8000万个微小图像数据集由于种族主义和攻击性内容/

为您推荐

iPhone打败了相机,但拍照专项测试却输给了这款国产手机(iphone拍照能力)

年底,各种调查、评奖和横向测试都在积极进行中,一些有趣的排行和测试结果也引起了小狮子的注意……iPhone仍是最受欢迎拍摄相机国外知名作品分享网站 Flickr 今天发布了 2017 年度数据,展示了网站上的各种数据,包括 2017年25大

2024-06-11 08:43

国外免费高清图片网站分享(2)(国外高清图片素材网站推荐)

上次天堂精心整理创作的《国外免费高清图片网站分享(1)》发布之后,得到许多人喜欢,这让我有点意外,毕竟这类内容,百度一下,还是有不少类似的。我想原因是我比较用心去做这件事吧,每一个网站找到之后我都要打开浏览体验,再截图,写文字介绍,编辑排版

2024-06-11 08:42

英伟达StyleGAN已催生一堆假片网站,这些waifu、猫、人都不存在(英伟达论坛)

乾明 发自 凹非寺量子位 出品 | 公众号 QbitAI互联网世界里出现了一堆奇怪的网站,里面挂着猫、waifu(女性动画人物,代指wife)、人和房间的照片。它们有一个共同特征,那就是没有人见过它们,也不知道它们来自哪,叫什么。因为它们都

2024-06-11 08:42

超全!拯救设计师之100个设计资源网站,再也不用愁配图了(设计资源下载网站)

如何才能完成一个成功的设计?对于设计师和摄影师来说,除了巧妙的设计构思,设计资源也必不可少。如何才能快速找到这些设计资源,提高工作效率?在本篇文章中,斯莫格小姐姐为大家整理100个设计资源网站。全文主要包括图片、图标、Logo、字体、网站模

2024-06-11 08:41

人脸识别在美国:科技也是“双刃剑”

人脸识别在美国人脸识别技术正在突飞猛进,但是,在它最先兴起的地方,一些人已经警惕起来。今年1月29日,美国旧金山市议会的一位议员提交了《停止秘密监视条例》的立法提案。如果该提案通过,旧金山将成为美国第一个禁止政府使用人脸识别技术的城市,并将

2024-06-11 08:40

明查 | 英国发明“九宫格”红绿灯?因造成交通混乱被废除?

明查员丨张秋之 郑淑婧速览1868年,英国设计生产第一个红绿灯系统并投入使用,但其外观和运行规则都与网传的“九宫格”红绿灯大相径庭。1872年,上述红绿信号灯系统被更新兴的设计取代而拆除,并非因“造成交通混乱”而废除。根据中国公安部交通管理

2024-06-11 08:40

加载中...