网站首页
手机版

GRE作文用AI打分,20周年了:那时算法有偏见,如今还是没修复 gre作文频率统计

更新时间:2024-03-14 03:47作者:小乐

敖飞寺的栗子

量子比特报告|公众号QbitAI

GRE 论文是使用AI 进行评分的。

这原本不是新闻。

然而,由于美国媒体VICE发布的一项调查,此事成为热议的焦点。

VICE 调查了美国50 个州,发现至少21 个州(包括加州)的教育系统已经使用AI 作为标准化考试中作文评分的小学/中学主要工具。

蓝色=AI评分,浅蓝色=试点,红色=无AI评分,粉色=取决于学区,灰色=无响应

在这21个州中,只有3个州表示人类也会参与论文评分;其余18个州只会随机选择5%-20%的论文,交给人类审核AI给出的分数。

问题在于,标准化考试常常被用作选拔和决定人类未来的依据。如果AI得分,命运就掌握在AI手中。

这时候,人们不禁想起了GRE这位20年前就开始用AI评判论文的大四学生。

许多研究表明,许多基于人工智能的论文评审机制,包括GRE评分机电子评分器,都存在明显的缺陷。

然而这些年来,AI并没有被各种作文考试抛弃,反而越来越受欢迎。

于是,《黑客新闻》网友们掀起了热议,不到一天的时间,人气就达到了330+。

GRE:机器比人更青睐中国考生。早在1999 年,主办GRE 考试的教育考试服务中心(ETS) 就开始使用电子评分器对论文进行评分。

根据官方信息,该自然语言处理(NLP)模型有以下8个评分标准:

· 基于词汇量度的内容分析

· 词汇复杂性/措辞

· 语法错误的比例

· 使用错误的比例

· 力学错误比例

指拼写错误、大小写错误、标点错误等技术问题。

· 风格评论比例

例如,某些短语太多、太短的句子太多、太长的句子太多等等。

· 组织与发展分数

· 奖励惯用语的功能

当然,这个AI不仅仅服务于GRE。至少,托福和GRE一样,也是ETS出品的考试。

对于这个算法的缺陷,ETS官方做了大量的研究,并且从不回避研究结果。

在1999年、2004年、2007年、2008年、2012年和2018年写的论文中可以发现,人工智能给中国大陆考生的分数普遍高于人类的分数。

相比之下,在非裔美国人中,人工智能的得分往往低于人类。母语为阿拉伯语、西班牙语和印地语的候选人也存在类似情况。尽管团队一直在改进算法,但这个问题并没有消除。

ETS 的一位高级研究员表示:

如果我们希望算法对某个国家的某个群体友好,那么很可能会伤害其他群体。

更进一步,让我们观察一下AI 在各个项目上的得分。

你会发现,在所有考生中,e-rater给中国大陆考生的语法和力学成绩普遍偏低;

在文章长度和复杂词的选择方面,中国大陆考生的人工智能得分高于平均水平。最终,人工智能给大陆考生的总体评分高于人类。 GRE论文满分6分,AI分数平均比人类高1.3分。

相比之下,在非裔美国人中,AI 的平均得分比人类低0.81 分。而且,这些只是平均数据,对于许多候选人来说,差异甚至比这还要显着。

无论是1.3还是0.81,在6分制考试中都不是一个小数字,可能会严重影响考生的成绩。

不仅如此,麻省理工学院的朋友开发了一种名为BABEL 的算法,可以将复杂的单词和句子拼贴在一起。生成的文章没有任何实际意义,但被GRE的在线评分工具ScoreItNow打出了4分!良好的结果。

但ETS 表示,人工智能并不单独评判论文。每一篇由人工智能评分的作文都会同时由人类评分。然后,将人类和机器分数的差异交给第二个人来判断,得到最终分数。

因此,ETS 相信考生不会受到人工智能缺陷的不利影响。

然而,相比之下,传统方法是由两个人同时对一篇文章进行评分;当AI取代了其中一个人的评分时,就相当于那个人的责任变成了审稿。

成本可能下降了很多,但很难说会对结果产生多大影响。至少评分机制和AI介入之前是不一样的。

此外,AI的存在不仅影响评分,还直接影响考生的应试策略。近年来,取悦AI的策略越来越多:

摘自ChaseDream论坛@人中人

幸运的是,GRE 是由人类和人工智能共同评分的。

不过,有很多考试是直接交给AI来评论文的:

不仅仅是GRE 算法有问题。例如,VICE 的一项调查发现,犹他州多年来一直使用人工智能作为其主要论文评分工具。

一位州官员解释了原因:

除了耗时之外,手动评分对于国家来说也是一笔巨大的开支。

那么,利用AI进行写作评分能否做到公平公正,同时降低成本呢?

美国研究院(AIR) 是一个非营利组织,也是犹他州的主要测试提供商。

关于给AI打分什么样的问题,AIR给出了一个模板:

该问题要求考生观看海牛的图像并写出观察结果(A) 和推论(B)。

AIR每年都会发布一份报告来评估一些新主题的公平性。

评估的重点之一是女性和少数族裔学生在特定测试问题上的表现是否比男性/白人学生差。该指标称为“差异项函数(DIF)”。

报告显示,2017-2018学年,女生和少数族裔学生的三至八年级写作试题中,有348道被判定为轻微DIF;相比之下,男孩和白人学生的差异较小。有40 个问题。

此外,还有3道题被判定为女学生和少数民族学生存在严重差异。这些问题将由专门委员会进行审查。

可能造成DIF的原因有很多,其中算法偏差是大家最关心的因素。

一位来自犹他州的家长(@dahart) 占据了黑客新闻讨论区的顶层。

他不喜欢听那些官员谈论“成本”。他认为教育本质上是耗时耗力的,不可能又快又便宜。

他说,孩子的作文是由机器评分的,如果全家人都对AI给出的分数不满意,配偶和孩子都会哭。

还有一件事当然,人工智能论文写作不仅限于美国。

去年,《南华早报》表示,中国有6万所学校依靠AI批作业,分布在全国各地。

其中,学生提交的英语作业也是由机器评分的。构图校正系统来自Kuju Correction Network。要求理解文本的总体逻辑和意义,对作文的整体质量做出合理的人性判断,并对写作风格、结构、主题等提出建议。

据说,AI 和人类老师对作文的评分在92% 的情况下是一致的。

但从评论来看,学生们和他们在美国的朋友一样,也受到了很多委屈:

这样的情感仍然没有界限。

参考:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS发表的多篇NLP论文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

- 超过-

诚意招聘

Qubit正在招聘编辑/记者到北京中关村工作。我们期待有才华、有热情的学子加入我们!相关详情请在量子比特公众号(QbitAI)对话界面回复“招聘”。

量子比特QbitAI·今日头条签约作者

'' 追踪AI技术和产品新进展

为您推荐

武汉申友推荐丨年后备考GMAT,必收藏的宝藏网站,超实用 武汉gmat培训班哪家好

文章首发自“武汉申友留学考试”公众号,每天更新GMAT、雅思、留学干货,助力备考GMAT备考想要高分,除了基本的GMAT备考资料外,这6款实用宝藏网站/软件不要错过,好好利用起来,帮助你轻松高效备考,顺利出分。武汉申友七七学姐给大家列出了G

2024-03-14 03:41

七彩虹CGU 2018开战!电竞大咖+美女解说 神秘卡皇首曝,七彩虹丐版卡

电子竞技一直都是被高度关注的行业,同时电竞也是一种职业,2003年11月18日就获得国家体育总局正式成为我国第99个正式体育竞赛项,2008年又改批为第78个正式体育竞赛项,尤其是最近两年,电竞行业更是空前火爆,各种比赛、活动精彩纷呈。作为

2024-03-14 03:36

游戏爱好者和电脑硬件发烧友的盛宴,CGU2018活动回顾

CGU是由七彩虹主办的电竞赛事,自2013年起,CGU这个舞台为国内电竞输入了不少电竞新血液。此次“CGU 2018七彩虹游戏联盟盛典”与芒果互娱展开合作,NVIDIA、英特尔、京东游戏以及马栏山文创投等久负盛名的企业鼎力支持,迪瑞克斯、O

2024-03-14 03:30

九段新旗舰登场!七彩虹CGU2018盛大开幕(七彩虹九段什么时候出的)

CGU是由游戏硬件领创者七彩虹主办的电竞赛事,自2013年起,CGU这个舞台为国内电竞输入了不少电竞新血液。此次“CGU 2018七彩虹游戏联盟盛典”与芒果互娱展开合作,NVIDIA、英特尔、京东游戏以及马栏山文创投等久负盛名的企业鼎力支

2024-03-14 03:23

硬件是电竞的源动力 CGU2017大咖群访

CGU2017泛亚太电子竞技大赛(CGU APAC 2017)是由七彩虹独立策划、运营的面向亚太地区最广大电竞爱好者的洲际民间电竞赛事。12月16日至17日,2017泛亚太七彩虹游戏联盟盛典将于武汉理工大学南湖校区体育中心举办。诸如RNG这

2024-03-14 03:15

七彩虹泛亚游戏盛典CGU APAC 2017上演:强大硬件+COS眼花缭乱

电子游戏一度被很多家长、老师、专家视为危害孩子成长的洪水猛兽,但如今,电子竞技已经是国家认可的体育比赛项目,越来越多的硬件与游戏厂商、大批的热血青少年投身其中,推动了整个行业的健康发展,规模宏大的电竞赛事也遍布全球,影响力越来越大。作为本土

2024-03-14 03:08

加载中...