网站首页
手机版

思维链不存在了?纽约大学最新研究:推理步骤可省略

更新时间:2024-06-09 13:46作者:小乐

编辑:艾伦

【新智元简介】思想链技术或将被推翻!纽约大学的最新研究表明,大模型并没有利用思维链的推理能力,它只是偷偷地添加了计算!流行的思维链技术或将被推翻!您是否仍然对大型模型能够利用思维链一步步思考感到惊讶?还在为写不出思维链提示词而苦恼吗?纽约大学的研究人员表示:“没关系,都一样。”推理步骤并不重要。如果您不愿意,可以不必写提示词,只需使用省略号即可。

论文地址:https://arxiv.org/pdf/2404.15758 这篇文章的标题甚至直接用“让我们逐点思考”来与“让我们一步一步思考”的思维链条进行对比,可见“省略”的威力。 “点点点”的威力研究人员发现,如果将思想链(CoT)推理中的具体步骤换成无意义的“……”,推理结果将会大不相同。例如,在下面的示例中:让模型计算前6 个数字中有多少个大于5。

如果直接提出问题并让模型回答,结果将令人难以置信:6 中的6 会被数到7。相反,使用思维链提示,模型会逐步比较大小,然后最终得到正确答案:“25、75、15、85、25、85,这是3位数字。”但更离谱的是本文采用的“玄学”方法:不需要写步骤,只需要输出相同数量的“点”(点),并且不影响最终结果。 —— 这不是巧合。大量实验证明后两种方法的性能接近。换句话说,我们以为模型性能的提升来自于“一步步思考”,但实际上可能只是因为LLM获得了更多代币的算力!你以为模型在思考,但实际上它是在烧烤。

—— 愚蠢的人类,你居然试图教我如何用幼稚的例子推理。你知道吗,我想要的始终是计算。 “思想锁链从来没有存在过,将来也不会存在”(后藤)。文章作者Jacob Pfau 表示,这项工作证明了该模型并没有受益于思维链带来的语言推理。使用重复的“.”来填充token可以达到与CoT相同的效果。

当然,这也引发了对齐问题:因为这一事实表明模型可以执行在CoT 中不可见的隐藏推理,并且在某种程度上超出了人类的控制范围。

文章的结论令网友震惊,可以说颠覆了我们长久以来的认知。有网友表示:我学到了面膜的精髓。

“这真正意味着什么:模型可以在我们不知情的情况下使用这些标记独立思考。”

有网友表示,难怪我打字时总喜欢用“……”。

有网友直接开始实际测试:

虽然不知道他的理解是否正确,但有网友认为LLM隐藏在思维链中的推理是没有根据的。毕竟,大型模型的输出原则上是基于概率,而不是通过有意识的思考。 CoT 提示仅使统计模式的子集变得明确。模型通过生成与模式一致的文本来模拟推理,但它们没有能力验证或反映其输出。一点一点地思考当面对复杂的问题时,我们人类会下意识地进行一步一步的推理。

受此启发,Google 研究人员在2022 年发表了著名的Chain-of-Thought,要求语言模型逐步解决问题的方法,使得模型能够解决以前看似无法解决的问题,显着提升LLM 的性能,或者挖掘LLM的潜力。

论文地址:https://arxiv.org/pdf/2201.11903 虽然一开始大家都不知道这个东西为什么管用,但很快就被传播开来,因为它真的很好用。

随着大型模型和即时Word项目的起飞,CoT已成为LLM解决复杂问题的有力工具。当然,这个过程中也有很多研究团队在探索CoT的工作原理。

该模型不具备推理思维链带来的性能提升。模型真的是一步步学习解决问题,还是只是因为令牌数量变长带来的额外计算量?既然你不确定逻辑推理是否有效,那就根本不使用逻辑,将所有推理步骤替换为“.”,这肯定是没有用的。这些称为填充令牌。研究人员使用了“小羊驼”模型:一个34M 参数的Llama,有4 层、384 个隐藏维度和6 个注意力头。模型参数是随机初始化的。这里考虑两个问题:

(1) 哪些类型的评估数据可以从填充令牌中受益(2) 需要什么样的训练数据来教导模型使用填充令牌

对此,研究人员设计了2个任务并构建了相应的合成数据集。每个数据集都强调了不同的条件,在该条件下填充令牌可以为Transformer 提供性能改进。 3SUM 让我们看看第一个更困难的任务:3SUM。要求模型在序列中选择三个满足条件的数字。例如,三个数相加除以10 余数为0。

在最坏的情况下,这个任务的复杂度是N的3次方,而Transformer层之间的计算复杂度是N的2次方。因此,当输入序列长度非常大时,3SUM问题自然会超过Transformer 的表达能力。实验设置了三组控制: 1. 填充标记:序列使用重复的“.”作为中间填充,如“A05B75 C22 D13 : ANS True”。每个点代表一个单独的token,对应下面思维链中的token。 2.可并行CoT解,序列形式为:“A05 B75 C22 D13 : AB 70 AC 27 AD 18 BC 97 BD 88 CD B ANS True”。思想链通过写出所有相关的中间和,将一个3SUM 问题简化为一系列2SUM 问题(如下图所示)。这种方法将问题的计算量减少到N次方。——Transformer可以处理,并且可以并行化。

3. 自适应CoT解,序列的形式为:“A15 B75 C22 D13 : A B C 15 75 22 2 B C D 75 22 13 0 ANS True”。与上述方案巧妙地将3SUM分解为可并行的子问题不同,这里我们希望利用启发式方法生成灵活的思维链来模仿人类推理。这种实例自适应计算与填充令牌计算的并行结构不兼容。

从上图的结果可以看出,在不输出padding token的情况下,模型的准确率一般会随着序列变长而下降,而当使用padding token时,准确率仍保持在100%。 2SUM-Transform 第二个任务是2SUM-Transform。只需要判断两个数之和是否满足要求即可。计算量由Transformer控制。

然而,为了防止模型“作弊”,输入的标记是就地计算的,输入的每个数字都会移动随机偏移量。

结果如上表所示:填充令牌法的准确率达到93.6%,非常接近Chain-of-Thought。没有中间填充,准确率只有78.7%。但这种改进仅仅是由于训练数据的呈现方式的差异吗?通过正则化损失梯度?为了验证填充标记是否会带来与最终预测相关的隐藏计算,研究人员冻结了模型权重,仅对最后一个注意力层进行了微调。

上述结果表明,随着更多的填充标记可用,模型的准确性不断提高,这表明填充标记确实在执行与3SUM 预测任务相关的隐藏计算。

局限性虽然填充代币的方法很玄学、很神奇,甚至很有效,但现在说思维链条被颠覆还为时过早。作者还表示,填充token的方法并没有突破Transformer计算复杂度的上限。此外,学习使用填充令牌需要特定的训练过程。比如本文就采用了强化监督的方式,使得模型最终收敛。不过,有些问题可能已经浮出水面,比如隐藏的安全问题,比如提示词项目是否有一天会突然不复存在?

为您推荐

春季名校直通车:上海纽约大学 上海纽约大学概况

3.8 上海纽约大学 招聘会上海纽约大学成立于2012年,是经教育部批准,在上海市及浦东新区政府大力支持下,由华东师范大学和纽约大学合作创办的中国第一所中美合办研究型大学,也是纽约大学全球体系中具有学位授予资格的三大校园之一。这座建立在寸土

2024-06-09 13:47

中国最烧钱的六所大学(仅学费)第一、上海纽约大学,四年大 最烧钱的大学是什么大学

中国六所最烧钱的大学:教育成本的投资还是奢侈的浪费?一、上海纽约大学:价值与标价是否匹配?二、武汉昆山杜克大学:金钱是否能换来教育品质?三、上海兴伟学院:学费高昂,教育质量有保障吗?四、香港中文大学(深圳):追求名校是否值得巨额投资?五、宁

2024-06-09 13:46

纽大,从“保底”到高攀不起,到底发生了什么?

纽约大学,占据着纽约最核心的地段 、有着顶尖的研究中心和教育资源,是学子心中梦想的学习殿堂,受到广大申请者的青睐。纽大不仅仅是学霸的“保底校”,也是普通学生的“大众情人校”。它到底有多受留学生欢迎呢?根据纽约大学官宣数据显示:2022Fal

2024-06-09 13:45

全球心血管病科技影响力百强医院(全世界心血管医院排名)

依据全球心血管疾病学术影响力评价平台(CAPE)统计及评选,杨宝峰院士公布了全球及中国医院心血管病科技影响力报告,并对CAPE数据来源、评选权重进行了补充介绍。在2022年度全球医院缺血性心脏病研究学术影响力综合排名、2022年度全球医院高

2024-06-09 13:45

全球心血管病科技影响力百强医院,心血管疾病排名第一

依据全球心血管疾病学术影响力评价平台(CAPE)统计及评选,杨宝峰院士公布了全球及中国医院心血管病科技影响力报告,并对CAPE数据来源、评选权重进行了补充介绍。在2022年度全球医院缺血性心脏病研究学术影响力综合排名、2022年度全球医院高

2024-06-09 13:44

遥遥领先!全球最佳医院排名出炉:前5名有4家在美国 一...(全球十大最佳医院)

遥遥领先!全球最佳医院排名出炉:前5名有4家在美国一份最新的研究报告显示,全球250个最佳医院的排名中,前5名中美国占了4个,还有一个在加拿大。该报告由《新闻周刊》和著名数据分析网站 Statista 合作编写,分析了全球30 个国家和地区

2024-06-09 13:44

加载中...