如何激发大模型算术推理能力？科学家从神经元激活角度给出答案

更新时间：2024-08-13 08:20作者：小乐

在过去的一两年里，大型模型受到了很多关注，特别是它们在解决算术问题方面的性能。事实上，早在2022年，谷歌研究团队的研究人员就提出了思想链（CoT）提示，这是一种提示工程方法，可以有效提高大型模型的数学推理能力，并在少样本环境下进行学习。其有效性已得到验证[1]。尽管该方法很快得到广泛应用，但该领域的研究人员仍然对其如何在大型模型中激发算术推理知之甚少。此前，相关探索主要集中在实验观察CoT提示句中不同成分对大型模型算术推理效果的影响。具体来说，尝试替换或删除CoT提示语句中的组件，例如删除CoT样本中的言语推理部分，只留下关键的数学公式，并观察现有算术中替换或删除前后的大模型。通过推理基准测试上的性能差异来判断替换或去除部分是否对激发大模型的算术推理能力有重要贡献。尽管该领域的研究人员从这些研究中发现了一些有趣的现象，但他们仍然无法从神经网络的内部机制解释CoT如何激发大型模型的算术推理能力。与此同时，这些研究提出了更多问题。例如，为什么CoT的不同组成部分对大型模型的算术推理有不同的影响。为了解决上述问题，美国乔治梅森大学姚子宇教授及其团队从“模型可解释性”的角度对开源Llama2模型展开了一系列探索，提出利用“神经元激活”来系统地解释了对CoT上观察到的现象进行了研究。

图丨课题组成员（来源：课题组）

近日，计算语言学协会（ACL）年会发表了题为《探究神经元激活作为一种统一视角，以解释大型语言模型中的链式思考引发算术推理》（An Investigation of Neuron Activation as a Unified Lens to Understanding Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs）的相关论文。 )2024 年收到[2]。乔治梅森大学博士生Daking Rai 为第一作者，姚子宇为通讯作者。

图丨相关论文（来源：ACL 2024）

在研究中，他们首先重点探索Transformer 前馈层是否表达了算术推理神经元的概念。相关概念包括加、减、乘、除等算术运算的概念、算术推理过程中逻辑环节的概念（如“.so”“.next”）以及其他算术计算概念（例如“百分比”、“算法”和“公式”）。因此，为了发现每个神经元所代表的概念，他们将神经元映射到大模型的词汇空间，并通过神经元映射后标记每个词汇中概念的比例来总结神经元的含义。研究小组提出使用GPT-4来读取和理解神经元的词汇映射，以自动化神经元标记和挖掘过程。实验表明，Transformer 前馈层中确实存在代表算术概念的神经元。当这些神经元受损时，大型模型的算术推理能力就会受到损害。同时，研究人员还观察到，这些神经元的活动与大模型的算术推理能力呈正相关。这种正相关性解释了为什么不同的提示语句会给大型模型的算术推理带来不同的效果。基于这些神经元，研究小组系统地解释了之前研究中观察到的四种与CoT相关的现象。首先，当从CoT样本中去掉数学公式，只留下运算结果时，大型模型的算术推理能力将会受到损害。其次，当CoT样本中去除言语推理而只剩下数学公式时，模型能力也会受到损害。第三，当CoT样本失去操作多样性时，例如所有样本仅涉及加法操作，模型能力就会受到损害。第四，当CoT样本的运算结果错误但推理过程正确时，模型能力不会受到显着影响。 “我们看到这些现象基本上可以用神经元的激活程度来解释。例如，在去除数学公式之前和之后，激活的神经元数量减少，这解释了为什么模型的算术推理能力受损。”研究人员解释了道路。从应用角度来看，该成果将在两个方面具有应用前景。首先，预测大型模型的能力。在实验中，研究人员已经能够看到，代表算术推理的神经元的激活水平与Llama2模型的算术推理能力呈正相关。这意味着未来可能不需要基准来直接预测大型模型在特定任务中的能力。同时，由于基准测试需要大量的人力和物力，例如数据集注释和计算资源，因此通过了解其内在机制来直接预测大型模型的能力也有助于节省成本。此外，该领域的从业者希望大型模型能够在不久的将来执行超人的任务。但受限于人的能力，无法为这些任务建立基准。通过大模型的固有机制来预测模型能力，可以很好地避免这个问题。其次，通过控制大型模型的内部机制，可以增强或削弱模型的能力。 “我们相信这一应用将成为未来提高大型模型安全性的重要方法之一。同时，它还有潜力实现更高效的大模型训练，比如通过小数据定位神经元，然后控制神经元的激活。模型训练的目的。”研究团队表示。事实上，2023年下半年，OpenAI就提出了“超对齐”提案[3]，旨在通过鼓励科研创新，帮助人类监督和控制超人的AI模型预测和控制模型能力是实现这一目标的两项重要任务。”这个成果是我们在这个方向上的初步探索。我们希望我们或其他研究人员未来能够继续朝这个方向探索。”该团队表示。

这项研究的灵感来自于“机制可解释性”。这是模型可解释性的一个子领域，近年来迅速兴起并受到广泛关注。与以往的可解释性方法不同，机制可解释性试图通过对神经网络进行逆向工程来理解模型的行为机制。目前，此类方法已应用于解释大型模型的行为和结构功能。 “给我们很大启发的研究之一是来自美国艾伦人工智能研究所和以色列巴伊兰大学的研究人员对Transformer 前馈层的探索[4]。”研究人员表示。研究发现，当大型模型预测下一个词汇单元时，模型的Transformer 前馈层通过不断强化词汇空间中的相关概念来构建预测。这个概念强化是通过激活Transformer 前馈层中的神经元来实现的。 “这一机制层面的发现启发了我们的猜想：CoT 之所以能够激发大型模型在算术推理方面的能力，可能是因为它能够有效激活Transformer 前馈层中表示算术推理概念的神经元，而这些神经元有助于强化大型模型的算术推理能力。”研究团队表示。基于此，研究小组想知道是否有一种机制可以直接增强大型模型，特别是小规模大型模型的算术推理能力。团队指出： “这是一件非常有意义的事情，因为小规模的大型模型享有独特的计算效率、经济效率和安全性，而且，在同一时期，他们也看到了一些通过收集高质量数据或修改训练目标函数来提高的研究。”然而，机械可解释性在这方面的应用仍处于新兴阶段。尽管如此，团队的科研进程并非一帆风顺，甚至在一开始就面临“卡壳”。其中，最大的困难在于，他们没有完全理解大型模型进行算术推理的内部机制，自然无法实现理想的模型控制。 “因此，我和论文第一作者赖同学决定先重点讲解大型模型的算术推理。”姚子玉说道。但他们很快就遇到了下一个困难。 “算术推理”是一个高度抽象的概念，大型模型的预测是在特定词汇单元的层面上进行的。如果我们想从“词汇空间中神经元的概念强化”的角度来理解大模型的算术推理能力，首先必须将这个高度抽象的概念实现为具体的词汇层面的概念。为了弥补这一差距，课题组首先总结了一些与算术推理相关的底层概念，包括算术运算符、算术推理中的逻辑语言表达式以及其他算术计算概念。并通过使用GPT-4 高效注释和搜索表达这些低级概念的神经元。然后，他们参考了之前的研究来验证这些搜索到的神经元。 “实验结果证明这些神经元确实在我们实验的大型模型Llama2 中发挥着重要作用。”研究小组说。这也让他们更有信心继续朝这个方向探索。他们想到利用这些神经元的激活状态来统一CoT 对大型模型中算术推理能力的影响，包括解释在之前的几项工作中观察到的现象。结果基本验证了他们的猜想，即CoT不同成分对大型模型算术推理能力的刺激作用可以通过相关神经元的激活来解释。不过，研究也指出，神经元激活并不能解释大型模型的所有算术推理性能。

同时，研究人员在Llama2上的发现是否适用于其他大型模型群体也需要进一步验证。另据悉，姚子瑜实验室目前有多个全学术博士职位可供2025年秋季招生。详情请查看团队网站https://ziyuyao.org/并通过电子邮件查询。参考文献： 1. Wei、Jason、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、Fei Xia、Ed Chi、Quoc V. Le 和Denny Zhou。思维链提示引发大型语言模型中的推理。神经信息处理系统的进展35 (2022): 24824-24837.https://doi.org/10.48550/arXiv.2201.119032。 Daking、Rai、Ziyu、Yao，神经元激活作为统一透镜来解释法学硕士引发算术推理的思想链的研究。 arXiv:2406.12288.https://doi.org/10.48550/arXiv.2406.122883.OpenAI。介绍超级对齐。 https://openai.com/index/introducing-superalignment/。 2023.4.Geva、Mor、Avi Caciularu、Kevin Wang 和Yoav Goldberg。Transformer Feed-For Ward 层通过提升词汇空间中的概念来构建预测。2022 年自然语言处理经验方法会议论文集，第30-45 页。 2022.https://arxiv.org/abs/2203.14680排版：褚嘉石

上一篇：高考倒计时！无需预科，这些英国院校凭国内高考成绩直接申请... 英国无条件录取

下一篇：图像感知可能影响时间感知（图像感知可能影响时间感知吗）

加载中...

美国留学