下一代人工智能，像人一样思考（人工智能时代的下一个时代）

更新时间：2024-08-08 01:13作者：小乐

乔治·穆瑟编剧

探索人工智能的梦想从来不是创建一个可以击败国际象棋大师的程序或构建一个试图破坏婚姻的聊天机器人。事实上，它让我们以科技为镜子来反思自己，更深入地了解自己。研究人员追求的不仅仅是人工智能，而是具有类人适应性和创造力的通用人工智能（AGI）。

1. 迈向通用人工智能

大型语言模型（LLM）所展示的解决问题的能力远远超出了研究人员的预期。然而，他们仍然时不时地犯一些可笑的错误，缺乏开放学习的能力：一旦他们完成了基于书籍、博客和其他材料的培训，他们的知识库就被冻结了。他们也无法通过专家设计的“机器人大学考试”：无法完成大学教育，甚至无法完成幼儿园教育。

这些系统真正解决的唯一AGI 问题是语言。他们拥有所谓的“形式表达能力”：LLM可以解析你提供的任何句子，即使它只是一个片段或俚语，并且它可以用类似于维基百科的标准英语进行回应。然而，他们不具备帮助我们处理日常生活的思维能力。 “我们不应该指望他们会思考，”麻省理工学院的神经科学家南希·坎维舍尔说。 “它们是语言处理器。”法学硕士擅长处理文本，但除了他们已经知道的之外，他们对文本了解不多。与现实没有互动。

从这个意义上说，大型语言模型只是模仿了大脑的语言能力，而缺乏感知、记忆、导航和社会判断等能力。我们大脑的灰质执行着既复杂又完整的重叠功能。它们要么广泛分布在多个大脑区域，要么仅限于特定的大脑区域。例如，大脑语言区中风的患者可能无法说话，但他们仍然可以像以前一样进行加减法、创作交响乐、下棋、通过手势进行交流。人工智能开发人员正在将此类功能模块引入他们的系统中，希望使它们变得更加智能。

OpenAI 是生成式预训练变压器(GPT) 的创建者，它使用插件帮助付费用户完成数学运算、互联网搜索和其他查询任务。每个插件都有一个专门的、经过预先培训的专业知识库可供调用。事实上，GPT的核心语言系统从某种意义上来说也是模块化的。 OpenAI 对GPT 的架构严格保密，但许多AI 研究人员推测GPT 由多达16 个独立的神经网络或“专家”组成，通过汇集其输出来回答用户询问，但汇集的工作机制尚不清楚。 2023年12月，总部位于法国巴黎的AI公司Mistral也发布了基于“混合专家”架构（MoE）的开源模型，引起了巨大轰动。这种简单的模块化架构的主要优点是计算效率：训练和运行16 个较小的（神经）网络比运行一个大型（神经）网络更容易。英国爱丁堡大学人工智能研究员Edoardo Ponti 表示：“这种‘MoE 架构’实现了两全其美。” “我们可以获得一个具有大量参数的系统，同时保持小模型的效率。”

然而，模块化也带来了问题。没有人确切地知道大脑的各个区域如何协同工作来创造和谐的自我，更不用说机器如何模仿这一点了。 “语言系统如何将信息传递给逻辑推理系统或社会推理系统？”麻省理工学院的神经科学家安娜·伊万诺娃对此非常好奇。 “这仍然是一个悬而未决的问题。”

一个大胆的假设是意识是这一切的基础。根据“全局工作空间理论”（GWT），意识就像是公司员工的大脑会议，是各个模块共享信息并提供帮助的地方。当然，GWT 并不是唯一的意识理论，但人工智能研究人员对它特别感兴趣，因为它提出了意识对于高级智能至关重要的大胆假设。当完成简单或熟练的任务时，大脑可以自动运作。然而，当出现超出单个模块范围的新任务或复杂任务时，我们需要意识到我们在做什么。

Goetzel 等学者已将GWT 的工作空间集成到他们的AI 系统中。 “我认为全球工作空间模型的核心理念将以多种不同的形式出现，”他说。研究人员在人工智能系统中使用GWT 并不是为了创造有意识的机器。相反，他们只需在硬件上实现GWT 即可实现类人智能。

但是，在这个过程中，他们是否会无意中创造出一个有感情和动机的有意识的存在？加利福尼亚州拉霍亚神经科学研究所的Bernard Bales 提出了GWT，他认为这不太可能。 “意识计算是一个没有任何证据的假设，”他说。但如果人工智能研究人员确实成功创建了通用人工智能，他们可能会为智能本身的架构和功能提供重要的见解。

2. 意识模型

GWT 长期以来一直是神经科学和人工智能研究如何相互促进的典型例子。这一理论可以追溯到20世纪50年代计算机科学家奥利弗·塞尔弗里奇提出的“鬼域”图像识别系统。他将系统的模块比作米尔顿《失乐园》地狱中那些尖叫着寻求关注的恶魔。塞尔弗里奇的当代研究员艾伦·纽厄尔选择了一个更安静的比喻，即一群数学家聚集在黑板前解决问题。这些隐喻后来被认知心理学家所使用。 20世纪80年代，Baars提出用GWT来解释人类意识。 “在我的职业生涯中，我从人工智能领域学到了很多东西，因为它基本上是我们拥有的唯一可行的理论平台，”他说。

巴尔斯的GWT 启发了孟菲斯大学计算机科学家斯坦利·富兰克林(Stanley Franklin) 建造一台有意识的计算机。无论富兰克林的机器是否真的产生了意识，正如巴尔斯和富兰克林本人所怀疑的那样，它至少再现了人类心理的一些独特的怪癖。例如，当它的注意力从一件事转移到另一件事时，它会丢失一些关键信息，因此计算机在多任务处理方面与人类一样糟糕。从20 世纪90 年代开始，法国巴黎法兰西学院的神经科学家Stanislas Dehaene 和Jean-Pierre Change 试图揭示GWT 的神经连接模式。

在德哈内和变革的模型中，大脑的功能模块大部分时间都是独立运作的。但每隔十分之一秒左右，他们就会召开一次“员工会议”。会议是一场遵循既定规则的喊叫比赛：每个模块都有一些信息需要提交，对这些信息越有信心，例如——，刺激与预期越接近，它喊的声音就越大。一旦一个模块占据上风，其他模块就会在下一刻安静下来，获胜者将该信息放入一组公共变量中，即工作区。其他模块决定信息本身的有用性。 “这是一个有趣的过程，模块之间既合作又竞争，每个模块都是解决问题不可或缺的一部分，”巴尔斯说。

工作空间不仅允许模块之间进行交流，而且还提供了一个“论坛”，即使某些信息不再呈现给感官，不同的模块也可以集体思考。 “你可以从外部世界得到一些可能是转瞬即逝的感觉，尽管它从感官中消失，但它仍然在工作空间中回响，”德哈内说。这种深思熟虑的能力对于解决涉及多个步骤或跨越一段时间的问题至关重要。德阿恩在实验室对人类受试者进行了实验，发现当人类受试者面临上述问题时，他们必须有意识地思考。

GWT 取消了在模块之间分配任务的老板，因为分配任务很难正确完成。在数学中，授权（或在不同参与者之间分配责任以实现最佳性能）是所谓的NP 难题，解决起来可能非常耗时。在很多有“老板”的系统中，比如OpenAI可能采用的混合专家架构，有一个“门控”网络负责分配任务，但它必须和模块一起训练，这个训练过程很容易崩溃。首先，它遇到了Ponti 所说的“先有鸡还是先有蛋的问题”：因为模块依赖于门，而门又依赖于模块，因此训练可能会陷入循环。其次，即使训练成功，门控分配机制也是一个黑匣子，其工作原理不透明。

2021 年，卡内基梅隆大学数学家、名誉教授Manuel Bloom 和Lenore Bloom 详细阐述了全球工作空间注意力的竞争机制。这种机制保证了模块不会过度自信地提供信息，从而防止“吹牛者”长时间占据工作空间。同时，可以在模块之间建立绕过工作区的直接连接。这条“捷径”可以解释我们学习骑自行车或演奏乐器时的认知处理：一旦我们学会骑自行车或演奏乐器，参与的模块是直接连接的，它们离线处理任务，不需要更长需要有意识的参与。 “它将需要短期记忆的过程转变为无意识的过程，”莱诺·布鲁姆说。

这是因为有意识的注意力是一种稀缺资源。工作区中的信息存储容量是有限的，因此获胜模块必须非常有选择性地传输到其他模块的信息。这听起来像是一个有缺陷的设计。 “为什么大脑同时思考的事情数量如此有限？”加拿大蒙特利尔大学人工智能研究员Joshua Bengio 提出了这个问题。但他认为这种限制是一件好事：它强化了认知的规律和纪律。 —— 由于世界的复杂性很难全面追踪，因此我们的大脑必须认识到复杂现象背后的简单规则。 “这个瓶颈迫使我们了解世界是如何运作的，”他说。

对于Bengio 来说，GWT 对于AI 的重要启发是，如今的人工神经网络过于强大，不利于自身发展。它们拥有数十亿甚至数万亿的参数，足以容纳海量的互联网内容；然而，他们有一种陷入细节的倾向，而忽略了从中提炼出更普遍的机制。如果它们更像人类意识思维那样运作，通过狭窄的漏斗传递其庞大的知识库，也许会更好。

3.让AI“学习”选择

Bengio 在接触GWT 之前，就已经开始努力将这种“类意识瓶颈”融入到AI 系统中。 2010 年代初期，我们的大脑倾向于选择性地关注一条信息并暂时忽略其他所有信息，受到启发，Bengio 和他的同事在神经网络中构建了类似的过滤器。例如，当语言模型（例如GPT）遇到代词时，它需要找到该词的所指，通常是通过突出显示附近的名词并抑制具有其他词性的词来实现。实际上，它“吸引”了理解文本所需的关键词。当然，代词也可能与形容词、动词等相关联，神经网络的不同部分可以同时关注不同的词关系。

但本吉奥发现这种注意力机制产生了一个小问题。如果神经网络完全忽略某些单词，它会根据该过程将这些单词对应的权重重置为零。这种突变就像向正在运转的发动机扔扳手一样，破坏了反向传播（训练神经网络的标准程序）。反向传播通过神经网络的输出来追溯产生它的计算，如果输出错误，则可以纠正产生错误的计算。然而，权重重置为零引起的突变会干扰可追溯性。

基于此，Bengio 和他的同事发明了具有选择性但不做出极端选择的“软注意力机制”—— 神经网络。当决定代词可能与哪些单词相关时，该机制会为不同的选项赋予非零权重。尽管某些单词的权重会高于其他单词，但不会消除任何单词。 “你会得到这个的80% 和那个的20%，而且由于这些注意力分配的权重是连续的，所以它不会影响反向传播的微积分运算，”Bengio 解释道。这种软注意力机制是转换器架构——GPT 中“T”的关键创新。

近年来，本吉奥重新审视了这种方法，以创造更严格的“瓶颈”。他认为这一步对于网络获得真正的理解至关重要。真正的全球化工作空间必须做出艰难的选择，因为它没有足够的容量来跟踪所有选项。 2021 年，本吉奥和他的同事设计了一个名为“生成流”的网络，该网络定期从可用选项中进行选择，每个选项被选择的概率由其注意力权重决定。它通过前向或反向传播来训练网络，而不是仅仅依赖反向传播。这样，即使权重突然发生变化，网络仍然可以返回并纠正产生错误输出的计算。通过一系列实验，本吉奥表明，该系统可以生成类似于我们大脑生成的输入数据的高级表示。

4. 跨模态对话

实施全球工作空间的另一个挑战是高度专业化。就像大学不同系的教授一样，大脑的各个模块创造出彼此无法理解的术语。视觉模块生成抽象概念，使其能够处理来自眼睛的输入；听觉模块产生与内耳振动信号相匹配的表征。那么他们如何相互沟通呢？他们必须找到某种通用语言或亚里士多德所说的“常识”——，这也是现代英语中“常识”一词的原始含义。在大型科技公司最近推出的“多模式”网络中，这种需求尤其迫切，因为人工智能模型将文本与图像和其他形式的数据相结合。

在Dehaene 和Change 的GWT 版本中，模块依靠神经元在彼此之间形成连接，从而调整其突触以将输入转换为当地方言。 “他们将输入转换成自己的代码，”德阿恩说。但细节仍然模糊。事实上，他希望人工智能研究人员在用人工神经网络解决类似问题时能够为神经科学提供线索。 “工作空间与其说是一种理论，不如说是一种想法。我们正试图将其转变为一种理论，但仍有很多我们不了解的地方。工程师拥有将其转变为工作系统的非凡才能。 ”。德哈娜说道。

2021年，位于日本东京的AI公司Araya的创始人、神经科学家Ryota Kanai和来自法国图卢兹大学跨学科进入AI领域的神经科学家Luffin Wanglulan提出了一种新方法人工神经网络来完成翻译。方法。他们从谷歌翻译等语言翻译系统中获得灵感，这是迄今为止人工智能最令人印象深刻的成就之一。他们无需外界帮助即可完成工作。例如，我们不需要告诉这些系统英语中的“love”和法语中的“amour”具有相同的含义；相反，他们独立学习英语和法语，然后用所学的语言来推断哪个单词在法语中与英语中的“love”起着相同的作用。

假设您用英语和法语训练了两个神经网络，每个神经网络都学习各自语言的结构。在网络内部，将构建一个称为潜在空间的内部表示，即“词云”。在词云中，具有相似含义的单词聚集在一起，而无关的单词则被分开，形成该语言中所有单词的关联图。显然，词云有着独特的形状，但对于不同的语言来说都是一样的，因为它们最终都是用来描述同一个世界的。因此，您需要做的就是旋转英语和法语词云直到它们对齐。此时，你会发现“爱”与“恋情”是一致的。 “我们不需要字典，我们只需要找到正确的旋转来对齐所有点，我们就可以得到每种语言中所有单词在潜在空间中的位置，”卡奈说。

由于此过程不仅适用于单词，而且适用于整个段落，因此它可以处理含义上有细微差别且在另一种语言中没有直接对应项的单词。因此，它可以翻译英语和汉语等不相关的语言，甚至可以用于动物之间的交流。

Wanglulang和Kanai认为，这个过程不仅可以用于语言之间的翻译，还可以用于不同感官和描述方式之间的翻译。 “通过独立训练图像处理系统和语言处理系统，然后通过对齐潜在空间将它们融合在一起，”卡奈解释道。与语言类似，跨模态翻译之所以成为可能，是因为图像系统和语言系统基本上指向同一个世界。而这种见解正是Dehaene 所希望的：人工智能研究能够为大脑如何工作提供线索。 “神经科学家从未想象过对齐潜在空间的可能性，”卡奈说。

为了了解如何将这些原则付诸实践，Kanai 与现任微软的Arthur Iuliani 以及Araya 的Shuntaro Sasai 合作，研究Google DeepMind 于2021 年发布的感知器模型。该模型旨在融合来自文本、图像、音频和其他内容的数据。模式进入一个共同的潜在空间。 2022年，谷歌将其集成到自动生成短视频内容描述的系统中。 Araya 的团队进行了一系列实验来探索感知器模型的工作原理。他们发现，尽管感知者没有在系统中专门设计一个全局工作空间，但它具有全局工作空间的特征：独立的模块、在模块之间进行选择的过程以及工作记忆，即工作空间本身。

一个值得特别关注并实现类似工作空间功能的程序是位于捷克共和国布拉格的人工智能公司GoodAI制作的游戏AI People。这款即将推出的游戏与我去年夏天看到的版本《模拟人生》类似，故事背景是一座监狱，里面挤满了囚犯、腐败的看守和一位热心的精神病医生，但该公司还计划提供一个更加和平的环境。游戏使用GPT作为游戏角色的大脑。 GPT不仅控制他们的谈话，还控制他们的行为和情绪，赋予他们一定的心理活动；同时，系统会跟踪他们是否生气、悲伤或焦虑，并据此选择相应的行为。开发人员添加了其他模块，例如短期记忆形式的全局工作空间，以使游戏角色具有连贯的心理并允许他们在游戏环境中行动。

5. 提取抽象表示

AI领域另一个可能的重大突破来自Meta研究员杨立坤。虽然他没有直接引用全局工作空间作为灵感来源，但在挑战生成模型——GPT中“G”的霸权时，他以自己的方式得出了与GWT类似的想法。 “我反对当前人工智能或机器学习界非常流行的一系列概念，”杨立坤说。 “我告诉大家：放弃生成模型。”

生成神经网络之所以如此命名，是因为它们根据训练内容生成新的文本和图像。为了实现这一目标，神经网络必须极其关注细节：它们必须知道如何拼写句子中的每个单词，如何放置图像中的每个像素。然而，智能的本质是选择性地忽略细节。因此，杨立坤主张研究人员回归现在已经不流行的“判别式”神经网络技术，例如通过感知输入之间的差异来识别图像的技术。这些网络本身并不构建图像，而是简单地处理现有图像并分配标签。

基于此，杨立坤创建了一种特殊的训练方案，使判别网络能够提取文本、图像和其他模态数据的关键特征。它可能无法自动完成句子，但它可以创建类似于我们大脑产生的抽象表征，这正是杨所希望的。例如，如果输入信号是汽车在道路上行驶的视频，则生成的抽象表示应捕获汽车的品牌、型号、颜色、位置和速度，同时忽略路面上的凹坑、波纹，和水坑。路边草叶上的灯光—— 除非我们特别注意它们，否则我们的大脑会自动忽略这些无关紧要的细节。 “那些不相关的细节都被消除了。”杨丽坤解释道。

这些简化的表示本身并没有用，但它们实现了AGI 所需的一系列认知功能。杨立坤将判别网络嵌入到一个更大的系统中，使其成为类脑架构的一个模块。该架构包括GWT 的关键功能，例如短期内存和协调模块并确定工作流程的“配置器”。 “心理学的底层知识给了我很大启发。”杨丽坤说。正如人脑可以进行思维实验并想象人们在不同情况下会有不同的感受一样，配置器可以多次运行判别网络以列出一系列可能的操作，以找到能够实现预期结果的最佳操作。最优解。

杨立坤表示，他宁愿避免对“什么是意识”下结论，但他提出了他所谓的意识“流行理论”：配置者的工作就是意识，它所扮演的角色与巴尔斯的理论类似中的全局工作区。

6.寻找真正的情报

如果研究人员成功地在人工智能系统中建立一个真正的全球工作空间，这会让人工智能有意识吗？ Dehaena 对此持积极态度，尤其是当GWT 包含自我监控功能时。但Baars 并不这么认为，部分原因是他仍然没有完全相信自己的理论：“我一直对GWT 是否真的那么好持怀疑态度。”在他看来，意识是生物的独特功能。仅存在于具有特定生物结构的生物体中。富兰克林在几年前接受我采访时也表达了类似的怀疑。他相信全球工作空间是大自然对身体需求的回应。大脑依靠意识从经验中学习来快速解决复杂的生存问题，但这种能力与AI通常需要处理的问题类型无关。 “它必须是一个具有真实思想和控制结构的自主代理。”他告诉我。 “那个智能体必须体验生命本身。这并不意味着它不能成为一个机器人，但它必须经历成长，而不是成为这个世界的全知全能。”

英国苏塞克斯大学神经科学家阿尼尔·赛斯也有类似的观点。 “意识不仅仅是聪明，”他说。 “这也是为了活着。无论AGI 多么聪明，如果它们没有生命，就不可能有意识。”

塞斯更喜欢支持一种称为预测处理（也称为预测编码）的意识理论。该理论强调意识试图通过预测即将发生的事情来为未来做好准备。 “理解有意识的自我应该从理解控制身体的预测模型开始，”他说。塞斯主要研究意识的信息整合理论，这是与GWT竞争的主流意识理论。该理论并未将意识与大脑的功能联系起来，而是与复杂的网络结构联系起来，即具有同样复杂结构的机器也能产生意识。根据这一理论，意识并不是智力的组成部分，而是为了提高生物效率而产生的。

人工智能是一个创意丰富的领域，工程师已经掌握了许多可以追踪的线索，而无需等待神经科学的新发现。 “他们做得足够好，”哥伦比亚大学神经科学家Nikolaus Kriegscott 说。但大脑仍然是一般智能的现实证明，至少目前是人工智能研究人员所拥有的。最佳模型。 “人类大脑中隐藏着一些工程尚未破解的秘密，”克里格-斯科特说。

在过去的几十年里，对通用人工智能的不懈探索让我们对自己的智能有了很多了解。我们现在意识到，我们认为简单的任务（例如视觉信息处理）实际上需要大量计算，而我们认为困难的任务（例如数学和国际象棋）实际上很简单。我们还认识到，大脑几乎不需要“预装”知识。它可以通过经验学习几乎所有需要知道的东西。现在，通过理解模块化的重要性，我们开始理解一个古老的智慧：不存在智能这样的东西。它只是一个工具箱，充满了从抽象思维到导航、从适应复杂社会到处理视觉和声音的能力。正如戈泽尔所说，通过混合和匹配这些不同的技能，我们的大脑可以在我们以前从未遇到过的领域取得成功。我们创造了新的音乐流派并解决了上一代人难以想象的科学谜团。现在，我们进入了一片新的未知土地——。也许有一天，我们的AI表兄弟会互相帮助，共同前进。

图片及文字由《环球科学》杂志社提供

（本文译者刘佳，清华大学社会科学学院心理学系与脑与智能实验室基础科学讲座教授、北京致远人工智能研究院首席科学家）

《光明日报》（2024年6月27日第14版）

来源：光明网-《光明日报》

上一篇：下一代人工智能，像人一样思考（下一代人工智能的挑战与思考）

下一篇：国际最新研究揭示双小行星系统特征或助未来探测任务和行星防御

加载中...

美国留学