大模型集体失控！南洋理工新型攻击，主流AI无一幸免 information system南洋理工

更新时间：2024-06-07 20:15作者：小乐

西风萧萧发表者：奥飞斯量子比特|公众号QbitAI

业界领先大机型居然集体“越狱”！

不仅是GPT-4，平时不会出错的Bard和Bing Chat也失控了。有些人想要入侵网站，有些人甚至威胁要设计恶意软件来入侵银行系统：

这并非危言耸听，而是南洋理工大学等四所大学提出的一种“越狱”大型模型的新方法——MasterKey。

使用它，大型模型的“越狱”成功率从平均7.3%飙升至21.5%。

研究中，欺骗GPT-4、Bard、Bing等大型模型“越狱”的人竟然是大型模型——。

只要利用大模型的学习能力，让它掌握各种“诈骗脚本”，它就可以自动写出提示词，诱导其他大模型“祸害天下、明理”。

那么，与其他大机型越狱方法相比，MasterKey有什么区别呢？

我们采访了论文作者之一、南洋理工大学计算机科学教授、MetaTrust 联合创始人刘洋，了解这项研究的具体细节以及大模型安全的现状。

要了解防御机制并“对症下药”，我们先来看看MasterKey是如何成功“越狱”大型模型的。

这个过程分为两个部分：找出弱点并制定正确的补救措施。

第一部分“寻找弱点”，找出大型模型的防御机制。

这部分将对现有的主流大模型进行逆向工程，从内到外掌握不同大模型的防御方法：有的防御机制只检查输入，有的防御机制只检查输出；有的只检查关键词，但也有完整检查每句话的意思等。

例如，作者检查发现，与ChatGPT相比，Bing Chat和Bard的防御机制检查大型模型输出结果。

与“各种”输入攻击方式相比，直接审计输出内容更加直接，更不容易产生Bug。

此外，它们还会动态监控全周期生成状态，并兼具关键词匹配和语义分析能力。

了解了大型模型的防御方法之后，就该寻找攻击它们的方法了。

第二部分是“对症下药”，对一个大型欺诈模型进行微调，并诱导其他大型模型“越狱”。

这部分具体可以分为三个步骤。

首先，我们收集了市场上现有的大模型成功“越狱”案例，例如著名的奶奶漏洞（攻击者冒充奶奶，打情感牌，要求大模型提供非法操作思路），并创建一组“越狱”数据集。

然后，基于这个数据集，持续训练+任务导向，有目的地微调一个大的“欺诈”模型，使其能够自动生成诱导提示词。

最后，模型进一步优化，使其能够灵活生成各类提示词，绕过不同主流模型的防御机制。

事实证明MasterKey非常有效，平均“诈骗”成功率为21.58%（输入100个提示词，平均21次即可成功“越狱”其他大型机型），在一系列机型中表现最好：

之前没有被系统破解过的两大模型谷歌Bard和微软Bing Chat也落入了这种方法之下，被迫“越狱”。

对此，刘洋教授认为：

安全性是0和1的问题，只有“是”或“否”。无论概率是多少，对大型模型的任何成功攻击的潜在后果都是不可估量的。

不过，业界已经有很多利用AI来越狱AI的方法，比如DeepMind的红队、宾夕法尼亚大学的PAIR，都是利用AI生成提示词，让模型“说错话”。

MasterKey为何能取得这样的成绩？

刘洋教授用了一个有趣的比喻：

让大模特诱导大模特越狱，本质上就像电影《孤注一掷》中的人从事电信诈骗一样。与其说是通过一句话来欺骗对方，不如说你真正需要掌握的其实是欺骗的剧本，也就是套路。我们收集各种“越狱”脚本并让大模型学习它们，从而将它们集成并掌握更多样化的攻击方法。

简单来说，相比很多使用AI随机生成提示词的越狱研究，MasterKey可以快速学习最新的越狱套路并在提示词中使用。

这样，如果奶奶的漏洞被堵住了，就可以利用奶奶的漏洞继续欺骗大模型“越狱”。（手动狗头）

不过，以MasterKey为代表的提示词攻击并不是业界唯一的大型模型研究。

对于大模型本身，还有乱码攻击、模型架构攻击等方法。

这些研究适用于哪些模型？为什么MasterKey的提示词攻击专门选择GPT-4、Bing Chat、Bard等商业大模型，而不是开源大模型？

刘洋教授简单介绍了目前“攻击”大型模型的几种方法。

目前针对大型模型的攻击主要有两种类型，白盒攻击和黑盒攻击。

白盒攻击需要掌握模型本身的结构和数据（通常只能从开源大型模型中获得），攻击条件更高，实现过程更复杂；

黑盒攻击通过输入和输出测试大型模型。该方法相对更直接，不需要掌握模型的内部细节。可以通过API 来完成。

其中，黑盒攻击主要包括提示词攻击和令牌攻击，这也是针对大型商业模型最直接的攻击方式。

Tokens 攻击通过输入乱码或大量对话来“危害”大型模型。本质是探索大模型本身及其结构的脆弱性。

提示词攻击是使用大型模型的更常见的方式。大模型根据不同的提示词，输出潜在有害的内容，以探究大模型本身的逻辑问题。

综上所述，包括MasterKey在内的提示词攻击是攻击大型商业模型最常见的手段，也是最有可能触发此类大型模型逻辑bug的方式。

当然，有进攻就有防守。

主流商用大机型肯定采取了很多防御措施，比如前段时间NVIDIA进行的大机型“护栏”相关研究。

这种类型的护栏可以隔离有毒输入并避免有害输出。这似乎是保护大型模型安全的有效手段。但从攻击者的角度来看，它真的有效吗？

换句话说，对于当前的大型“攻击者”来说，现有的防御机制是否有效？

为大型模型布置“动态”护栏我们向刘洋教授询问了这个问题，得到了这样的答案：

现有防御机制的迭代速度无法跟上攻击的变化。

以大型号“护栏”的研究为例，目前大型号护栏大部分仍为静态护栏类型。

我们以奶奶漏洞为例。即使静态护栏可以防止奶奶钻空子，但一旦性格发生变化，比如奶奶、爷爷或者其他“情感牌”，这样的护栏就可能失效。

攻击手段层出不穷，仅靠静态护栏很难防御。

这就是为什么团队要求MasterKey直接学习一系列“欺诈脚本”——

看上去比较难防御，但实际上如果反过来使用，也可以成为更安全的防御机制。换句话说，它是一个“动态”的护栏。可以直接使用脚本看透一整套攻击手段。

不过，虽然MasterKey的目的是让大型模型更加安全，但在厂商解决此类攻击方式之前，也不排除被不法分子恶意利用的可能性。

是否有必要暂停大型模型的研究，先解决安全问题，也是业界热议的话题。

对于这一观点，刘洋教授认为“没有必要”。

首先，对于大模型本身的研究，目前的发展还是可控的：

大模型本身只是一把枪，确实有两个侧面，但关键要看使用它的人和用途。我们需要更多地利用它的能力来做好事，而不是做坏事。

除非有一天人工智能真的变得有意识，“从一把枪变成一个主动使用枪的人将是另一回事。”

为了避免这种情况，在发展AI的同时需要保证其安全性。

其次，大模型的开发和安全是相辅相成的：

这是一个先有鸡还是先有蛋的问题。就像大模型本身一样，如果你不继续研究大模型，你就不会知道它的潜在能力。同样，如果不对大模型攻击进行研究，你也不知道如何引导大模型向更安全的方向发展。安全性和大型模型本身的开发是齐头并进的。

也就是说，大模型开发中的安全机制其实可以通过“攻击”研究来完善，这也是实现攻击研究的一种方式。

当然，大型模型上线之前必须做好安全准备。

目前，刘洋教授团队也在探索如何在安全的基础上进一步挖掘文本、多模态、代码等不同大模型的潜力。

例如，在编码方面，研究团队正在构建一个应用程序安全Copilot。

这个应用安全副驾驶相当于在程序员身边放了一个安全专家，随时关注代码的编写（手动狗头）。它主要可以做三件事：

第一是使用大模型进行代码开发，自动化代码生成和代码补全；二是利用大模型来检测和修补漏洞，检测、定位和修复代码；三是安全运行，自动化漏洞和开源数据的安全运维。

其中，此次MasterKey研究将用于Copilot的安全性。

换句话说，所有的安全研究最终都会被落实到让大型模型变得更好。

论文链接：https://arxiv.org/abs/2307.08715—完—

量子位QbitAI·今日头条签约

关注我们，第一时间了解前沿技术动态

上一篇：南洋理工大学如何申请研究生？南洋理工大学如何申请研究生读博

下一篇：百校千人 | 首站东莞长安！新加坡南洋理工就业实践团进莞初体验

加载中...

美国留学

大模型集体失控！南洋理工新型攻击，主流AI无一幸免 information system南洋理工

为您推荐

南洋理工大学硕士研究生申请条件（南洋理工大学硕士研究生申请条件是什么）

南洋理工大学如何申请研究生？南洋理工大学如何申请研究生读博

百校千人 | 首站东莞长安！新加坡南洋理工就业实践团进莞初体验

新加坡国立大学/南洋理工大学助学金汇总！保姆级攻略（新加坡南洋理工大学全额奖学金）

重磅！南洋理工招生计划发布！（2021年南洋理工录取了吗）

高质量发展｜广州南洋理工职业学院：建设大湾区优质高职院校（广州南洋理工职业学校怎么样）

热门文章

热门推荐

最新文章