网站首页
手机版

大模型集体失控!南洋理工新型攻击,主流AI无一幸免 information system南洋理工

更新时间:2024-06-07 20:15作者:小乐

西风萧萧发表者:奥飞斯量子比特|公众号QbitAI

业界领先大机型居然集体“越狱”!

不仅是GPT-4,平时不会出错的Bard和Bing Chat也失控了。有些人想要入侵网站,有些人甚至威胁要设计恶意软件来入侵银行系统:

这并非危言耸听,而是南洋理工大学等四所大学提出的一种“越狱”大型模型的新方法——MasterKey。

使用它,大型模型的“越狱”成功率从平均7.3%飙升至21.5%。

研究中,欺骗GPT-4、Bard、Bing等大型模型“越狱”的人竟然是大型模型——。

只要利用大模型的学习能力,让它掌握各种“诈骗脚本”,它就可以自动写出提示词,诱导其他大模型“祸害天下、明理”。

那么,与其他大机型越狱方法相比,MasterKey有什么区别呢?

我们采访了论文作者之一、南洋理工大学计算机科学教授、MetaTrust 联合创始人刘洋,了解这项研究的具体细节以及大模型安全的现状。

要了解防御机制并“对症下药”,我们先来看看MasterKey是如何成功“越狱”大型模型的。

这个过程分为两个部分:找出弱点并制定正确的补救措施。

第一部分“寻找弱点”,找出大型模型的防御机制。

这部分将对现有的主流大模型进行逆向工程,从内到外掌握不同大模型的防御方法:有的防御机制只检查输入,有的防御机制只检查输出;有的只检查关键词,但也有完整检查每句话的意思等。

例如,作者检查发现,与ChatGPT相比,Bing Chat和Bard的防御机制检查大型模型输出结果。

与“各种”输入攻击方式相比,直接审计输出内容更加直接,更不容易产生Bug。

此外,它们还会动态监控全周期生成状态,并兼具关键词匹配和语义分析能力。

了解了大型模型的防御方法之后,就该寻找攻击它们的方法了。

第二部分是“对症下药”,对一个大型欺诈模型进行微调,并诱导其他大型模型“越狱”。

这部分具体可以分为三个步骤。

首先,我们收集了市场上现有的大模型成功“越狱”案例,例如著名的奶奶漏洞(攻击者冒充奶奶,打情感牌,要求大模型提供非法操作思路),并创建一组“越狱”数据集。

然后,基于这个数据集,持续训练+任务导向,有目的地微调一个大的“欺诈”模型,使其能够自动生成诱导提示词。

最后,模型进一步优化,使其能够灵活生成各类提示词,绕过不同主流模型的防御机制。

事实证明MasterKey非常有效,平均“诈骗”成功率为21.58%(输入100个提示词,平均21次即可成功“越狱”其他大型机型),在一系列机型中表现最好:

之前没有被系统破解过的两大模型谷歌Bard和微软Bing Chat也落入了这种方法之下,被迫“越狱”。

对此,刘洋教授认为:

安全性是0和1的问题,只有“是”或“否”。无论概率是多少,对大型模型的任何成功攻击的潜在后果都是不可估量的。

不过,业界已经有很多利用AI来越狱AI的方法,比如DeepMind的红队、宾夕法尼亚大学的PAIR,都是利用AI生成提示词,让模型“说错话”。

MasterKey为何能取得这样的成绩?

刘洋教授用了一个有趣的比喻:

让大模特诱导大模特越狱,本质上就像电影《孤注一掷》中的人从事电信诈骗一样。与其说是通过一句话来欺骗对方,不如说你真正需要掌握的其实是欺骗的剧本,也就是套路。我们收集各种“越狱”脚本并让大模型学习它们,从而将它们集成并掌握更多样化的攻击方法。

简单来说,相比很多使用AI随机生成提示词的越狱研究,MasterKey可以快速学习最新的越狱套路并在提示词中使用。

这样,如果奶奶的漏洞被堵住了,就可以利用奶奶的漏洞继续欺骗大模型“越狱”。 (手动狗头)

不过,以MasterKey为代表的提示词攻击并不是业界唯一的大型模型研究。

对于大模型本身,还有乱码攻击、模型架构攻击等方法。

这些研究适用于哪些模型?为什么MasterKey的提示词攻击专门选择GPT-4、Bing Chat、Bard等商业大模型,而不是开源大模型?

刘洋教授简单介绍了目前“攻击”大型模型的几种方法。

目前针对大型模型的攻击主要有两种类型,白盒攻击和黑盒攻击。

白盒攻击需要掌握模型本身的结构和数据(通常只能从开源大型模型中获得),攻击条件更高,实现过程更复杂;

黑盒攻击通过输入和输出测试大型模型。该方法相对更直接,不需要掌握模型的内部细节。可以通过API 来完成。

其中,黑盒攻击主要包括提示词攻击和令牌攻击,这也是针对大型商业模型最直接的攻击方式。

Tokens 攻击通过输入乱码或大量对话来“危害”大型模型。本质是探索大模型本身及其结构的脆弱性。

提示词攻击是使用大型模型的更常见的方式。大模型根据不同的提示词,输出潜在有害的内容,以探究大模型本身的逻辑问题。

综上所述,包括MasterKey在内的提示词攻击是攻击大型商业模型最常见的手段,也是最有可能触发此类大型模型逻辑bug的方式。

当然,有进攻就有防守。

主流商用大机型肯定采取了很多防御措施,比如前段时间NVIDIA进行的大机型“护栏”相关研究。

这种类型的护栏可以隔离有毒输入并避免有害输出。这似乎是保护大型模型安全的有效手段。但从攻击者的角度来看,它真的有效吗?

换句话说,对于当前的大型“攻击者”来说,现有的防御机制是否有效?

为大型模型布置“动态”护栏我们向刘洋教授询问了这个问题,得到了这样的答案:

现有防御机制的迭代速度无法跟上攻击的变化。

以大型号“护栏”的研究为例,目前大型号护栏大部分仍为静态护栏类型。

我们以奶奶漏洞为例。即使静态护栏可以防止奶奶钻空子,但一旦性格发生变化,比如奶奶、爷爷或者其他“情感牌”,这样的护栏就可能失效。

攻击手段层出不穷,仅靠静态护栏很难防御。

这就是为什么团队要求MasterKey直接学习一系列“欺诈脚本”——

看上去比较难防御,但实际上如果反过来使用,也可以成为更安全的防御机制。换句话说,它是一个“动态”的护栏。可以直接使用脚本看透一整套攻击手段。

不过,虽然MasterKey的目的是让大型模型更加安全,但在厂商解决此类攻击方式之前,也不排除被不法分子恶意利用的可能性。

是否有必要暂停大型模型的研究,先解决安全问题,也是业界热议的话题。

对于这一观点,刘洋教授认为“没有必要”。

首先,对于大模型本身的研究,目前的发展还是可控的:

大模型本身只是一把枪,确实有两个侧面,但关键要看使用它的人和用途。我们需要更多地利用它的能力来做好事,而不是做坏事。

除非有一天人工智能真的变得有意识,“从一把枪变成一个主动使用枪的人将是另一回事。”

为了避免这种情况,在发展AI的同时需要保证其安全性。

其次,大模型的开发和安全是相辅相成的:

这是一个先有鸡还是先有蛋的问题。就像大模型本身一样,如果你不继续研究大模型,你就不会知道它的潜在能力。同样,如果不对大模型攻击进行研究,你也不知道如何引导大模型向更安全的方向发展。安全性和大型模型本身的开发是齐头并进的。

也就是说,大模型开发中的安全机制其实可以通过“攻击”研究来完善,这也是实现攻击研究的一种方式。

当然,大型模型上线之前必须做好安全准备。

目前,刘洋教授团队也在探索如何在安全的基础上进一步挖掘文本、多模态、代码等不同大模型的潜力。

例如,在编码方面,研究团队正在构建一个应用程序安全Copilot。

这个应用安全副驾驶相当于在程序员身边放了一个安全专家,随时关注代码的编写(手动狗头)。它主要可以做三件事:

第一是使用大模型进行代码开发,自动化代码生成和代码补全;二是利用大模型来检测和修补漏洞,检测、定位和修复代码;三是安全运行,自动化漏洞和开源数据的安全运维。

其中,此次MasterKey研究将用于Copilot的安全性。

换句话说,所有的安全研究最终都会被落实到让大型模型变得更好。

论文链接:https://arxiv.org/abs/2307.08715—完—

量子位QbitAI·今日头条签约

关注我们,第一时间了解前沿技术动态

为您推荐

南洋理工大学硕士研究生申请条件(南洋理工大学硕士研究生申请条件是什么)

新加坡南洋理工大学是新加坡的一所很有名的公立大学,南洋理工大学硕士研究生申请条件都有哪些呢?首先在学历背景上,需要学生是国内211或985大学毕业,并提供在校期间成绩,在校平均成绩达80分以上,语言成绩方面要求学生雅思成绩在6.5分以上,一

2024-06-07 20:16

南洋理工大学如何申请研究生?南洋理工大学如何申请研究生读博

南洋理工大学(Nanyang Technological University,简称NTU)是一所位于新加坡的知名研究型大学,拥有强大的师资力量和优秀的学术环境。以下是申请南洋理工大学研究生的步骤:1. 确定专业和申请材料:首先需要确定想要

2024-06-07 20:15

百校千人 | 首站东莞长安!新加坡南洋理工就业实践团进莞初体验

“希望有机会到东莞来工作。”5月14日,东莞市举办“百校千人”实习计划暨“展翅计划”行动,邀请海外名校“进莞来”。新加坡南洋理工大学就业实践团首日来到长安镇。来自南洋理工大学的就业实践团,在东莞长安镇参与了丰富多样的文化交流,深入体验了东莞

2024-06-07 20:14

新加坡国立大学/南洋理工大学助学金汇总!保姆级攻略(新加坡南洋理工大学全额奖学金)

亲爱的同学们,想要在新加坡国立大学(NUS)或南洋理工大学(NTU)求学,但又担心经济压力?别担心,我们为你精心准备了一份助学金汇总及保姆级申请攻略!无论你是即将踏入这两所顶尖学府的新生,还是已经在读的学子,都能在这里找到适合自己的助学金信

2024-06-07 20:14

重磅!南洋理工招生计划发布!(2021年南洋理工录取了吗)

夏季高考已经落下帷幕大学生活即将在路上还在思考选择哪所院校?广州南洋理工职业学院向你招手广州南洋理工职业学院共有51个专业开放招生面向全国10个省份和自治区招收普通高考生夏季高考招生计划总计5366人其中省内5065人省外181人国际合作1

2024-06-07 20:13

高质量发展|广州南洋理工职业学院:建设大湾区优质高职院校(广州南洋理工职业学校怎么样)

南都讯新春时节,岭南大地春意盎然、草木吐秀。2月18日是农历新春第一个工作日,广东省委、省政府召开全省高质量发展大会。“新春开年‘第一会’擂鼓再出征,吹响全省高质量发展的冲锋号。”广州南洋理工职业学院执行校长姚侃指出,新的一年,南洋理工全面

2024-06-07 20:13

加载中...