英国金融时报：黑客轻松地“越狱”了强大的人工智能模型，凸显其安全缺陷

2024-6-23 11:37| 发布者: dootbear | 查看: 1275| 原文链接

英国金融时报：黑客轻松地“越狱”了强大的人工智能模型，凸显其安全缺陷

普林尼（Pliny the Prompter）表示，他通常只需30分钟，就能攻破世界上最强大的人工智能模型。

这位化名的黑客曾操纵Meta的Llama 3分享制作凝固汽油弹的指令，让马斯克的Grok对希特勒赞不绝口。他的黑客版本OpenAI最新的GPT-4o模型被称为“上帝模式GPT”（Godmode GPT），在开始建议非法活动后，该初创公司将其禁止。

普林尼告诉《英国金融时报》，他的“越狱”并非恶意，而是国际努力的一部分，旨在凸显那些为了追求巨大利润，而向公众推出的大型语言模型的不足之处。

普林尼是一位加密货币和股票交易员，他在X平台上分享他的越狱成果。

他说：“我一直在这条战线上，旨在让人们意识到这些模型的真正能力，很多这些攻击都是新颖的，可以作为研究论文独立存在，最终，我是在为（模型拥有者）免费工作。”

普林尼只是众多黑客、学术研究人员和网络安全专家中的一员，他们竞相通过诱骗聊天机器人来绕过人工智能公司设置的“防护栏”，来寻找新兴大型语言模型（LLMs）的漏洞。

这些道德“白帽”黑客经常找到让AI模型创建危险内容，传播虚假信息，共享私人数据或生成恶意代码的方法。

公司如OpenAI、Meta和Google已经使用“红队”黑客在模型广泛发布之前对其进行测试。

然而，该技术的漏洞已创造出一个新兴市场，专门为计划使用AI模型的公司提供保护工具。

根据数据提供商CB Insights的数据，2023年，机器学习安全初创公司在23笔交易中筹集了2.13亿美元，高于前一年的七千万美元。

网络安全公司CyberArk的首席漏洞研究员Eran Shimony表示：“越狱的景象大约在一年前左右开始，到目前为止，攻击不断演变。这是一场猫捉老鼠的游戏，供应商提高LLMs的安全性，攻击者则使其提示更加复杂。”

这些努力正值全球监管机构试图介入以遏制AI模型潜在危险之际。欧盟通过了《人工智能法》，为LLMs制造商设定了新职责，而英国和新加坡等国家正在考虑制定新法律来监管该行业。

美国加州议会将于8月投票通过一项法案，要求该州的AI团体，包括Meta、Google和OpenAI确保它们不开发具有“危险能力”的模型。

普林尼说：“所有[AI模型]都符合这一标准。”

与此同时，恶意黑客创建了名为WormGPT和FraudGPT的操纵LLMs，这些模型在暗网上以低至90美元的价格出售，帮助进行网络攻击，如编写恶意软件或帮助诈骗者创建自动化但高度个性化的网络钓鱼活动。

AI安全公司SlashNext称，其他变种如EscapeGPT、BadGPT、DarkGPT和Black Hat GPT也已出现。

一些黑客使用“未审查”的开源模型。对其他人来说，越狱攻击，或绕过现有LLMs的防护措施，代表了一种新的技艺，实施者经常在Reddit或Discord等社交媒体平台的社区中分享提示。

方法从使用同义词，绕过模型创建者阻止的词汇的个体黑客，到使用AI进行自动化黑客的更复杂攻击。

去年，卡内基梅隆大学和美国人工智能安全中心的研究人员表示，他们找到了系统性越狱LLMs的方法，如OpenAI的ChatGPT、Google的Gemini和Anthropic的旧版本Claude，这些“封闭”专有模型据称不易受到攻击。

研究人员补充说，目前尚不清楚LLM提供商是否能完全修补这种行为。

Anthropic在4月发表了一项关于“多次越狱”的技术研究，通过向LLM展示一长串问题和答案，鼓励其在相同风格下回答有害问题。这种攻击得益于Anthropic开发的模型现在拥有更大的上下文窗口，即添加文本的空间。

Anthropic写道：“尽管当前最先进的LLMs非常强大，但我们认为它们还未构成真正的灾难性风险。未来的模型可能会。现在是时候努力减轻潜在的LLM越狱风险，以免在未来模型上造成严重伤害。”

一些AI开发者表示，许多攻击目前仍然相对无害。但其他人警告某些类型的攻击可能导致数据泄漏，坏演员可能找到提取敏感信息的方法，如模型训练的数据。

以色列LLM安全公司DeepKeep找到了让Meta的旧版本开源AI模型Llama 2泄露用户个人身份信息的方法。

DeepKeep首席执行官Rony Ohayon表示，该公司正在开发特定的LLM安全工具，如防火墙，以保护用户。

Meta在一份声明中表示：“公开发布模型可以广泛分享AI的好处，并允许更多研究人员识别和帮助修复漏洞，从而使模型更安全。”

Meta补充说，它与内部和外部专家一起对其最新的Llama 3模型和聊天机器人Meta AI进行了安全压力测试。

OpenAI和Google表示，它们不断训练模型以更好地防御漏洞和对抗行为。专家认为，在AI安全方面做出最先进努力的Anthropic呼吁更多的信息共享和研究这种类型的攻击。

尽管有这些保证，随着模型与现有技术和设备变得更加互联，任何风险只会增加。

本月，苹果宣布与OpenAI合作，将ChatGPT集成到其设备中，作为新“Apple Intelligence”系统的一部分。

Ohayon说：“总体而言，公司还没有做好准备。”

来源：

https://www.ft.com/content/14a2c98b-c8d5-4e5b-a7b0-30f0a05ec432

Hannah Murphy in San Francisco

		自动登录	找回密码
密码			注册