这个奇招能在99%的情况下绕过人工智能安全功能

币搜网报道:

来自 Anthropic、斯坦福和牛津的人工智能研究人员发现,让人工智能模型思考更长时间反而更容易被破解——这与所有人的假设恰恰相反。

普遍认为,扩展推理能力能够提升人工智能模型的安全性,因为它能让模型有更多时间检测并拒绝有害请求。然而,研究人员却发现,它反而催生了一种可靠的越狱方法,可以完全绕过安全过滤器。

利用这种技术,攻击者可以在任何人工智能模型的“思维链”过程中插入指令,强制其生成用于制造武器、编写恶意软件代码或其他违禁内容的指令,而这些内容通常会立即触发拒绝机制。人工智能公司花费数百万美元构建这些安全防护措施,正是为了防止此类输出。

该研究表明:在 Gemini 2.5 Pro 上攻击成功率达到 99%,在 GPT o4 mini 上达到 94%,在 Grok 3 mini 上达到 100%,在 Claude 4 Sonnet 上达到 94%。这些数据远超之前所有在大型推理模型上测试过的越狱方法。

这种攻击很简单,类似于“耳语传话游戏”(或“电话游戏”),恶意玩家位于队列末尾附近。只需在恶意请求中插入大量看似无害的解谜题序列;研究人员测试了数独、逻辑谜题和抽象数学题。在末尾添加最终答案提示,模型的安全防护机制就会失效。

研究人员写道:“先前的研究表明,这种规模化的推理能力可以通过提高拒绝能力来增强安全性。然而,我们的研究结果却恰恰相反。” 正是这种使这些模型更擅长解决问题的能力,也使它们对危险视而不见。

模型内部运作机制如下:当你要求人工智能在回答有害问题之前先解决一个谜题时,它的注意力会被分散到成千上万个无害的推理环节中。而那条有害的指令——通常隐藏在推理链的末尾——几乎得不到任何关注。随着推理链的延长,原本能够识别危险提示的安全检查机制会显著减弱。

很多熟悉人工智能的人都意识到了这个问题,但程度较轻。故意延长处理时间,以便在处理有害指令之前制造模型浪费令牌。

研究团队对S1模型进行了对照实验,以探究推理长度的影响。在推理时间最短的情况下,攻击成功率仅为27%。当推理长度达到自然水平时,成功率跃升至51%。强制模型进行更长时间的逐步推理后,成功率更是飙升至80%。

所有主流商业人工智能系统都难逃这种攻击。OpenAI 的 GPT、Anthropic 的 Claude、谷歌的 Gemini 以及 xAI 的 Grok——无一幸免。漏洞存在于架构本身,而非任何特定的实现方式。

AI模型在第25层左右的中间层编码安全检查强度。后期层则编码验证结果。冗长的良性推理链会抑制这两种信号,最终导致注意力从有害令牌上转移开来。

研究人员发现,负责安全检查的特定注意力头集中在第15层到第35层。他们通过手术移除了其中60个注意力头。拒绝行为随即消失。有害指令对模型而言也变得无法识别。

人工智能模型中的“层”就像烹饪步骤,每一步都帮助计算机更好地理解和处理信息。这些层协同工作,将学习到的信息传递给下一层,从而使模型能够回答问题、做出决策或发现问题。有些层特别擅长识别安全问题——例如阻止有害请求——而另一些层则帮助模型进行思考和推理。通过堆叠这些层,人工智能可以变得更加智能,并且在言行举止上更加谨慎。

这项新的突破挑战了近期人工智能发展的核心假设。过去一年,主要的人工智能公司将重心从单纯的参数数量转向了推理能力的扩展。传统的扩展方式收益递减。推理时间推理——即让模型在回答问题前进行更长时间的思考——成为了提升性能的新前沿。

此前人们认为,思考时间越长,安全性就越高。扩展推理能力能让模型有更多时间识别并拒绝危险请求。但这项研究证明,这种假设并不准确,甚至可能是错误的。

一项相关的攻击称为由杜克大学和台湾清华大学的研究人员于2月份发布的H-CoT攻击,从另一个角度利用了同样的漏洞。H-CoT攻击并非通过填充谜题来达到目的,而是操纵模型自身的推理步骤。OpenAI的o1模型在正常情况下保持着99%的拒绝率。但在H-CoT攻击下,这一数值会降至2%以下。

研究人员提出了一种防御策略:推理感知监控。该策略追踪安全信号在每个推理步骤中的变化,如果任何步骤削弱了安全信号,则对其进行惩罚——强制模型无论推理过程长短,都必须持续关注潜在有害内容。早期测试表明,这种方法可以在不降低性能的前提下恢复安全性。

但具体实施方案仍不明朗。该防御方案需要深度集成到模型的推理过程中,这远非简单的补丁或滤波器所能比拟。它需要实时监测数十层内部激活情况,并动态调整注意力模式。这在计算上耗费巨大,技术上也十分复杂。

研究人员在论文发表前已将该漏洞披露给 OpenAI、Anthropic、Google DeepMind 和 xAI。“所有机构均已确认收到该漏洞信息,其中几家正在积极评估缓解措施,”研究人员在伦理声明中表示。

免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复

(0)
上一篇 2025年11月14日 上午4:25
下一篇 2025年11月14日 上午4:55

相关推荐

风险提示:理性看待区块链,提高风险意识!