牛津、斯坦福大学新研究:具备强推理能力的AI模型更易遭受越狱攻击

2025年11月8日
news

(图片来自网络)

牛津、斯坦福大学新研究:具备强推理能力的AI模型更易遭越狱攻击

最近,Anthropic、牛津大学和斯坦福大学联合开展的研究表明,人工智能模型的推理(即思考用户请求)能力越强,并不意味着能更有效拒绝有害指令,反而可能成为安全漏洞的隐患。

研究人员通过一种名为“链式思维劫持”的新方法,对主流商业AI模型(如ChatGPT、Claude、Gemini等)进行测试,发现此类攻击的成功率超80%。这种攻击方式将有害指令隐藏在大量无害的推理步骤中,利用AI模型的注意力集中在推理过程中前期步骤,而将最后的有害指令几乎忽略的原理。

攻击成功率随推理链延长显著上升:

  • 当推理链最短时,攻击成功率约为27%;
  • 当处于自然推理长度时,成功率上升至51%;
  • 当扩展推理链后,成功率飙升至80%以上。

该安全漏洞几乎影响所有主流AI模型,即便是一些经过安全调优的“对齐模型”,若其内部推理层被利用,安全防护也会失效。研究团队提出“推理感知防护”这一解决方案,通过在AI推理过程中监控安全检查的活跃情况,若发现某个推理步骤削弱了安全信号,系统会及时干预,将注意力重新引导到潜在有害内容上。早期测试表明,该方法既能保持模型良好表现,又能有效恢复安全防护。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-08 22
    必须加强AI安全监管和技术防护,保障用户和信息安全!
  • 网友9 2025-11-08 22
    这种攻击方式很巧妙,需要创新思路来应对AI安全挑战!
  • 网友8 2025-11-08 22
    研究很深刻,AI安全防护也得跟上技术发展节奏才行!
  • 网友7 2025-11-08 22
    这太不安全了,得赶紧采取防护措施保障信息安全!
  • 网友6 2025-11-08 22
    虽然AI有问题,但技术进步也很快,希望有好的防护方法!
  • 网友5 2025-11-08 22
    企业用AI系统得加强安全防护,这次研究提醒要重视了!
  • 网友4 2025-11-08 22
    学生用AI也要注意安全,老师讲AI的时候得强调这点!
  • 网友3 2025-11-08 22
    工作用AI要注意安全,这种攻击可能影响专业领域安全!
  • 网友2 2025-11-08 22
    AI发展这么快,安全漏洞也多,得赶紧想办法防护啦!
  • 网友1 2025-11-08 22
    这太让人担忧了,AI安全应该重视起来!
查看“牛津、斯坦福大学新研究:具备强推理能力的AI模型更易遭受越狱攻击”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙