牛津、斯坦福大学新研究:具备强推理能力的AI模型更易遭受越狱攻击
(图片来自网络)
牛津、斯坦福大学新研究:具备强推理能力的AI模型更易遭越狱攻击
最近,Anthropic、牛津大学和斯坦福大学联合开展的研究表明,人工智能模型的推理(即思考用户请求)能力越强,并不意味着能更有效拒绝有害指令,反而可能成为安全漏洞的隐患。
研究人员通过一种名为“链式思维劫持”的新方法,对主流商业AI模型(如ChatGPT、Claude、Gemini等)进行测试,发现此类攻击的成功率超80%。这种攻击方式将有害指令隐藏在大量无害的推理步骤中,利用AI模型的注意力集中在推理过程中前期步骤,而将最后的有害指令几乎忽略的原理。
攻击成功率随推理链延长显著上升:
- 当推理链最短时,攻击成功率约为27%;
- 当处于自然推理长度时,成功率上升至51%;
- 当扩展推理链后,成功率飙升至80%以上。
该安全漏洞几乎影响所有主流AI模型,即便是一些经过安全调优的“对齐模型”,若其内部推理层被利用,安全防护也会失效。研究团队提出“推理感知防护”这一解决方案,通过在AI推理过程中监控安全检查的活跃情况,若发现某个推理步骤削弱了安全信号,系统会及时干预,将注意力重新引导到潜在有害内容上。早期测试表明,该方法既能保持模型良好表现,又能有效恢复安全防护。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年11月8日:杨浦滨江世界级博物馆开启‘人工智能+’技能文化新场景(开馆两周年)
- 2025年11月8日:三菱Eclipse跨界纯电汽车发布 搭载智能装甲设计 续航达600公里
- 2025年11月8日:微信集中行动:下架违规微短剧和关联小程序,守护平台清朗空间
- 2025年11月8日:美国学校部署AI监控工具 监测学生与聊天机器人对话以预防心理问题
- 2025年11月8日:医疗AI迎来“评审员”!北京启动医疗人工智能应用评测服务
- 2025年11月8日:“10后”职场变革:语音取代键盘或成趋势 研究预测语音沟通主流化
- 2025年11月8日:三星Galaxy S26标准版手机线稿曝光:6.9mm厚度 或成轻薄新标杆
- 2025年11月8日:英超焦点战:曼联2-2绝平热刺 末段绝杀成焦点
- 2025年11月8日:芝加哥大学团队发明「温度调节术」:让AI学会循序渐进思考问题
- 2025年11月8日:Netflix联合创始人坚持周二下午5点下班:用规则守护心理健康
- 2025年11月8日:AI如何赋能千行百业?世界互联网大会企业家畅谈实践路径
- 2025年11月8日:进博会创新产品点亮消费新场景:飞行器、外骨骼等黑科技亮相
- 2025年11月8日:iPhone 18全系配备2400万前摄 苹果史上最强前摄来袭
- 2025年11月8日:SpaceX披露简化版登月舱方案 加速阿尔忒弥斯登月计划
- 2025年11月8日:从高空到近身,大疆DJI Neo 2成现象级爆品!
- 2025年11月8日:央视记者亲历美国联邦政府停摆冲击航空系统
- 2025年11月8日:淘宝霸屏广告遭调查 多地监管部门介入处理
- 2025年11月8日:Google DeepMind 推出 AI 代码人性化评估系统 Vibe Checker:革新代码质量判断方式
- 2025年11月8日:谷歌DeepMind新开发技术让AI检索效率提升4.7倍
- 2025年11月8日:科学家揭示大语言模型测试标准普遍缺陷,AI进步衡量面临挑战

精彩评论(10)