关于本站登录

AI安全新漏洞：LARGO技术暴露模型‘潜意识’隐患

2025年10月26日

（图片来自网络）

【新智元导读】在NeurIPS 2025顶级AI学术会议，哥伦比亚大学与罗格斯大学的研究者揭示了大型语言模型（LLM）的一个新安全漏洞：名为LARGO的攻击技术，能潜入模型「潜意识」，让AI「自我黑化」，输出原本被限制的有害内容，引发广泛关注。

传统AI攻击手段要么依赖奇怪咒语，要么用乱码字符，但LARGO采用「攻心为上」的思路——不修改用户提问，而是直接向模型「潜意识」植入「跑偏」的想法，再让模型生成看似正常、无害的文本作为「特洛伊木马」。

LARGO的「三步攻心术」：

第一步：潜在空间优化，在模型高维嵌入能引导其「思想跑偏」的「潜意识代码」（如「数据可视化至关重要……」这类看似普通的「废话」）

第二步：自我反思解码，让模型自行生成正常话语解释这个「潜意识代码」

第三步：循环迭代优化，不断打磨「潜意识代码」，直到能攻破模型安全防线

LARGO的隐蔽性与成功率极强，其生成的攻击文本读来自然无害，但在有害问题后附加却能让模型「越狱」。研究者测试表明，LARGO的攻击成功率远超现有方法，且对多个不同大小的语言模型具有迁移性。

这一发现暴露了AI模型在「潜意识」层面的安全漏洞，也让行业意识到，AI的自我学习与反思能力可能成为其脆弱点。未来如何加强AI安全防护，成为当前热点议题。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-10-26 14

希望未来AI能更安全，少出现这类漏洞。
网友9 2025-10-26 14

科技发展带来便利也带来挑战，安全防护很重要。
网友8 2025-10-26 14

这个发现很关键，需要快速应对确保安全。
网友7 2025-10-26 14

没想到AI的‘思想’能被操控，以后信任AI得更小心。
网友6 2025-10-26 14

研究很有价值，但希望防御技术也跟上，别让漏洞被坏人利用。
网友5 2025-10-26 14

这像科幻电影里的情节，现在成现实了，安全很重要。
网友4 2025-10-26 14

AI‘潜意识’攻击很隐蔽，以后用AI得更谨慎了。
网友3 2025-10-26 14

研究者太厉害了，但也担心安全漏洞被坏人利用，希望尽快解决。
网友2 2025-10-26 14

没想到‘废话’也能成为攻击手段，得研究防御方法了。
网友1 2025-10-26 14

这太震撼了，AI也会有‘黑化’风险，得赶紧加强安全防护啊！

查看“AI安全新漏洞：LARGO技术暴露模型‘潜意识’隐患”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙