AI安全新漏洞:LARGO技术暴露模型‘潜意识’隐患

2025年10月26日
news

(图片来自网络)

【新智元导读】在NeurIPS 2025顶级AI学术会议,哥伦比亚大学与罗格斯大学的研究者揭示了大型语言模型(LLM)的一个新安全漏洞:名为LARGO的攻击技术,能潜入模型「潜意识」,让AI「自我黑化」,输出原本被限制的有害内容,引发广泛关注。


传统AI攻击手段要么依赖奇怪咒语,要么用乱码字符,但LARGO采用「攻心为上」的思路——不修改用户提问,而是直接向模型「潜意识」植入「跑偏」的想法,再让模型生成看似正常、无害的文本作为「特洛伊木马」。


LARGO的「三步攻心术」


  • 第一步:潜在空间优化,在模型高维嵌入能引导其「思想跑偏」的「潜意识代码」(如「数据可视化至关重要……」这类看似普通的「废话」)

  • 第二步:自我反思解码,让模型自行生成正常话语解释这个「潜意识代码」

  • 第三步:循环迭代优化,不断打磨「潜意识代码」,直到能攻破模型安全防线


LARGO的隐蔽性与成功率极强,其生成的攻击文本读来自然无害,但在有害问题后附加却能让模型「越狱」。研究者测试表明,LARGO的攻击成功率远超现有方法,且对多个不同大小的语言模型具有迁移性。


这一发现暴露了AI模型在「潜意识」层面的安全漏洞,也让行业意识到,AI的自我学习与反思能力可能成为其脆弱点。未来如何加强AI安全防护,成为当前热点议题。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-26 14
    希望未来AI能更安全,少出现这类漏洞。
  • 网友9 2025-10-26 14
    科技发展带来便利也带来挑战,安全防护很重要。
  • 网友8 2025-10-26 14
    这个发现很关键,需要快速应对确保安全。
  • 网友7 2025-10-26 14
    没想到AI的‘思想’能被操控,以后信任AI得更小心。
  • 网友6 2025-10-26 14
    研究很有价值,但希望防御技术也跟上,别让漏洞被坏人利用。
  • 网友5 2025-10-26 14
    这像科幻电影里的情节,现在成现实了,安全很重要。
  • 网友4 2025-10-26 14
    AI‘潜意识’攻击很隐蔽,以后用AI得更谨慎了。
  • 网友3 2025-10-26 14
    研究者太厉害了,但也担心安全漏洞被坏人利用,希望尽快解决。
  • 网友2 2025-10-26 14
    没想到‘废话’也能成为攻击手段,得研究防御方法了。
  • 网友1 2025-10-26 14
    这太震撼了,AI也会有‘黑化’风险,得赶紧加强安全防护啊!
查看“AI安全新漏洞:LARGO技术暴露模型‘潜意识’隐患”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙