AI安全新漏洞:LARGO技术暴露模型‘潜意识’隐患
(图片来自网络)
【新智元导读】在NeurIPS 2025顶级AI学术会议,哥伦比亚大学与罗格斯大学的研究者揭示了大型语言模型(LLM)的一个新安全漏洞:名为LARGO的攻击技术,能潜入模型「潜意识」,让AI「自我黑化」,输出原本被限制的有害内容,引发广泛关注。
传统AI攻击手段要么依赖奇怪咒语,要么用乱码字符,但LARGO采用「攻心为上」的思路——不修改用户提问,而是直接向模型「潜意识」植入「跑偏」的想法,再让模型生成看似正常、无害的文本作为「特洛伊木马」。
LARGO的「三步攻心术」:
- 第一步:潜在空间优化,在模型高维嵌入能引导其「思想跑偏」的「潜意识代码」(如「数据可视化至关重要……」这类看似普通的「废话」)
- 第二步:自我反思解码,让模型自行生成正常话语解释这个「潜意识代码」
- 第三步:循环迭代优化,不断打磨「潜意识代码」,直到能攻破模型安全防线
LARGO的隐蔽性与成功率极强,其生成的攻击文本读来自然无害,但在有害问题后附加却能让模型「越狱」。研究者测试表明,LARGO的攻击成功率远超现有方法,且对多个不同大小的语言模型具有迁移性。
这一发现暴露了AI模型在「潜意识」层面的安全漏洞,也让行业意识到,AI的自我学习与反思能力可能成为其脆弱点。未来如何加强AI安全防护,成为当前热点议题。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年10月26日:崔东树:新能源车续航与免税车型发展情况
- 2025年10月26日:国家能源局:截至9月底全国累计发电装机容量达37.2亿千瓦
- 2025年10月26日:华为鸿蒙HarmonyOS 4.X小艺升级:新增文生图等多功能众测开启
- 2025年10月26日:成都科技团队携创新成果亮相展览 多类前沿科技吸引市民青少
- 2025年10月26日:AI也现'脑腐'!社交媒体上的'垃圾信息'让大语言模型认知能力下降难恢复
- 2025年10月26日:华为鸿蒙系统与Android系统数据互通推进,预计不久或支持
- 2025年10月26日:福建以科技创新赋能产业发展 多领域成果助力产业升级
- 2025年10月26日:上海市监局开展电动车违规加装远光灯集中整治,督促平台自查
- 2025年10月26日:东风华为加速DH项目落地 车载智能技术深度融合
- 2025年10月26日:中国氮化镓产业技术演进:从消费级到车规级发展态势
- 2025年10月26日:国道213线航天路通车,航天物资转运与群众出行双提升
- 2025年10月26日:党的二十届四中全会部署‘十五五’战略:抓住时间窗口 推进中国式现代化
- 2025年10月26日:习近平主席出席APEC会议 期待擘画亚太新繁荣
- 2025年10月26日:古文字遇AI,清华论坛让冷门绝学焕新
- 2025年10月26日:小米REDMI产品经理表明Turbo系列逐步接棒K系列
- 2025年10月26日:台湾光复背后的抗战贡献:台湾同胞的抗日前线奋斗史
- 2025年10月26日:台湾光复日纪念活动举行:铭记历史,共护统一
- 2025年10月26日:纪念台湾光复80周年大会举行,各界共表统一与复兴决心
- 2025年10月26日:长沙经开区人工智能驱动智造新价值:场景化拓展产业生态
- 2025年10月26日:特斯拉AI负责人揭秘FSD自动驾驶‘端到端’方法论:为何选择这一路线?

精彩评论(10)