南航研究揭示AI安全防护漏洞:聊天机器人或可被攻破拒绝危险问题
(图片来自网络)
南京航空航天大学等机构联合研究,发现当前聊天机器人(如ChatGPT、Claude等)安全防护存在漏洞,可通过特定方法绕过,使原本应拒绝危险问题的机器人开口回答危险问题。研究不仅揭示了这些漏洞的类型与成因,还提供了相应的解决方案,引发社会各界对AI安全的关注。
一、研究背景与核心发现
研究团队发现,当前AI安全测试问题库存在缺陷,例如问题类型混杂、筛选标准不严谨,导致安全性评估不准确。同时,开发者消息功能等也被发现存在可被利用的漏洞,能够绕过AI的安全防护机制。
二、主要漏洞类型
- 问题库缺陷:现有测试问题集中包含大量不合格问题,严重影响安全性评估的准确性
- 开发者消息漏洞:可利用开发者消息功能巧妙绕过AI安全防护,使AI改变原本的拒绝回答行为
- 推理模型攻破:针对具备复杂推理能力的AI模型,存在专门设计的攻击方法,可突破其安全防护
三、解决方案与建议
研究团队提出MDH智能筛选系统、RTA系列数据集等解决方案,帮助提升AI安全性评估水平。同时建议AI开发企业强化安全防护机制,完善安全评估体系,从多个维度提升AI模型的抗攻击能力。
该研究提醒我们,在享受AI技术便利的同时,要充分认识到其安全风险,通过科学研究与技术完善,共同构建更安全的AI应用环境。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年11月9日:黄希扬:冲超成生涯最后心愿,将与俱乐部沟通退役
- 2025年11月9日:梅西获美职联比赛最佳球员,两球一助助迈阿密国际晋级
- 2025年11月9日:38岁梅西率队4-0晋级半决赛!生涯400助里程碑达成
- 2025年11月9日:开拓者惜败热火收2连败 阿夫迪亚约维奇数据亮眼 杨瀚森未出场
- 2025年11月9日:大湾区宝藏运动场‘藏’在哪里?
- 2025年11月9日:活力大湾区 同心向未来——第十五届全国运动会助推区域融合发展
- 2025年11月9日:林肯中国总裁:中国豪华车用户平均年龄35岁 远低于欧美
- 2025年11月9日:算法与社会裂痕:当舆论归因成问题
- 2025年11月9日:我国组合驾驶辅助技术达国际领先,乘用车市场渗透率超六成
- 2025年11月9日:零跑汽车推出Lafa5个性轿跑,布局差异化市场
- 2025年11月9日:消息称苹果iPhone 17系列国内激活销量超825万
- 2025年11月9日:科大讯飞携星火大模型亮相2025世界互联网大会 展现AI创新应用
- 2025年11月9日:《唐诡3》归来,4年24桩诡案能否续写传奇?
- 2025年11月9日:预售仅13万多!配激光雷达+磁悬浮底盘,深蓝L06将于11月18日上市
- 2025年11月9日:比亚迪方程豹钛7首发互联电动滑板首批售罄 意向用户可预定
- 2025年11月9日:美国政府停摆限制商业航天发射时段, SpaceX等公司面临时间调整
- 2025年11月9日:荣耀郭锐解读端侧AI落地:开启消费级新生态
- 2025年11月9日:2025年安阳市第八届青少年航模大赛燃情开赛
- 2025年11月9日:Vlog|乌镇峰会探数智未来:超智能一天的奇妙体验
- 2025年11月9日:荣耀自研耳夹式耳机明年推出,亲选耳机2 Pro功能与外观曝光

精彩评论(10)