POSTECH研究发现AI大模型读题顺序影响答题准确率
(图片来自网络)
韩国浦项科技大学(POSTECH)与HJ AI实验室联合开展的研究揭示了一个令人惊讶的现象:大型语言模型(LLM)的答题准确率会因题目阅读顺序的不同产生显著差异。研究团队测试了涵盖5亿至90亿参数的21种主流大模型(如LLaMA、Qwen、Gemma等),结果发现这种“读题顺序敏感性”在所有模型中普遍存在,平均性能差距高达14.7个百分点。
核心发现与现象:当我们让大型语言模型处理类似“阅读理解”的选择题时,若采用“先读背景材料,再看问题、最后看选项”的顺序,其答题准确率可达到70%左右;但若采用“先看问题和选项,再读背景材料”的顺序,准确率会骤降至55%左右。这种“读题顺序敏感性”让研究人员困惑不已——为何仅仅改变阅读顺序,就能让AI表现产生如此戏剧性的变化?
问题根源:因果注意力限制。研究团队追踪后发现,这种现象的根源与现代AI语言模型的基础架构有关。大部分主流AI模型采用“解码器”架构,这种架构存在“只能向前看”的特殊限制——AI在处理一段文字时,只能根据前面已读的内容来理解当前词语,无法“偷看”后面的内容。在“问题-选项-背景”的阅读顺序下,AI在分析每个选项时无法有效利用后面的背景信息,这就像让学生在没看过课本的情况下做课后习题,自然难以得出正确答案。
三大假设验证:研究团队提出三个假设并逐一验证,最终指向核心原因。
- 训练偏好假设:怀疑是训练数据导致偏好,但对比基础版与指令调优版模型、添加示例后,性能差距无显著改善,否定该假设。
- 记忆丢失假设:认为记忆能力导致,但测试选项回忆能力后,两种顺序下回忆准确率相近,否定该假设。
- 因果注意力限制假设:指向模型架构核心,最终验证为根本原因。
架构实验对比:测试不同架构模型(解码器、编码器-解码器、纯编码器),结果显示架构灵活度越高(如纯编码器模型),读题顺序敏感性越低。纯编码器模型性能差距仅0.02个百分点,几乎可忽略。
验证实验与解决方案:通过“背景移除”“注意力流动分析”“梯度归因分析”等实验验证后,团队提出三种解决方案——注意力剪枝、激活状态移植、选项重复,均验证了因果注意力限制是根源,并提供优化方向。
研究意义:该研究不仅揭示了AI模型在信息处理上的局限性,也为未来AI架构设计指明方向,也提醒普通用户在使用AI时优化输入信息顺序可提升效果。常见问题与解答:
Q:因果注意力机制为何影响AI答题?
A:因因果注意力让AI“只能向前看”,在“问题-选项-背景”顺序中无法有效利用背景信息,导致答题准确率下降。
Q:读题顺序影响对普通用户有何用?
A:建议在使用AI时先提供完整背景信息,再提出具体问题,可提升AI答题准确率。
最新新闻
- 2026年1月25日:腾讯元宝新春活动送10亿现金红包,单笔最高10000元
- 2026年1月25日:俄罗斯测试新型等离子推进系统 火星旅行有望缩至1 - 2个月
- 2026年1月25日:外媒测试引争议 OpenAI GPT - 5.2可信度受质疑
- 2026年1月25日:小米汽车熔岩橙配色下架 雷军无奈谈行业困境
- 2026年1月25日:“死了么”App爆火:背后是庞大独居群体的隐忧
- 2026年1月25日:死龙虾变身机器人:科技赋予废弃生物新功能
- 2026年1月25日:网购微星RTX 5090显卡遇调包 网友分享浴巾裹石头骗局经历
- 2026年1月25日:北京新能源汽车保有量超130万辆 超充站达1044座
- 2026年1月25日:荣耀平板新春版更新官宣:视频锁屏与PC级应用等亮点来袭
- 2026年1月25日:中国正能量网络精品征集展播活动:记录奋进力量 激荡社会正能量
- 2026年1月25日:达沃斯论坛青年谈中国:展现多维发展形象
- 2026年1月25日:这样的河南,值得你高看一眼!
- 2026年1月25日:海南12345热线:封关首年成为自贸港联通世界的核心桥梁
- 2026年1月25日:从29场发布会看广东‘十四五’发展答卷:成绩亮眼未来可期
- 2026年1月25日:北京出台政策推动商业卫星遥感数据应用 从数据孤岛迈向应用蓝海
- 2026年1月25日:荣耀官方提醒Magic8 Pro Air避免使用一体式全包镜头膜
- 2026年1月25日:AMD核显规划分化:中端APU将沿用RDNA3.5架构直至2029年
- 2026年1月25日:人口仅1.5万的小岛靠‘.ai’域名年赚超7000万美元,成财政新亮点
- 2026年1月25日:苹果iOS 27系统Siri将升级为完整聊天机器人:深度集成不单独成应用
- 2026年1月25日:香港城市大学研究揭示,锂电池回收可大幅减低环境负担

精彩评论(10)