POSTECH研究发现AI大模型读题顺序影响答题准确率

2026年1月25日
news

(图片来自网络)

韩国浦项科技大学(POSTECH)与HJ AI实验室联合开展的研究揭示了一个令人惊讶的现象:大型语言模型(LLM)的答题准确率会因题目阅读顺序的不同产生显著差异。研究团队测试了涵盖5亿至90亿参数的21种主流大模型(如LLaMA、Qwen、Gemma等),结果发现这种“读题顺序敏感性”在所有模型中普遍存在,平均性能差距高达14.7个百分点。

核心发现与现象:当我们让大型语言模型处理类似“阅读理解”的选择题时,若采用“先读背景材料,再看问题、最后看选项”的顺序,其答题准确率可达到70%左右;但若采用“先看问题和选项,再读背景材料”的顺序,准确率会骤降至55%左右。这种“读题顺序敏感性”让研究人员困惑不已——为何仅仅改变阅读顺序,就能让AI表现产生如此戏剧性的变化?

问题根源:因果注意力限制。研究团队追踪后发现,这种现象的根源与现代AI语言模型的基础架构有关。大部分主流AI模型采用“解码器”架构,这种架构存在“只能向前看”的特殊限制——AI在处理一段文字时,只能根据前面已读的内容来理解当前词语,无法“偷看”后面的内容。在“问题-选项-背景”的阅读顺序下,AI在分析每个选项时无法有效利用后面的背景信息,这就像让学生在没看过课本的情况下做课后习题,自然难以得出正确答案。

三大假设验证:研究团队提出三个假设并逐一验证,最终指向核心原因。

  • 训练偏好假设:怀疑是训练数据导致偏好,但对比基础版与指令调优版模型、添加示例后,性能差距无显著改善,否定该假设。
  • 记忆丢失假设:认为记忆能力导致,但测试选项回忆能力后,两种顺序下回忆准确率相近,否定该假设。
  • 因果注意力限制假设:指向模型架构核心,最终验证为根本原因。

架构实验对比:测试不同架构模型(解码器、编码器-解码器、纯编码器),结果显示架构灵活度越高(如纯编码器模型),读题顺序敏感性越低。纯编码器模型性能差距仅0.02个百分点,几乎可忽略。

验证实验与解决方案:通过“背景移除”“注意力流动分析”“梯度归因分析”等实验验证后,团队提出三种解决方案——注意力剪枝、激活状态移植、选项重复,均验证了因果注意力限制是根源,并提供优化方向。

研究意义:该研究不仅揭示了AI模型在信息处理上的局限性,也为未来AI架构设计指明方向,也提醒普通用户在使用AI时优化输入信息顺序可提升效果。常见问题与解答:
Q:因果注意力机制为何影响AI答题?
A:因因果注意力让AI“只能向前看”,在“问题-选项-背景”顺序中无法有效利用背景信息,导致答题准确率下降。
Q:读题顺序影响对普通用户有何用?
A:建议在使用AI时先提供完整背景信息,再提出具体问题,可提升AI答题准确率。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2026-01-25 14
    企业职员可以用这发现优化系统,信息排列可能提升效率
  • 网友9 2026-01-25 14
    从语言模型到实际应用,这种跨领域研究很厉害,值得点赞
  • 网友8 2026-01-25 14
    对普通用户来说,这研究给了使用AI的小技巧,提升准确率
  • 网友7 2026-01-25 14
    虽然我懂不多,但知道AI答题受顺序影响,感觉科技越来越贴近生活了
  • 网友6 2026-01-25 14
    以后用AI规划时得调整下信息顺序,可能更准确
  • 网友5 2026-01-25 14
    哇,AI答题还有顺序门道,这感觉像解谜,太有趣了
  • 网友4 2026-01-25 14
    AI答题和人类一样,看题顺序影响结果,这为优化AI学习提供了思路
  • 网友3 2026-01-25 14
    老师现在讲选择题,原来AI也受顺序影响,说不定我们能利用这点让AI学得更好
  • 网友2 2026-01-25 14
    研究很严谨,揭示了AI架构局限,为未来模型优化指明方向,意义重大
  • 网友1 2026-01-25 14
    原来AI做题也受顺序影响,以后用AI得注意这点,不然可能答错
查看“POSTECH研究发现AI大模型读题顺序影响答题准确率”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙