AI大语言模型解数学题或仅依赖最后一个token

2025年9月14日
news

(图片来自网络)

Alexin大语言模型解数学题或仅依赖最后一个token:近日,一项研究揭示,大语言模型在处理心算类数学题时,几乎所有实际数学计算都集中在序列的最后一个token上完成,而非分散在所有token中。来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究团队发现,这一发现挑战了Transformer架构模型常见的信息访问模式。


研究人员运用上下文感知平均消融(Context - Aware Mean Ablation, CAMA)和基于注意力的窥视(attention - based peeking, ABP)技术,对Llama - 3 - 8B等基于Transformer架构的大语言模型开展了一系列消融实验。这些实验通过系统性地移除或改变模型部分组件,探究模型完成心算任务所需的“最少计算量”。


在实验过程中,研究人员发现模型内部会形成一种被称为“人人为我(All - for - One, AF1)”的稀疏子图——该子图通过最少的计算层和最有限的信息传递,让模型高效完成运算。在这种机制中,输入Transformer前几层的token主要负责通用准备工作(如识别token、结构编码、预测下一步所需的通用表示),而中间的两层则将信息传递给最后一个token。之后,最后一个token独自完成计算并给出答案。这一过程表明,模型内部将“任务通用型计算”(如token识别、数值与结构编码)与“输入特定型计算”(如实际算术运算)是分开处理的。


研究聚焦与验证:该研究聚焦于心算任务(即涉及两个或三个操作数的算术问题,如42 + 20 − 15等,这些问题可以通过单个token的输出解决,无需模型进行显式的链式思维推理)。实验表明,大语言模型在诸多计算任务上表现出色,而其Transformer架构允许任意token通过自注意力机制立即访问所有先前的token以传递信息,并使每个token能够通过多层感知机(MLP)并行执行各自独立计算。但即便如此,模型内部的信息流和计算过程仍是不透明的。因此,研究人员通过“在模型的初始层抑制token针对特定输入的计算”“在少数几层中限制跨token位置的信息传递路径”“在剩余的层中强制所有计算都在最后一个token上发生”等步骤,来探索模型内部机制。


通过一系列实验,研究人员发现Llama - 3 - 8B等模型在心算任务中只需前14层做任务通用计算,然后通过2层信息传输让最后一个token获取全局信息,剩余层仅进行最后token的自计算。这个几乎保留全部性能的子图被命名为AF1 - llama。进一步验证表明,AF1 - llama在八个任务中总体表现出高忠实度,且关键注意力头集中在少数层,大部分头部冗余。此外,研究还验证了AF1 - llama在Llama - 3 - 8B和Llama - 3.1 - 8B上的泛化情况,以及在Pythia和GPT - J模型上的类似稀疏子图。


研究意义:总体而言,这项工作为大语言模型中的算术推理和跨token计算的机制理解做出了重要贡献,也为优化大语言模型计算效率提供了新思路。此外,CAMA和ABP这类研究方法也可服务于算术任务之外的更广泛应用。


(注:相关研究论文及链接见文中标注。)

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-14 14
    科学家们都在努力解开AI的‘黑箱’,这项研究很关键。
  • 网友9 2025-09-14 14
    这研究让AI算术推理更透明了,未来应用更有信心。
  • 网友8 2025-09-14 14
    原来模型内部结构这么有意思,最后一个token功劳大。
  • 网友7 2025-09-14 14
    Transformer机制研究又有新突破,为AI理解提供新视角。
  • 网友6 2025-09-14 14
    感觉以后算术题不用自己算了,AI会了。
  • 网友5 2025-09-14 14
    科技发展快,AI在数学方面进步真大。
  • 网友4 2025-09-14 14
    科学家太牛了,把AI内部计算看这么清楚。
  • 网友3 2025-09-14 14
    刚学的大语言模型机制,现在又有新发现,太有意思了。
  • 网友2 2025-09-14 14
    AI越来越智能,数学题可能以后都靠它了。
  • 网友1 2025-09-14 14
    这研究太厉害了,原来AI做数学题这么聪明!
查看“AI大语言模型解数学题或仅依赖最后一个token”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙