斯坦福联合英伟达提出新方法：测试时强化学习攻克科学难题

2026年1月28日

（图片来自网络）

在科技领域快速发展的当下，业界关注如何利用人工智能（AI）发现科学问题的新最优解。斯坦福大学、英伟达等机构联合提出一项创新方法——Test-Time Training to Discover（TTT-Discover），通过在测试阶段对大语言模型（LLM）进行强化学习（RL），助力AI攻克科学难题，已在数学、GPU内核工程等多领域取得突破性成果，为AI持续学习打开新思路。

此前，业界曾利用「测试时搜索」（Test-time search）方法，用冻结的大语言模型多次尝试解决问题，类似人类做作业的“猜”解法，但模型本身未真正进步，如同学生无法内化作业背后的思想。而科学发现本质是超出训练数据与人类现有知识的「out-of-distribution（OoD）」问题，因此让大语言模型在测试时持续学习，才能真正提升解决问题的能力。

TTT-Discover方法将单个测试问题视为一个「环境」，在测试阶段对大语言模型执行强化学习（RL）。其目标不是让模型在各类问题上平均表现更好，而是专注于解决眼前的这一问题，并产出一个优秀的解决方案。该方法因此命名为「Test-Time Training to Discover（TTT-Discover）」。

实验结果显示，TTT-Discover在多个领域取得了突破性成果：在数学领域的Erdős最小重叠问题上刷新了记录；在GPU内核工程领域，开发出比人类最佳内核快两倍的全新A100 GPU内核；在AtCoder测试中超越了最佳AI代码和人类代码；在单细胞分析的去噪任务中也取得了最好成绩……

值得注意的是，该方法在计算成本上具有优势。以OpenAI的gpt-oss-120b为基础模型，通过使用Thinking Machines的API Tinker，每个问题仅需花费几百美元，大大降低了科技研究的成本门槛。

TTT-Discover的创新之处在于其学习目标和搜索策略。为了适应单一问题的目标，团队引入了**熵目标函数**和**受PUCT启发的状态复用策略**：

熵目标函数：通过指数加权极端偏向高奖励样本，但在训练早期和后期自适应设置β值，避免训练不稳定性或优势函数消失。

受PUCT启发状态复用策略：采用规则选择初始状态，每个状态的评分为当前状态的最大回报（若未选择过则取初始回报），确保搜索集中在最有前景的解决路径上。

这种设计使TTT-Discover能优先发现单一的最高奖励解决方案，而非多个解决方案的平均表现。

团队在数学、GPU内核工程、算法设计和生物学等四个截然不同的领域评估了TTT-Discover，选择这些领域是因为它们能将自身表现与人类专家对比。例如，数学和算法设计是近期AI工作取得大进展的领域，团队对比了已知的人类最佳结果和AI最佳结果，显示TTT-Discover在多数场景下表现优异。

尽管当前TTT-Discover方法目前仅能应用于具有连续奖励的问题，团队也明确了未来工作方向——测试针对稀疏奖励或二元奖励的问题，如数学证明、科学假说等，进一步拓展该方法的应用场景，为科学发现提供更多可能性。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2026-01-28 15

觉得人工智能进步了，以后解决问题更快了，生活也会更方便。
网友9 2026-01-28 15

科技发展要服务社会发展，这种方法为科学进步提供助力，要继续支持科技创新。
网友8 2026-01-28 15

科学发现需要创新方法，这种测试时强化学习提供新途径，值得深入研究。
网友7 2026-01-28 15

从工程角度，这种强化学习方法能优化内核，提升效率，对行业很有帮助。
网友6 2026-01-28 15

作为学生，看到AI学习的方法，感觉以后科研和作业都可能有新思路，很期待。
网友5 2026-01-28 15

感觉这个方法对数学帮助很大，能让解题更快，科技真厉害。
网友4 2026-01-28 15

科技好神奇，让电脑学习解决问题，以后学习也会变轻松？
网友3 2026-01-28 15

这种测试时强化学习很酷，以后科研可能更高效，为未来科技发展加码。
网友2 2026-01-28 15

AI持续学习的方法真的很创新，为科技发展指明新方向，期待实际应用结果。
网友1 2026-01-28 15

这个技术很厉害，感觉以后科学发现会更快捷，希望以后应用到更多领域。

查看“斯坦福联合英伟达提出新方法：测试时强化学习攻克科学难题”相关搜索 >

斯坦福联合英伟达提出新方法：测试时强化学习攻克科学难题

精彩评论（10）

最新新闻