斯坦福联合英伟达提出新方法:测试时强化学习攻克科学难题

2026年1月28日
news

(图片来自网络)

在科技领域快速发展的当下,业界关注如何利用人工智能(AI)发现科学问题的新最优解。斯坦福大学、英伟达等机构联合提出一项创新方法——Test-Time Training to Discover(TTT-Discover),通过在测试阶段对大语言模型(LLM)进行强化学习(RL),助力AI攻克科学难题,已在数学、GPU内核工程等多领域取得突破性成果,为AI持续学习打开新思路。


此前,业界曾利用「测试时搜索」(Test-time search)方法,用冻结的大语言模型多次尝试解决问题,类似人类做作业的“猜”解法,但模型本身未真正进步,如同学生无法内化作业背后的思想。而科学发现本质是超出训练数据与人类现有知识的「out-of-distribution(OoD)」问题,因此让大语言模型在测试时持续学习,才能真正提升解决问题的能力。


TTT-Discover方法将单个测试问题视为一个「环境」,在测试阶段对大语言模型执行强化学习(RL)。其目标不是让模型在各类问题上平均表现更好,而是专注于解决眼前的这一问题,并产出一个优秀的解决方案。该方法因此命名为「Test-Time Training to Discover(TTT-Discover)」。


实验结果显示,TTT-Discover在多个领域取得了突破性成果:在数学领域的Erdős最小重叠问题上刷新了记录;在GPU内核工程领域,开发出比人类最佳内核快两倍的全新A100 GPU内核;在AtCoder测试中超越了最佳AI代码和人类代码;在单细胞分析的去噪任务中也取得了最好成绩……


值得注意的是,该方法在计算成本上具有优势。以OpenAI的gpt-oss-120b为基础模型,通过使用Thinking Machines的API Tinker,每个问题仅需花费几百美元,大大降低了科技研究的成本门槛。


TTT-Discover的创新之处在于其学习目标和搜索策略。为了适应单一问题的目标,团队引入了**熵目标函数**和**受PUCT启发的状态复用策略**:


  • 熵目标函数:通过指数加权极端偏向高奖励样本,但在训练早期和后期自适应设置β值,避免训练不稳定性或优势函数消失。

  • 受PUCT启发状态复用策略:采用规则选择初始状态,每个状态的评分为当前状态的最大回报(若未选择过则取初始回报),确保搜索集中在最有前景的解决路径上。


这种设计使TTT-Discover能优先发现单一的最高奖励解决方案,而非多个解决方案的平均表现。


团队在数学、GPU内核工程、算法设计和生物学等四个截然不同的领域评估了TTT-Discover,选择这些领域是因为它们能将自身表现与人类专家对比。例如,数学和算法设计是近期AI工作取得大进展的领域,团队对比了已知的人类最佳结果和AI最佳结果,显示TTT-Discover在多数场景下表现优异。


尽管当前TTT-Discover方法目前仅能应用于具有连续奖励的问题,团队也明确了未来工作方向——测试针对稀疏奖励或二元奖励的问题,如数学证明、科学假说等,进一步拓展该方法的应用场景,为科学发现提供更多可能性。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2026-01-28 15
    觉得人工智能进步了,以后解决问题更快了,生活也会更方便。
  • 网友9 2026-01-28 15
    科技发展要服务社会发展,这种方法为科学进步提供助力,要继续支持科技创新。
  • 网友8 2026-01-28 15
    科学发现需要创新方法,这种测试时强化学习提供新途径,值得深入研究。
  • 网友7 2026-01-28 15
    从工程角度,这种强化学习方法能优化内核,提升效率,对行业很有帮助。
  • 网友6 2026-01-28 15
    作为学生,看到AI学习的方法,感觉以后科研和作业都可能有新思路,很期待。
  • 网友5 2026-01-28 15
    感觉这个方法对数学帮助很大,能让解题更快,科技真厉害。
  • 网友4 2026-01-28 15
    科技好神奇,让电脑学习解决问题,以后学习也会变轻松?
  • 网友3 2026-01-28 15
    这种测试时强化学习很酷,以后科研可能更高效,为未来科技发展加码。
  • 网友2 2026-01-28 15
    AI持续学习的方法真的很创新,为科技发展指明新方向,期待实际应用结果。
  • 网友1 2026-01-28 15
    这个技术很厉害,感觉以后科学发现会更快捷,希望以后应用到更多领域。
查看“斯坦福联合英伟达提出新方法:测试时强化学习攻克科学难题”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙