斯坦福联合英伟达提出新方法:测试时强化学习攻克科学难题
(图片来自网络)
在科技领域快速发展的当下,业界关注如何利用人工智能(AI)发现科学问题的新最优解。斯坦福大学、英伟达等机构联合提出一项创新方法——Test-Time Training to Discover(TTT-Discover),通过在测试阶段对大语言模型(LLM)进行强化学习(RL),助力AI攻克科学难题,已在数学、GPU内核工程等多领域取得突破性成果,为AI持续学习打开新思路。
此前,业界曾利用「测试时搜索」(Test-time search)方法,用冻结的大语言模型多次尝试解决问题,类似人类做作业的“猜”解法,但模型本身未真正进步,如同学生无法内化作业背后的思想。而科学发现本质是超出训练数据与人类现有知识的「out-of-distribution(OoD)」问题,因此让大语言模型在测试时持续学习,才能真正提升解决问题的能力。
TTT-Discover方法将单个测试问题视为一个「环境」,在测试阶段对大语言模型执行强化学习(RL)。其目标不是让模型在各类问题上平均表现更好,而是专注于解决眼前的这一问题,并产出一个优秀的解决方案。该方法因此命名为「Test-Time Training to Discover(TTT-Discover)」。
实验结果显示,TTT-Discover在多个领域取得了突破性成果:在数学领域的Erdős最小重叠问题上刷新了记录;在GPU内核工程领域,开发出比人类最佳内核快两倍的全新A100 GPU内核;在AtCoder测试中超越了最佳AI代码和人类代码;在单细胞分析的去噪任务中也取得了最好成绩……
值得注意的是,该方法在计算成本上具有优势。以OpenAI的gpt-oss-120b为基础模型,通过使用Thinking Machines的API Tinker,每个问题仅需花费几百美元,大大降低了科技研究的成本门槛。
TTT-Discover的创新之处在于其学习目标和搜索策略。为了适应单一问题的目标,团队引入了**熵目标函数**和**受PUCT启发的状态复用策略**:
- 熵目标函数:通过指数加权极端偏向高奖励样本,但在训练早期和后期自适应设置β值,避免训练不稳定性或优势函数消失。
- 受PUCT启发状态复用策略:采用规则选择初始状态,每个状态的评分为当前状态的最大回报(若未选择过则取初始回报),确保搜索集中在最有前景的解决路径上。
这种设计使TTT-Discover能优先发现单一的最高奖励解决方案,而非多个解决方案的平均表现。
团队在数学、GPU内核工程、算法设计和生物学等四个截然不同的领域评估了TTT-Discover,选择这些领域是因为它们能将自身表现与人类专家对比。例如,数学和算法设计是近期AI工作取得大进展的领域,团队对比了已知的人类最佳结果和AI最佳结果,显示TTT-Discover在多数场景下表现优异。
尽管当前TTT-Discover方法目前仅能应用于具有连续奖励的问题,团队也明确了未来工作方向——测试针对稀疏奖励或二元奖励的问题,如数学证明、科学假说等,进一步拓展该方法的应用场景,为科学发现提供更多可能性。
最新新闻
- 2026年1月28日:迈阿密国际新援雷吉隆右膝关节受伤 归期待定
- 2026年1月28日:阿森纳联赛阶段11连胜仅丢4球 本赛季前7场率先破门
- 2026年1月28日:交通运输部加强春运公路水路服务保障 推出保畅组合拳
- 2026年1月28日:凡人微光|冰雪热潮中的平凡热爱故事
- 2026年1月28日:冰雪产业焕新:冷资源变热经济,打造全年发展‘旺火’
- 2026年1月28日:2025中国经济关键词:潜力释放 激活超大规模市场优势
- 2026年1月28日:大转折!2025年制造业利润大幅回升,反“内卷”改善价格预期
- 2026年1月28日:2026年中国外贸发展方向:从关键词看新布局
- 2026年1月28日:金沙江鱼儿回家之路:隧洞刷脸、电梯通行,生态保护见成效
- 2026年1月28日:走进“冰雪热”幕后:吉林省冰雪经济背后的劳动者故事
- 2026年1月28日:非洲留学生“小米”变身长沙经贸“纽带”,用直播架起中非经贸之桥
- 2026年1月28日:“一降一增”见证中国外贸破局前行
- 2026年1月28日:春晚未启,AI先战!字节、腾讯、百度大厂抢位AI超级入口
- 2026年1月28日:谷歌云上调部分数据传输服务价格 北美地区价格翻倍
- 2026年1月28日:苹果计划维持iPhone 18起售价 面对内存成本上涨
- 2026年1月28日:中国科学家研发‘智能电子衣’ 实现器官精准可控给药
- 2026年1月28日:曦望发布新一代推理GPU芯片S3 2025交付破万片 推动‘百万Token一分钱’落地
- 2026年1月28日:中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?
- 2026年1月28日:泰国U23国脚提拉帕租借加盟J联赛札幌队 比肩中国赛展现才华
- 2026年1月28日:德约科维奇赢9盘进澳网四强?对比2016年美网仅赢8盘,是大满贯最幸运之旅吗?

精彩评论(10)