李曼玲开源新训练框架VAGEN,让AI智能体学会看懂并推理动态世界
(图片来自网络)
我们常说“结果重要,过程更重要”。这句话在人工智能领域,如今又有了新的注脚。当前多数AI模型擅长处理单一指令并给出最终答案,却难以在动态、信息不完整的真实世界中,通过“看”和“做”完成多步骤复杂任务。如何让智能体不仅能做出正确行动,更能构建连贯可靠内部思维过程?这正是当前智能体解决实际问题的重要瓶颈。
近日,美国西北大学计算机系李曼玲教授团队联合华盛顿大学、斯坦福大学和微软研究院,提出名为 VAGEN 的训练框架,用于训练能在多轮交互中构建“内部世界模型”的视觉语言模型(VLM)智能体。该研究已被NeurIPS 2025接收,论文与代码已开源GitHub。研究团队集齐多位《麻省理工科技评论》“35岁以下科技创新35人”(TR35)入选者,通讯作者李曼玲教授为2025年TR35全球入选者。
要理解VAGEN价值,需先明白视觉AI智能体挑战。比如推箱子游戏,AI需观察场景、规划路线、执行动作,但现有模型处理视觉信息时能力不足。视觉信息部分、有噪声,智能体需基于不完整观察推断世界状态(即“部分可观测马尔可夫决策过程POMDP”),这正是核心瓶颈。
研究团队测试主流模型(如GPT-5、Gemini 2.5 Pro等),发现它们在五项任务综合表现仅0.75分(满分1分),机器人任务中甚至完全失败,涵盖推箱子、冰湖游戏、机械臂操作等多种场景,考验视觉理解与推理。
VAGEN核心思想是让AI进行“显性视觉状态推理”:生成动作前完成“状态估计”(描述当前视觉状态)与“转换建模”(预测下一步变化),以此构建世界模型。研究对比五种推理策略后,发现同时做状态估计和转换建模(世界建模)时性能最佳,在机器人操作等任务中表现优异。
VAGEN采用强化学习优化训练,结合“世界建模奖励”与“双层通用优势估计”机制。初步实验显示,仅30亿参数的模型在多任务中表现超越大参数量主流模型,但训练成本较高,泛化性仍需进一步验证。
最新新闻
- 2025年10月25日:孔帕尼谈卡尔连场进球与生涯发展:信心重要但需实战基础
- 2025年10月25日:远射高手库尼亚成英超纪录保持者
- 2025年10月25日:西甲联赛第10轮毕包主场0-0战平赫塔费,莱奎伤退 比赛进入胶着状态
- 2025年10月25日:阿什拉夫赛后谈非洲金球奖:若获奖是荣幸喜悦
- 2025年10月25日:切尔西主帅回应主场负桑德兰:二防一丢球本应轻松防守
- 2025年10月25日:拆解苹果iPhone Air后,技术探索引关注
- 2025年10月25日:连降噪都没有的耳机,华为凭啥敢卖到一千多块?
- 2025年10月25日:iPhone Air开售遇冷 减产停产引网友热议
- 2025年10月25日:马斯克宣布Grok“儿童模式”上线,xAI为儿童打造友好内容应用
- 2025年10月25日:a16z领投Relace:为AI智能体打造专属开发基础设施获融资
- 2025年10月25日:李曼玲团队开源VAGEN新训练框架,推动AI智能体理解动态世界
- 2025年10月25日:中大团队研发新型机器人抓手,拓展水下与无人机应用场景
- 2025年10月25日:科学种子在蓉城播撒,创新未来由此开启
- 2025年10月25日:iPhone Air开售遇冷:预售抢光后市场表现降温,商家称几乎‘无人问津’
- 2025年10月25日:桑德兰时隔11年客场战胜切尔西,终结穆帅77场不败纪录
- 2025年10月25日:曼联传奇后卫加里-内维尔入选英超名人堂
- 2025年10月25日:AC米兰欲补强后防线 瞄准马竞后卫希门尼斯
- 2025年10月25日:桑德兰绝杀切尔西升至联赛第二,塔勒比展望新赛季
- 2025年10月25日:昨日社会热门资讯汇总-早报速览(2025-10-25)
- 2025年10月25日:昨日文化热门资讯汇总-早报速览(2025-10-25)

精彩评论(10)