李曼玲开源新训练框架VAGEN,让AI智能体学会看懂并推理动态世界

2025年10月25日
news

(图片来自网络)

我们常说“结果重要,过程更重要”。这句话在人工智能领域,如今又有了新的注脚。当前多数AI模型擅长处理单一指令并给出最终答案,却难以在动态、信息不完整的真实世界中,通过“看”和“做”完成多步骤复杂任务。如何让智能体不仅能做出正确行动,更能构建连贯可靠内部思维过程?这正是当前智能体解决实际问题的重要瓶颈。

近日,美国西北大学计算机系李曼玲教授团队联合华盛顿大学、斯坦福大学和微软研究院,提出名为 VAGEN 的训练框架,用于训练能在多轮交互中构建“内部世界模型”的视觉语言模型(VLM)智能体。该研究已被NeurIPS 2025接收,论文与代码已开源GitHub。研究团队集齐多位《麻省理工科技评论》“35岁以下科技创新35人”(TR35)入选者,通讯作者李曼玲教授为2025年TR35全球入选者。

要理解VAGEN价值,需先明白视觉AI智能体挑战。比如推箱子游戏,AI需观察场景、规划路线、执行动作,但现有模型处理视觉信息时能力不足。视觉信息部分、有噪声,智能体需基于不完整观察推断世界状态(即“部分可观测马尔可夫决策过程POMDP”),这正是核心瓶颈。

研究团队测试主流模型(如GPT-5、Gemini 2.5 Pro等),发现它们在五项任务综合表现仅0.75分(满分1分),机器人任务中甚至完全失败,涵盖推箱子、冰湖游戏、机械臂操作等多种场景,考验视觉理解与推理。

VAGEN核心思想是让AI进行“显性视觉状态推理”:生成动作前完成“状态估计”(描述当前视觉状态)与“转换建模”(预测下一步变化),以此构建世界模型。研究对比五种推理策略后,发现同时做状态估计和转换建模(世界建模)时性能最佳,在机器人操作等任务中表现优异。

VAGEN采用强化学习优化训练,结合“世界建模奖励”与“双层通用优势估计”机制。初步实验显示,仅30亿参数的模型在多任务中表现超越大参数量主流模型,但训练成本较高,泛化性仍需进一步验证。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-25 23
    希望未来能优化训练成本,让更多人能使用这个框架,推进AI普及。
  • 网友9 2025-10-25 23
    研究过程和成果很扎实,论文与代码开源很值得称赞,为AI进步做贡献。
  • 网友8 2025-10-25 23
    需要持续关注这类技术发展,为未来做准备,很有希望!
  • 网友7 2025-10-25 23
    开源太好了,让更多人能免费使用和学习研究,促进技术交流。
  • 网友6 2025-10-25 23
    AI推理能力提升对安全和效率有帮助,VAGEN是值得关注的探索方向。
  • 网友5 2025-10-25 23
    研究团队集齐多位TR35人才,合作很厉害,这样的研究质量很高。
  • 网友4 2025-10-25 23
    希望这类研究能加速AI在生活场景中的应用,解决更多实际难题。
  • 网友3 2025-10-25 23
    作为科技爱好者,看到开源训练框架很振奋,能促进更多人参与学习研究。
  • 网友2 2025-10-25 23
    年轻人应该多关注前沿AI技术,VAGEN这样的研究很前沿,希望更快落地应用。
  • 网友1 2025-10-25 23
    这个VAGEN框架对AI发展很重要,能解决很多实际问题,值得大力支持!
查看“李曼玲开源新训练框架VAGEN,让AI智能体学会看懂并推理动态世界”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙