李曼玲团队开源VAGEN新训练框架，推动AI智能体理解动态世界

2025年10月26日

（图片来自网络）

在人工智能（AI）领域，当前多数视觉语言模型（VLM）擅长处理单一指令并给出最终答案，但当它们被置于动态、信息不完整的真实世界时，需通过“看”与“做”完成多步骤复杂任务，这种“重结果、轻过程”的模式存在明显不足。如何让AI智能体既能做出正确行动，又能构建连贯、可靠的内部思维过程？美国多所高校与微软研究院联合提出的 VAGEN 训练框架，为这一难题带来了新思路。

近日，美国西北大学计算机系李曼玲教授团队携手华盛顿大学、斯坦福大学和微软研究院，提出了一款名为 VAGEN 的新训练框架，专门用于训练可以在多轮交互中构建“内部世界模型”的视觉语言模型（Vision-Language Model，VLM）智能体。该研究已被 NeurIPS 2025 会议接收，相关论文和代码已在GitHub上开源。

研究团队指出，视觉 AI 智能体面临的“部分可观测马尔可夫决策过程（POMDP）”挑战，是当前 VLM 智能体的核心瓶颈。为了验证 VAGEN 的有效性，研究团队对比了多种推理策略，包括从完全不思考、自由发挥，再到只做状态估计或转换建模的组合。结果显示，完整的“世界建模策略”（同时包含状态估计和转换建模） 在综合性能上表现更优。此外，研究还探索了自然语言、符号化、结构化三种视觉状态表示方式，发现不同表示方式在不同任务中表现各异。

VAGEN 采用强化学习（Reinforcement Learning，RL）与奖励机制训练智能体。通过 “世界建模奖励” 和 “双层通用优势估计（Bi - Level GAE）” 等机制，引导 AI 智能体改进推理质量。实验数据显示，在完整的 VAGEN - Full 框架下，仅 30 亿参数的模型最终综合得分达到 0.82，超越了参数量更大的 GPT - 5、Gemini 2.5 Pro 等主流模型。

尽管 VAGEN 为视觉 AI 智能体训练开辟了新路径，但实际应用仍需解决成本与泛化性问题。论文显示，训练该框架需消耗大量算力与资源，真实世界的视觉任务泛化性也需进一步验证。不过，VAGEN 的开源将为视觉语言模型发展带来新可能，有望推动 AI 智能体在复杂环境中的推理与决策能力提升。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-10-26 00

开源框架促交流，VAGEN努力值得点赞。
网友9 2025-10-26 00

研究提升AI实用性，服务人类很值，有价值。
网友8 2025-10-26 00

作为科技爱好者，关注前沿研究，VAGEN开源让技术更开放，期待应用。
网友7 2025-10-26 00

希望VAGEN应用到机器人、智能家居，方便生活。
网友6 2025-10-26 00

AI在动态世界理解有难题，有团队解决，以后更智能。
网友5 2025-10-26 00

科技天天有新突破，VAGEN开源让更多人参与，积极。
网友4 2025-10-26 00

学生觉得这类AI研究有意义，能理解智能体学习，很有趣。
网友3 2025-10-26 00

从挑战到解决的过程专业，VAGEN思路清晰，希望未来实用化。
网友2 2025-10-26 00

这类技术应用到日常服务中会让生活更便捷，科技发展真快。
网友1 2025-10-26 00

期待AI在理解动态世界方面有更大突破，VAGEN开源能加速发展，很好。

查看“李曼玲团队开源VAGEN新训练框架，推动AI智能体理解动态世界”相关搜索 >

李曼玲团队开源VAGEN新训练框架，推动AI智能体理解动态世界

精彩评论（10）

最新新闻