李曼玲团队开源VAGEN新训练框架,推动AI智能体理解动态世界

2025年10月26日
news

(图片来自网络)

在人工智能(AI)领域,当前多数视觉语言模型(VLM)擅长处理单一指令并给出最终答案,但当它们被置于动态、信息不完整的真实世界时,需通过“看”与“做”完成多步骤复杂任务,这种“重结果、轻过程”的模式存在明显不足。如何让AI智能体既能做出正确行动,又能构建连贯、可靠的内部思维过程?美国多所高校与微软研究院联合提出的 VAGEN 训练框架,为这一难题带来了新思路。

近日,美国西北大学计算机系李曼玲教授团队携手华盛顿大学、斯坦福大学和微软研究院,提出了一款名为 VAGEN 的新训练框架,专门用于训练可以在多轮交互中构建“内部世界模型”的视觉语言模型(Vision-Language Model,VLM)智能体。该研究已被 NeurIPS 2025 会议接收,相关论文和代码已在GitHub上开源。

研究团队指出,视觉 AI 智能体面临的“部分可观测马尔可夫决策过程(POMDP)”挑战,是当前 VLM 智能体的核心瓶颈。为了验证 VAGEN 的有效性,研究团队对比了多种推理策略,包括从完全不思考、自由发挥,再到只做状态估计或转换建模的组合。结果显示,完整的“世界建模策略”(同时包含状态估计和转换建模) 在综合性能上表现更优。此外,研究还探索了自然语言、符号化、结构化三种视觉状态表示方式,发现不同表示方式在不同任务中表现各异。

VAGEN 采用强化学习(Reinforcement Learning,RL)与奖励机制训练智能体。通过 “世界建模奖励”“双层通用优势估计(Bi - Level GAE)” 等机制,引导 AI 智能体改进推理质量。实验数据显示,在完整的 VAGEN - Full 框架下,仅 30 亿参数的模型最终综合得分达到 0.82,超越了参数量更大的 GPT - 5、Gemini 2.5 Pro 等主流模型。

尽管 VAGEN 为视觉 AI 智能体训练开辟了新路径,但实际应用仍需解决成本与泛化性问题。论文显示,训练该框架需消耗大量算力与资源,真实世界的视觉任务泛化性也需进一步验证。不过,VAGEN 的开源将为视觉语言模型发展带来新可能,有望推动 AI 智能体在复杂环境中的推理与决策能力提升。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-26 00
    开源框架促交流,VAGEN努力值得点赞。
  • 网友9 2025-10-26 00
    研究提升AI实用性,服务人类很值,有价值。
  • 网友8 2025-10-26 00
    作为科技爱好者,关注前沿研究,VAGEN开源让技术更开放,期待应用。
  • 网友7 2025-10-26 00
    希望VAGEN应用到机器人、智能家居,方便生活。
  • 网友6 2025-10-26 00
    AI在动态世界理解有难题,有团队解决,以后更智能。
  • 网友5 2025-10-26 00
    科技天天有新突破,VAGEN开源让更多人参与,积极。
  • 网友4 2025-10-26 00
    学生觉得这类AI研究有意义,能理解智能体学习,很有趣。
  • 网友3 2025-10-26 00
    从挑战到解决的过程专业,VAGEN思路清晰,希望未来实用化。
  • 网友2 2025-10-26 00
    这类技术应用到日常服务中会让生活更便捷,科技发展真快。
  • 网友1 2025-10-26 00
    期待AI在理解动态世界方面有更大突破,VAGEN开源能加速发展,很好。
查看“李曼玲团队开源VAGEN新训练框架,推动AI智能体理解动态世界”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙