李曼玲团队开源VAGEN新训练框架,推动AI智能体理解动态世界
(图片来自网络)
在人工智能(AI)领域,当前多数视觉语言模型(VLM)擅长处理单一指令并给出最终答案,但当它们被置于动态、信息不完整的真实世界时,需通过“看”与“做”完成多步骤复杂任务,这种“重结果、轻过程”的模式存在明显不足。如何让AI智能体既能做出正确行动,又能构建连贯、可靠的内部思维过程?美国多所高校与微软研究院联合提出的 VAGEN 训练框架,为这一难题带来了新思路。
近日,美国西北大学计算机系李曼玲教授团队携手华盛顿大学、斯坦福大学和微软研究院,提出了一款名为 VAGEN 的新训练框架,专门用于训练可以在多轮交互中构建“内部世界模型”的视觉语言模型(Vision-Language Model,VLM)智能体。该研究已被 NeurIPS 2025 会议接收,相关论文和代码已在GitHub上开源。
研究团队指出,视觉 AI 智能体面临的“部分可观测马尔可夫决策过程(POMDP)”挑战,是当前 VLM 智能体的核心瓶颈。为了验证 VAGEN 的有效性,研究团队对比了多种推理策略,包括从完全不思考、自由发挥,再到只做状态估计或转换建模的组合。结果显示,完整的“世界建模策略”(同时包含状态估计和转换建模) 在综合性能上表现更优。此外,研究还探索了自然语言、符号化、结构化三种视觉状态表示方式,发现不同表示方式在不同任务中表现各异。
VAGEN 采用强化学习(Reinforcement Learning,RL)与奖励机制训练智能体。通过 “世界建模奖励” 和 “双层通用优势估计(Bi - Level GAE)” 等机制,引导 AI 智能体改进推理质量。实验数据显示,在完整的 VAGEN - Full 框架下,仅 30 亿参数的模型最终综合得分达到 0.82,超越了参数量更大的 GPT - 5、Gemini 2.5 Pro 等主流模型。
尽管 VAGEN 为视觉 AI 智能体训练开辟了新路径,但实际应用仍需解决成本与泛化性问题。论文显示,训练该框架需消耗大量算力与资源,真实世界的视觉任务泛化性也需进一步验证。不过,VAGEN 的开源将为视觉语言模型发展带来新可能,有望推动 AI 智能体在复杂环境中的推理与决策能力提升。
最新新闻
- 2025年10月26日:新能源车企倒闭潮下‘烂尾堆料车’成二手市场新选择
- 2025年10月26日:日本H3火箭7号机发射升空 运载补给物资飞向国际空间站
- 2025年10月26日:华为官网更新管理层信息 余承东新增任产品投资委员会主任
- 2025年10月26日:一男子网购申请‘仅退款’,被起诉!
- 2025年10月26日:乘联分会崔东树:2025年9月末全国乘用车库存达328万辆
- 2025年10月26日:快手用生成式AI重构推荐、搜索与广告,技术沙龙解析行业布局?
- 2025年10月26日:华为鸿蒙HarmonyOS 6家庭存储体验官招募启动
- 2025年10月26日:三星Galaxy XR头显可直接安装APK与解锁Bootloader
- 2025年10月26日:王一博转向赛车领域发展,引发‘丧失事业心’社会争议
- 2025年10月26日:利智与李连杰合影,李笑合不拢嘴,利智却满脸苦相?
- 2025年10月26日:54岁闫妮与27岁女儿邹元清罕见同框,母女卸妆互动,像姐妹一样活泼
- 2025年10月26日:从乡村务农到荧屏闪耀:54岁老戏骨30年演艺路终成功
- 2025年10月26日:英超第9轮:桑德兰绝杀切尔西攀升至积分榜次位 利物浦30天跌落至第6
- 2025年10月26日:意甲争冠赛:德布劳内助那不勒斯3-1逆转登顶
- 2025年10月26日:利物浦遭逆转4连败 萨拉赫低迷难救主
- 2025年10月26日:雷霆客场击败老鹰豪取3连胜 西部第一位置稳坐
- 2025年10月26日:凡晨组合法国赛止步四强 完成国际赛事传奇谢幕
- 2025年10月26日:深刻把握‘十五五’发展原则——论学习贯彻党的二十届四中全会精神
- 2025年10月26日:老字号,这样也可以“潮”
- 2025年10月26日:国际社会点赞中共二十届四中全会:为世界经济发展注入新动力

精彩评论(10)