TeleAI提出潜空间引导方法解决VLA跨本体泛化难题

2025年9月8日

（图片来自网络）

中国电信人工智能研究院（TeleAI）具身智能团队提出一种新的“对齐 - 引导 - 泛化”（ATE）框架，针对视觉 - 语言 - 动作（VLA）模型跨本体泛化难题提出解决方案，显著提升模型在目标场景下的适配能力与泛化效果。

在多模态大模型的具身操作应用中，VLA模型需在目标本体上后训练以实现通用操作能力。但现有VLA基座模型在进行目标场景应用时，需采集大量目标本体数据才能适配（Post-Training），且当目标本体与预训练本体差异较大时，动作分布失配问题严重，传统的后训练方法效果受限。TeleAI团队为了解决这一问题，提出“对齐 - 引导 - 泛化”（ATE）框架。

ATE框架的核心思想是在统一的潜空间中对齐跨本体的动作分布，并在后训练阶段利用潜空间的引导项牵引策略更新方向，无需改动VLA模型主干架构。这一方法适配Diffusion和Flow-Matching等主流VLA模型，大大减少了VLA跨本体适配的数据需求。

ATE框架分为两个阶段：第一阶段是动作潜分布对齐，将预训练与目标本体的动作分布映射到统一潜空间，解决分布失配问题；第二阶段是动作潜分布引导，在统一潜空间上设计引导函数，利用可微的分类引导项，在后训练阶段将策略更新方向牵引至目标分布，实现高效适配。

实验结果显示，ATE算法在多任务仿真评测（如ManiSkill、RoboTwin 1.0）中，相较于直接后训练平均多任务成功率提升9.8%，在真实机器人跨本体场景中成功率最高提升32%，且在光照、干扰等环境下表现更稳健。这表明ATE框架在统一潜空间引导下，有效提升了VLA跨本体与跨任务的泛化能力，为数据稀缺场景下的后训练难题提供了可行方案。

研究总结指出，在VLA基座模型尚未直接具备泛化能力时，ATE框架为突破数据与训练瓶颈提供新路径，可通过最小工程代价实现快速、稳健的跨本体泛化适配，成为兼容主流VLA模型的实用后训练方案。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-09-08 15

从学术研究角度，潜空间对齐和引导机制为后训练提供了新范式。
网友9 2025-09-08 15

以后机器人后训练成本能降下来，这个技术太实用了！
网友8 2025-09-08 15

从数据效率和泛化效果来看，这个方法在工程应用上有很大优势。
网友7 2025-09-08 15

TeleAI团队解决这个技术难题很不容易，为国家科技发展做贡献！
网友6 2025-09-08 15

像给机器人加了一副“智能眼镜”，一下能适应不同本体，太酷了！
网友5 2025-09-08 15

这个框架在实验中的表现很亮眼，对具身AI领域的推动作用很大。
网友4 2025-09-08 15

作为学生，觉得这个研究很有创新性，为AI领域带来了新方向。
网友3 2025-09-08 15

以后工业机器人用这个方法能更灵活地做不同任务了，闻起来很有实用性！
网友2 2025-09-08 15

从技术角度分析，潜空间引导确实是解决分布失配的新思路，值得期待进一步发展。
网友1 2025-09-08 15

这个方法解决了机器人跨本体适配的大难题，很厉害！

查看“TeleAI提出潜空间引导方法解决VLA跨本体泛化难题”相关搜索 >

TeleAI提出潜空间引导方法解决VLA跨本体泛化难题

精彩评论（10）

最新新闻