TeleAI提出潜空间引导方法解决VLA跨本体泛化难题

2025年9月8日
news

(图片来自网络)

中国电信人工智能研究院(TeleAI)具身智能团队提出一种新的“对齐 - 引导 - 泛化”(ATE)框架,针对视觉 - 语言 - 动作(VLA)模型跨本体泛化难题提出解决方案,显著提升模型在目标场景下的适配能力与泛化效果。


在多模态大模型的具身操作应用中,VLA模型需在目标本体上后训练以实现通用操作能力。但现有VLA基座模型在进行目标场景应用时,需采集大量目标本体数据才能适配(Post-Training),且当目标本体与预训练本体差异较大时,动作分布失配问题严重,传统的后训练方法效果受限。TeleAI团队为了解决这一问题,提出“对齐 - 引导 - 泛化”(ATE)框架。


ATE框架的核心思想是在统一的潜空间中对齐跨本体的动作分布,并在后训练阶段利用潜空间的引导项牵引策略更新方向,无需改动VLA模型主干架构。这一方法适配Diffusion和Flow-Matching等主流VLA模型,大大减少了VLA跨本体适配的数据需求。


ATE框架分为两个阶段:第一阶段是动作潜分布对齐,将预训练与目标本体的动作分布映射到统一潜空间,解决分布失配问题;第二阶段是动作潜分布引导,在统一潜空间上设计引导函数,利用可微的分类引导项,在后训练阶段将策略更新方向牵引至目标分布,实现高效适配。


实验结果显示,ATE算法在多任务仿真评测(如ManiSkill、RoboTwin 1.0)中,相较于直接后训练平均多任务成功率提升9.8%,在真实机器人跨本体场景中成功率最高提升32%,且在光照、干扰等环境下表现更稳健。这表明ATE框架在统一潜空间引导下,有效提升了VLA跨本体与跨任务的泛化能力,为数据稀缺场景下的后训练难题提供了可行方案。


研究总结指出,在VLA基座模型尚未直接具备泛化能力时,ATE框架为突破数据与训练瓶颈提供新路径,可通过最小工程代价实现快速、稳健的跨本体泛化适配,成为兼容主流VLA模型的实用后训练方案。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-08 15
    从学术研究角度,潜空间对齐和引导机制为后训练提供了新范式。
  • 网友9 2025-09-08 15
    以后机器人后训练成本能降下来,这个技术太实用了!
  • 网友8 2025-09-08 15
    从数据效率和泛化效果来看,这个方法在工程应用上有很大优势。
  • 网友7 2025-09-08 15
    TeleAI团队解决这个技术难题很不容易,为国家科技发展做贡献!
  • 网友6 2025-09-08 15
    像给机器人加了一副“智能眼镜”,一下能适应不同本体,太酷了!
  • 网友5 2025-09-08 15
    这个框架在实验中的表现很亮眼,对具身AI领域的推动作用很大。
  • 网友4 2025-09-08 15
    作为学生,觉得这个研究很有创新性,为AI领域带来了新方向。
  • 网友3 2025-09-08 15
    以后工业机器人用这个方法能更灵活地做不同任务了,闻起来很有实用性!
  • 网友2 2025-09-08 15
    从技术角度分析,潜空间引导确实是解决分布失配的新思路,值得期待进一步发展。
  • 网友1 2025-09-08 15
    这个方法解决了机器人跨本体适配的大难题,很厉害!
查看“TeleAI提出潜空间引导方法解决VLA跨本体泛化难题”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙