TeleAI提出潜空间引导方法解决VLA跨本体泛化难题

(图片来自网络)
中国电信人工智能研究院(TeleAI)具身智能团队提出一种新的“对齐 - 引导 - 泛化”(ATE)框架,针对视觉 - 语言 - 动作(VLA)模型跨本体泛化难题提出解决方案,显著提升模型在目标场景下的适配能力与泛化效果。
在多模态大模型的具身操作应用中,VLA模型需在目标本体上后训练以实现通用操作能力。但现有VLA基座模型在进行目标场景应用时,需采集大量目标本体数据才能适配(Post-Training),且当目标本体与预训练本体差异较大时,动作分布失配问题严重,传统的后训练方法效果受限。TeleAI团队为了解决这一问题,提出“对齐 - 引导 - 泛化”(ATE)框架。
ATE框架的核心思想是在统一的潜空间中对齐跨本体的动作分布,并在后训练阶段利用潜空间的引导项牵引策略更新方向,无需改动VLA模型主干架构。这一方法适配Diffusion和Flow-Matching等主流VLA模型,大大减少了VLA跨本体适配的数据需求。
ATE框架分为两个阶段:第一阶段是动作潜分布对齐,将预训练与目标本体的动作分布映射到统一潜空间,解决分布失配问题;第二阶段是动作潜分布引导,在统一潜空间上设计引导函数,利用可微的分类引导项,在后训练阶段将策略更新方向牵引至目标分布,实现高效适配。
实验结果显示,ATE算法在多任务仿真评测(如ManiSkill、RoboTwin 1.0)中,相较于直接后训练平均多任务成功率提升9.8%,在真实机器人跨本体场景中成功率最高提升32%,且在光照、干扰等环境下表现更稳健。这表明ATE框架在统一潜空间引导下,有效提升了VLA跨本体与跨任务的泛化能力,为数据稀缺场景下的后训练难题提供了可行方案。
研究总结指出,在VLA基座模型尚未直接具备泛化能力时,ATE框架为突破数据与训练瓶颈提供新路径,可通过最小工程代价实现快速、稳健的跨本体泛化适配,成为兼容主流VLA模型的实用后训练方案。
最新新闻
- 2025年9月18日:英伟达与英特尔达成定制芯片合作协议,特朗普政府未参与,郭明錤称台积电风险可控
- 2025年9月18日:英伟达斥资50亿美元入股英特尔,推动计算领域合作发展
- 2025年9月18日:拉什福德欧冠梅开二度:进球时感知空隙故直接射门
- 2025年9月18日:丁俊晖英格兰赛1/8决赛惜败无缘8强:3-0领先连输4局出局
- 2025年9月18日:拉什福德欧冠首球献予巴萨,时隔两年多再进欧冠进球
- 2025年9月18日:微软又要砸40亿建AI数据中心2.0,全球最强AI基建新动态
- 2025年9月18日:欧冠比赛中多纳鲁马神扑扑出别克马头球瞬间成焦点
- 2025年9月18日:23年50号秀!黄蜂官方:球队签下自由球员前锋基昂泰-约翰逊
- 2025年9月18日:谷歌Chrome浏览器接入Gemini:智能解读网页与历史记录功能正式上线
- 2025年9月18日:西班牙后卫赫伊森吐槽足球判罚机制引争议
- 2025年9月18日:NBA与英国合作投资数百万美元 扩大英国民间篮球运动 试点欧洲联赛前的布局
- 2025年9月18日:机器人成康复训练‘新帮手’?科技突破助力周期运动精准化
- 2025年9月18日:腾讯阿里市值双涨,科技巨头发展路径引发关注
- 2025年9月18日:2025亚冠小组赛冲突事件:球员扭打球迷投掷杂物 比赛险中断
- 2025年9月18日:鲁伊-科斯塔:穆帅符合选帅标准 本菲卡新帅亮相发布会
- 2025年9月18日:B席谈德布劳内重返伊蒂哈德:宿命感让主场成主场作战
- 2025年9月18日:苹果更实惠MacBook预计2025年第四季度量产
- 2025年9月18日:一代经典旗舰SUV大众途锐停止供应 中国市场车型调整
- 2025年9月18日:苹果计划在台湾建立测试生产中心,为可折叠iPhone做前期准备
- 2025年9月18日:英伟达斥资50亿美元入股英特尔,双方合作定制AI芯片,英特尔股价暴涨近30%
精彩评论(10)