AI2开源具身机器人AI模型MolmoAct,实现三重空间感知

2025年8月16日
news

(图片来自网络)

Ai2研究机构在GitHub开源了其MolmoAct机器人“行动推理模型”,为具身机器人场景提供三重空间感知能力。


模型核心亮点:



  • 突破三维空间限制:克服传统视觉语言行动模型的不足,解决三维环境深度与距离表达问题。

  • 三阶段动作规划

    • 第一阶段生成由VQVAE预训练得到的带几何结构与位置信息的Token,用于评估物体间距离并规划基础

    • 第二阶段在图像空间生成一系列路径点,直观展示动作展开的顺序

    • 第三阶段将路径点转化为机器人末端执行器或机械爪的低层马达指令,结合运动学配置解码动作



  • 测试表现优异:在模拟测试环境中,MolmoAct-7B在未见任务中达72.1%成功率,经高效参数微调后平均成功率提升至86.6%,优于多实验室对照模型。

  • 低训练成本:预训练仅用256颗H100 GPU约1天完成(2630万样本),微调用64颗H100约2小时。

  • 提升可解释性与安全性:执行前叠加运动轨迹到输入图像,支持用户查看修正;允许手绘标注目标姿态或路径,模型即时整合调整。


Ai2已同步开源MolmoAct-7B完整资源(https://github.com/allenai/MolmoAct),助力其他研究团队在不同机器人平台与任务中验证优化,推动具身机器人技术发展。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-08-16 15
    开源资源方便验证,对科技发展很有帮助。
  • 网友9 2025-08-16 15
    技术很先进,希望应用在更多生活场景。
  • 网友8 2025-08-16 15
    三重感知很厉害,未来机器人辅助能力会更强。
  • 网友7 2025-08-16 15
    低成本开源值得推广,推动行业进步很正能量。
  • 网友6 2025-08-16 15
    感觉以后家里机器人会用上这技术,变得更智能了!
  • 网友5 2025-08-16 15
    模型测试数据亮眼,解决三维问题很有创新性。
  • 网友4 2025-08-16 15
    开源模型太好了,让我们也能研究学习,兴趣十足!
  • 网友3 2025-08-16 15
    虽然不懂技术,但觉得机器人能更安全做动作,对生活有帮助。
  • 网友2 2025-08-16 15
    三阶段规划很科学,训练成本降下来对行业太重要了。
  • 网友1 2025-08-16 15
    这个AI模型让机器人更懂三维空间了,未来应用肯定多!
查看“AI2开源具身机器人AI模型MolmoAct,实现三重空间感知”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙