具身智能测评‘上海卷’开源 100道题补齐行业评价短板

2026年1月27日
news

(图片来自网络)

近日,上海交通大学联合业界研发的具身智能测评集GM-100宣布开源,为衡量机器人“大脑”(智能模型)与“身体”(物理执行)的协同能力,提供更系统、开放且可复现的评估基准,补齐国内具身智能评价行业的短板。


该测评集包含100个具体任务,总计1.3万条操作轨迹数据,规模可观。项目牵头人、上海交通大学副教授李永露表示,在具身智能技术发展阶段,高质量数据集和评测体系对科研至关重要,优化数据分布能有效推动模型能力进步。测评集强调任务设计的广度与评估体系的深度,不盲目追求任务量。


测评集设计时,先分析人类与物体交互的基本原语,再利用大语言模型生成候选任务,经专家筛选优化后,最终形成涵盖从日常简单操作到罕见复杂场景的100项任务。此外,测评集在传统的任务成功率外,引入“部分成功率”和“动作预测误差”两项关键指标,更全面评估任务完成情况。


研发团队对全球主流模型测试显示,GM - 100测评集任务设计难度合理,跨平台执行具备区分度,评估结果稳定泛化,为跨模型能力比较提供可靠参考。目前,测评集所有任务说明、物料清单及操作轨迹数据已开源,还提供了物料购买链接,降低开发者复现与参与门槛。


当前,具身智能领域评测标准分散、不统一,各团队自建标准,抓取、路径规划等侧重点不同,且多局限于简单场景。GM - 100测评集的出现,为上海乃至国内具身智能评价体系补齐了短板。上海正通过数据和模型能力双维度,推动具身智能行业创新,GM - 100测评集成为行业“统考卷”,助力模型性能横向比较与能力提升。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2026-01-27 06
    开源举措很友好,让行业协作更顺畅,期待后续发展~
  • 网友9 2026-01-27 06
    为机器人智能模型评估提供了可靠参考,解决行业痛点,很好~
  • 网友8 2026-01-27 06
    这样的开放平台让更多人能参与,门槛降低,未来有希望~
  • 网友7 2026-01-27 06
    从数据集到评测标准,上海在具身智能领域走在了前列,很骄傲~
  • 网友6 2026-01-27 06
    100道题覆盖各种场景,评测更全面了,刚开始用很合适~
  • 网友5 2026-01-27 06
    为具身智能发展提供了统一测评基准,对行业进步有帮助~
  • 网友4 2026-01-27 06
    数据集和评测体系太专业了,但开源很便民,让大家能一起研究~
  • 网友3 2026-01-27 06
    机器人技术进步需要这样的标准,上海在科技领域继续发力,值得点赞!
  • 网友2 2026-01-27 06
    解决行业评测标准不统一的问题,很好,方便跨企业比较~
  • 网友1 2026-01-27 06
    这个开源项目对机器人技术发展很重要,期待更多应用~
查看“具身智能测评‘上海卷’开源 100道题补齐行业评价短板”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙