具身智能测评‘上海卷’开源 100道题补齐行业评价短板

2026年1月27日

（图片来自网络）

近日，上海交通大学联合业界研发的具身智能测评集GM-100宣布开源，为衡量机器人“大脑”（智能模型）与“身体”（物理执行）的协同能力，提供更系统、开放且可复现的评估基准，补齐国内具身智能评价行业的短板。

该测评集包含100个具体任务，总计1.3万条操作轨迹数据，规模可观。项目牵头人、上海交通大学副教授李永露表示，在具身智能技术发展阶段，高质量数据集和评测体系对科研至关重要，优化数据分布能有效推动模型能力进步。测评集强调任务设计的广度与评估体系的深度，不盲目追求任务量。

测评集设计时，先分析人类与物体交互的基本原语，再利用大语言模型生成候选任务，经专家筛选优化后，最终形成涵盖从日常简单操作到罕见复杂场景的100项任务。此外，测评集在传统的任务成功率外，引入“部分成功率”和“动作预测误差”两项关键指标，更全面评估任务完成情况。

研发团队对全球主流模型测试显示，GM - 100测评集任务设计难度合理，跨平台执行具备区分度，评估结果稳定泛化，为跨模型能力比较提供可靠参考。目前，测评集所有任务说明、物料清单及操作轨迹数据已开源，还提供了物料购买链接，降低开发者复现与参与门槛。

当前，具身智能领域评测标准分散、不统一，各团队自建标准，抓取、路径规划等侧重点不同，且多局限于简单场景。GM - 100测评集的出现，为上海乃至国内具身智能评价体系补齐了短板。上海正通过数据和模型能力双维度，推动具身智能行业创新，GM - 100测评集成为行业“统考卷”，助力模型性能横向比较与能力提升。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2026-01-27 06

开源举措很友好，让行业协作更顺畅，期待后续发展～
网友9 2026-01-27 06

为机器人智能模型评估提供了可靠参考，解决行业痛点，很好～
网友8 2026-01-27 06

这样的开放平台让更多人能参与，门槛降低，未来有希望～
网友7 2026-01-27 06

从数据集到评测标准，上海在具身智能领域走在了前列，很骄傲～
网友6 2026-01-27 06

100道题覆盖各种场景，评测更全面了，刚开始用很合适～
网友5 2026-01-27 06

为具身智能发展提供了统一测评基准，对行业进步有帮助～
网友4 2026-01-27 06

数据集和评测体系太专业了，但开源很便民，让大家能一起研究~
网友3 2026-01-27 06

机器人技术进步需要这样的标准，上海在科技领域继续发力，值得点赞！
网友2 2026-01-27 06

解决行业评测标准不统一的问题，很好，方便跨企业比较~
网友1 2026-01-27 06

这个开源项目对机器人技术发展很重要，期待更多应用~

查看“具身智能测评‘上海卷’开源 100道题补齐行业评价短板”相关搜索 >

具身智能测评‘上海卷’开源 100道题补齐行业评价短板

精彩评论（10）

最新新闻