具身智能测评‘上海卷’开源 100道题补齐行业评价短板
(图片来自网络)
近日,上海交通大学联合业界研发的具身智能测评集GM-100宣布开源,为衡量机器人“大脑”(智能模型)与“身体”(物理执行)的协同能力,提供更系统、开放且可复现的评估基准,补齐国内具身智能评价行业的短板。
该测评集包含100个具体任务,总计1.3万条操作轨迹数据,规模可观。项目牵头人、上海交通大学副教授李永露表示,在具身智能技术发展阶段,高质量数据集和评测体系对科研至关重要,优化数据分布能有效推动模型能力进步。测评集强调任务设计的广度与评估体系的深度,不盲目追求任务量。
测评集设计时,先分析人类与物体交互的基本原语,再利用大语言模型生成候选任务,经专家筛选优化后,最终形成涵盖从日常简单操作到罕见复杂场景的100项任务。此外,测评集在传统的任务成功率外,引入“部分成功率”和“动作预测误差”两项关键指标,更全面评估任务完成情况。
研发团队对全球主流模型测试显示,GM - 100测评集任务设计难度合理,跨平台执行具备区分度,评估结果稳定泛化,为跨模型能力比较提供可靠参考。目前,测评集所有任务说明、物料清单及操作轨迹数据已开源,还提供了物料购买链接,降低开发者复现与参与门槛。
当前,具身智能领域评测标准分散、不统一,各团队自建标准,抓取、路径规划等侧重点不同,且多局限于简单场景。GM - 100测评集的出现,为上海乃至国内具身智能评价体系补齐了短板。上海正通过数据和模型能力双维度,推动具身智能行业创新,GM - 100测评集成为行业“统考卷”,助力模型性能横向比较与能力提升。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2026年1月27日:摩托罗拉Edge 70 Fusion手机渲染图曝光 预估搭载骁龙7s Gen 4芯片
- 2026年1月27日:时隔五年!苹果发布AirTag二代:精准查找范围提升50% 音量升级50%
- 2026年1月27日:YouTube博主起诉Snapchat 涉AI训练商用数据集侵权争议
- 2026年1月27日:ChatGPT健康功能误判心脏健康事件,医生复盘揭示AI问题
- 2026年1月27日:苹果推出iOS 26.2.1更新 支持AirTag 2 适配iPhone 15及以上机型
- 2026年1月27日:C919交付提速 商飞2026年目标至少28架 年末产能改善
- 2026年1月27日:中国银发博主重新定义‘年老’ 老龄群体成社交媒体创作新力量
- 2026年1月27日:马化腾质疑豆包手机助手,豆包团队发布安全回应
- 2026年1月27日:Nothing Phone (4a)/Pro获阿联酋认证,有望近期官宣新机型
- 2026年1月27日:日产发布集成光伏的Ariya概念原型车,助力续航提升
- 2026年1月27日:国米冬窗或出售路易斯-恩里克 转会投资回收成关键考量
- 2026年1月26日:马竞总监奔赴慕尼黑冬窗引援,目标瞄准格雷茨卡与加西亚
- 2026年1月26日:勇士7主力缺席背靠背第二战 对战森林狼成焦点
- 2026年1月26日:以高质量发展引领新能源产业出海:新三样成全球增长与转型新引擎
- 2026年1月26日:破解青藏高原冰川密码(相知无远近)
- 2026年1月26日:巴萨与22岁核心续约至2031年:年薪翻50% 违约金5亿
- 2026年1月26日:21岁足球新星伊赞·冈萨雷斯转会赫罗纳 赫罗纳支付解约金完成交易
- 2026年1月26日:维罗纳抗议引援滞后 球队管理层引援动作迟缓
- 2026年1月26日:腾讯“元宝派”AI新产品:马化腾站台计划2026年春节10亿红包拉新
- 2026年1月26日:罗马诺透露足球转会消息:那不勒斯难签卢克曼 阿斯顿维拉不愿卖桑乔

精彩评论(10)