登顶多模态推理榜!UCSD新方法登顶MMMU,超越GPT-5、Gemini

(图片来自网络)
【新闻摘要】加州大学圣地亚哥分校(UCSD)的研究团队开发出DreamPRM新方法,在数学推理权威测评榜MMMU上获得第一名,超越了GPT-5、Gemini等顶级模型。本文将介绍该方法背后的创新思路与实验成果。
近年来,大语言模型(LLM)在推理能力上取得显著进步,过程中奖励模型(PRM)的提出,让模型能在推理链条中间步骤获得监督,更稳健地选择合理解题路径。然而,在多模态场景下,这类方法仍面临分布偏移、数据质量不均等挑战。为此,UCSD团队设计了新的训练框架,通过双层优化与样本加权技术,提升多模态推理效果。
创新的训练框架与样本加权
- 背景挑战:多模态输入空间巨大,训练与推理分布差异显著,且大规模训练集存在噪声样本问题。
- 解决方案:采用双层优化框架,把数据样本权重(Instance Weights)作为可学习参数,动态调整样本在训练中的影响。
- 两种实现方式:
- Instance Table:给每个样本独立权重参数,适合小规模数据集,灵活度高但参数随样本增长。
- Instance Net:用MLP网络预测样本权重,参数量固定,适合大规模数据集,泛化能力更强。
生成式奖励模型与推理评价
- 研究团队采用生成式奖励模型(Generative Reward Model)对推理步骤打分,用“+”或“-”表示推理合理性,通过聚合步骤分数指导样本权重更新。
- 训练基座模型采用InternVL3-1B,并在推理阶段基于GPT-5-mini,设计专门生成式奖励模型的训练数据。
实验结果:登顶MMMU
在MMMU(Massive Multi-discipline Multimodal Understanding)权威基准上,该团队在30个学科、183个子领域的多模态推理任务中取得突破。
- GPT-5-mini w/ thinking 基线:80.0%
- DreamPRM-1.5(Instance Table):84.6%(+4.6%,显著提升)
- DreamPRM-1.5(Instance Net):83.6%(+3.6%)
- 对比GPT-5(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%),均取得领先。
结论:推动多模态推理新方向
DreamPRM-1.5通过实例级重加权与动态优化,有效利用高质量样本,解决了多模态推理痛点,为未来大模型推理技术发展提供新思路。该研究不仅提升推理能力,也为多模态大模型训练提供了创新方向。
论文与代码:地址分别为 https://arxiv.org/abs/2509.05542 和 https://github.com/coder-qicao/DreamPRM-1.5(MMMU Leaderboard论文)
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月19日:曼联名宿斯科尔斯社媒晒佩德里照片:我的新晋最爱球员
- 2025年9月19日:苏维门迪谈阿森纳适应:巴斯克人以慢热著称 展现不同一面
- 2025年9月19日:线上篮球对线!徐静雨和追梦探讨杜兰特勇士地位,称其历史最强“老1.5”
- 2025年9月19日:卡库塔斥球员刻意搞人设:低级别球员更爱自私幻想
- 2025年9月19日:苹果新机开售:黄牛加价热炒Pro Max,标准版出现‘破发’现象
- 2025年9月19日:英伟达斥资50亿美元入股英特尔 涉及代工与AI合作是否有效?
- 2025年9月19日:淘宝闪购、饿了么与高德双线布局到店团购业务
- 2025年9月19日:苹果iPhone17开售引黄牛围堵,Pro Max加价近千元成爆款
- 2025年9月19日:广汽与华为联合发布‘启境’高端智能新能源汽车品牌
- 2025年9月19日:长安系再迎重磅任命:王辉出任阿维塔科技董事长
- 2025年9月19日:普阿多:对阵皇马需踢出完美比赛 期待姆巴佩缺席这场比赛
- 2025年9月19日:足球领域无欧冠突出球员TOP10榜单:大罗居首 姆巴佩等位列其后
- 2025年9月19日:亿年地壳运动铸就巴山大峡谷地质奇观——大地褶皱的亿年故事
- 2025年9月19日:亿年地壳褶皱在巴山大峡谷展现‘地球日记’式自然奇观
- 2025年9月19日:喜茶公布“超级植物茶”已售1亿杯
- 2025年9月19日:WNBA季后赛抢七:阿贾-威尔逊38分成胜负关键,队友合36分助球队晋级
- 2025年9月19日:马特乌斯点评瓜帅战术风格 指出其10年前风格弊端
- 2025年9月19日:总书记强调‘以史为鉴’!九一八事变与抗战历史回顾
- 2025年9月19日:中国科协撤销5人科技奖励:严守科研与纪律底线
- 2025年9月19日:马斯克关注AI 2030发展报告:前沿技术未来图景与挑战
精彩评论(10)