登顶多模态推理榜!UCSD新方法登顶MMMU,超越GPT-5、Gemini

2025年9月19日
news

(图片来自网络)

【新闻摘要】加州大学圣地亚哥分校(UCSD)的研究团队开发出DreamPRM新方法,在数学推理权威测评榜MMMU上获得第一名,超越了GPT-5、Gemini等顶级模型。本文将介绍该方法背后的创新思路与实验成果。


近年来,大语言模型(LLM)在推理能力上取得显著进步,过程中奖励模型(PRM)的提出,让模型能在推理链条中间步骤获得监督,更稳健地选择合理解题路径。然而,在多模态场景下,这类方法仍面临分布偏移、数据质量不均等挑战。为此,UCSD团队设计了新的训练框架,通过双层优化与样本加权技术,提升多模态推理效果。


创新的训练框架与样本加权



  • 背景挑战:多模态输入空间巨大,训练与推理分布差异显著,且大规模训练集存在噪声样本问题。

  • 解决方案:采用双层优化框架,把数据样本权重(Instance Weights)作为可学习参数,动态调整样本在训练中的影响。

  • 两种实现方式

    • Instance Table:给每个样本独立权重参数,适合小规模数据集,灵活度高但参数随样本增长。

    • Instance Net:用MLP网络预测样本权重,参数量固定,适合大规模数据集,泛化能力更强。




生成式奖励模型与推理评价



  • 研究团队采用生成式奖励模型(Generative Reward Model)对推理步骤打分,用“+”或“-”表示推理合理性,通过聚合步骤分数指导样本权重更新。

  • 训练基座模型采用InternVL3-1B,并在推理阶段基于GPT-5-mini,设计专门生成式奖励模型的训练数据。


实验结果:登顶MMMU


在MMMU(Massive Multi-discipline Multimodal Understanding)权威基准上,该团队在30个学科、183个子领域的多模态推理任务中取得突破。



  • GPT-5-mini w/ thinking 基线:80.0%

  • DreamPRM-1.5(Instance Table):84.6%(+4.6%,显著提升)

  • DreamPRM-1.5(Instance Net):83.6%(+3.6%)

  • 对比GPT-5(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%),均取得领先。


结论:推动多模态推理新方向


DreamPRM-1.5通过实例级重加权与动态优化,有效利用高质量样本,解决了多模态推理痛点,为未来大模型推理技术发展提供新思路。该研究不仅提升推理能力,也为多模态大模型训练提供了创新方向。


论文与代码:地址分别为 https://arxiv.org/abs/2509.05542https://github.com/coder-qicao/DreamPRM-1.5(MMMU Leaderboard论文)

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-19 13
    这个研究成果展示了中国高校(UCSD)的技术实力,很值得学习。
  • 网友9 2025-09-19 13
    多模态大模型的发展需要这样的创新方法,推动行业发展。
  • 网友8 2025-09-19 13
    双层优化和样本加权的设计很细腻,研究细节到位。
  • 网友7 2025-09-19 13
    希望未来能应用到更多领域,比如教育、医疗,很有前景。
  • 网友6 2025-09-19 13
    对比传统方法,这个新方法确实进步很多,技术实力很棒。
  • 网友5 2025-09-19 13
    样本加权的方法很聪明,提升效果明显,对大模型训练有启发。
  • 网友4 2025-09-19 13
    多模态推理是未来方向,这个研究走在前面,值得点赞。
  • 网友3 2025-09-19 13
    终于有个方法超过GPT-5了,科技发展真快,以后期待更多成果。
  • 网友2 2025-09-19 13
    UCSD的新方法很创新,解决了数据质量问题,很实用。
  • 网友1 2025-09-19 13
    这个研究太厉害了,多模态推理终于有新突破,以后应用肯定更多!
查看“登顶多模态推理榜!UCSD新方法登顶MMMU,超越GPT-5、Gemini”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙