登顶多模态推理榜！UCSD新方法登顶MMMU，超越GPT-5、Gemini

2025年9月19日

（图片来自网络）

【新闻摘要】加州大学圣地亚哥分校（UCSD）的研究团队开发出DreamPRM新方法，在数学推理权威测评榜MMMU上获得第一名，超越了GPT-5、Gemini等顶级模型。本文将介绍该方法背后的创新思路与实验成果。

近年来，大语言模型（LLM）在推理能力上取得显著进步，过程中奖励模型（PRM）的提出，让模型能在推理链条中间步骤获得监督，更稳健地选择合理解题路径。然而，在多模态场景下，这类方法仍面临分布偏移、数据质量不均等挑战。为此，UCSD团队设计了新的训练框架，通过双层优化与样本加权技术，提升多模态推理效果。

创新的训练框架与样本加权

背景挑战：多模态输入空间巨大，训练与推理分布差异显著，且大规模训练集存在噪声样本问题。

解决方案：采用双层优化框架，把数据样本权重（Instance Weights）作为可学习参数，动态调整样本在训练中的影响。

两种实现方式：
- Instance Table：给每个样本独立权重参数，适合小规模数据集，灵活度高但参数随样本增长。
- Instance Net：用MLP网络预测样本权重，参数量固定，适合大规模数据集，泛化能力更强。

生成式奖励模型与推理评价

研究团队采用生成式奖励模型（Generative Reward Model）对推理步骤打分，用“+”或“-”表示推理合理性，通过聚合步骤分数指导样本权重更新。

训练基座模型采用InternVL3-1B，并在推理阶段基于GPT-5-mini，设计专门生成式奖励模型的训练数据。

实验结果：登顶MMMU

在MMMU（Massive Multi-discipline Multimodal Understanding）权威基准上，该团队在30个学科、183个子领域的多模态推理任务中取得突破。

GPT-5-mini w/ thinking 基线：80.0%

DreamPRM-1.5（Instance Table）：84.6%（+4.6%，显著提升）

DreamPRM-1.5（Instance Net）：83.6%（+3.6%）

对比GPT-5（84.2%）和Gemini 2.5 Pro Deep-Think（84.0%），均取得领先。

结论：推动多模态推理新方向

DreamPRM-1.5通过实例级重加权与动态优化，有效利用高质量样本，解决了多模态推理痛点，为未来大模型推理技术发展提供新思路。该研究不仅提升推理能力，也为多模态大模型训练提供了创新方向。

论文与代码：地址分别为 https://arxiv.org/abs/2509.05542 和 https://github.com/coder-qicao/DreamPRM-1.5（MMMU Leaderboard论文）

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-09-19 13

这个研究成果展示了中国高校（UCSD）的技术实力，很值得学习。
网友9 2025-09-19 13

多模态大模型的发展需要这样的创新方法，推动行业发展。
网友8 2025-09-19 13

双层优化和样本加权的设计很细腻，研究细节到位。
网友7 2025-09-19 13

希望未来能应用到更多领域，比如教育、医疗，很有前景。
网友6 2025-09-19 13

对比传统方法，这个新方法确实进步很多，技术实力很棒。
网友5 2025-09-19 13

样本加权的方法很聪明，提升效果明显，对大模型训练有启发。
网友4 2025-09-19 13

多模态推理是未来方向，这个研究走在前面，值得点赞。
网友3 2025-09-19 13

终于有个方法超过GPT-5了，科技发展真快，以后期待更多成果。
网友2 2025-09-19 13

UCSD的新方法很创新，解决了数据质量问题，很实用。
网友1 2025-09-19 13

这个研究太厉害了，多模态推理终于有新突破，以后应用肯定更多！

查看“登顶多模态推理榜！UCSD新方法登顶MMMU，超越GPT-5、Gemini”相关搜索 >

登顶多模态推理榜！UCSD新方法登顶MMMU，超越GPT-5、Gemini

精彩评论（10）

最新新闻