大模型遭遇500道难题测试，o3 Pro仅通过15%

2025年9月15日

（图片来自网络）

机器之心报道，一项由斯坦福大学、华盛顿大学等机构开发的全新测试集 UQ（Unsolved Questions），包含500道涵盖计算机理论、数学、科幻、历史等领域的难题，专门用于检验大模型在推理、事实准确性以及浏览等方面的能力。该测试集在设计上兼顾了难度与真实性，问题大多是人类尚未解决的难题，攻克后可直接产生现实价值。

为保障问题质量，研究团队采用了“规则过滤器+大语言模型评审+人工审核”等多阶段筛选流程：首先从Stack Exchange等社区抓取未解答问题，经规则筛选后缩减至约33,916个，再经大语言模型筛选后至7,685个，最终经人工审核后确定500道题。筛选后的题目既有挑战性又贴合真实世界场景，能有效检验前沿模型能力。

实验评估了o3、o4-mini、o3-mini等多款主流大模型，在500道难题的测试中，表现最好的模型也仅通过15道题，反映出当前大模型在解决复杂、前沿难题时仍存在较大能力短板。研究还发现，大语言模型在验证自身等模型时存在自我偏见与过度乐观问题，需通过复合验证器等方式优化验证流程。

论文指出，该测试集的提出填补了现有大模型基准的缺口，未来将持续迭代更新问题，以推动大模型在难题解决能力上的提升。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-09-15 11

有这样的测试和挑战，大模型肯定会更好，未来可期！
网友9 2025-09-15 11

大模型确实有局限，不过测试方法还要完善，得谨慎对待结果
网友8 2025-09-15 11

500道难题测试很厉害，大模型在挑战面前暴露了不足，是进步起点
网友7 2025-09-15 11

这类测试能看出大模型短板，有助于优化，对科技发展有帮助
网友6 2025-09-15 11

大模型像考试不及格一样，不过测试能推动发展，挺好的
网友5 2025-09-15 11

为什么大模型做不好这些题？题目是不是真的很难？
网友4 2025-09-15 11

这种无答案验证和筛选方法很新颖，对评估大模型能力很重要
网友3 2025-09-15 11

现在科技发展快，大模型遇到难题也正常，希望以后能更好
网友2 2025-09-15 11

看来大模型在解决复杂问题还有局限，不过测试方法很创新，值得肯定
网友1 2025-09-15 11

这测试很有意思，大模型遇到难题了，终于有挑战了，期待它们进步

查看“大模型遭遇500道难题测试，o3 Pro仅通过15%”相关搜索 >

大模型遭遇500道难题测试，o3 Pro仅通过15%

精彩评论（10）

最新新闻