大模型遭遇500道难题测试,o3 Pro仅通过15%

2025年9月15日
news

(图片来自网络)

机器之心报道,一项由斯坦福大学、华盛顿大学等机构开发的全新测试集 UQ(Unsolved Questions),包含500道涵盖计算机理论、数学、科幻、历史等领域的难题,专门用于检验大模型在推理、事实准确性以及浏览等方面的能力。该测试集在设计上兼顾了难度与真实性,问题大多是人类尚未解决的难题,攻克后可直接产生现实价值。


为保障问题质量,研究团队采用了“规则过滤器+大语言模型评审+人工审核”等多阶段筛选流程:首先从Stack Exchange等社区抓取未解答问题,经规则筛选后缩减至约33,916个,再经大语言模型筛选后至7,685个,最终经人工审核后确定500道题。筛选后的题目既有挑战性又贴合真实世界场景,能有效检验前沿模型能力。


实验评估了o3、o4-mini、o3-mini等多款主流大模型,在500道难题的测试中,表现最好的模型也仅通过15道题,反映出当前大模型在解决复杂、前沿难题时仍存在较大能力短板。研究还发现,大语言模型在验证自身等模型时存在自我偏见与过度乐观问题,需通过复合验证器等方式优化验证流程。


论文指出,该测试集的提出填补了现有大模型基准的缺口,未来将持续迭代更新问题,以推动大模型在难题解决能力上的提升。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-15 11
    有这样的测试和挑战,大模型肯定会更好,未来可期!
  • 网友9 2025-09-15 11
    大模型确实有局限,不过测试方法还要完善,得谨慎对待结果
  • 网友8 2025-09-15 11
    500道难题测试很厉害,大模型在挑战面前暴露了不足,是进步起点
  • 网友7 2025-09-15 11
    这类测试能看出大模型短板,有助于优化,对科技发展有帮助
  • 网友6 2025-09-15 11
    大模型像考试不及格一样,不过测试能推动发展,挺好的
  • 网友5 2025-09-15 11
    为什么大模型做不好这些题?题目是不是真的很难?
  • 网友4 2025-09-15 11
    这种无答案验证和筛选方法很新颖,对评估大模型能力很重要
  • 网友3 2025-09-15 11
    现在科技发展快,大模型遇到难题也正常,希望以后能更好
  • 网友2 2025-09-15 11
    看来大模型在解决复杂问题还有局限,不过测试方法很创新,值得肯定
  • 网友1 2025-09-15 11
    这测试很有意思,大模型遇到难题了,终于有挑战了,期待它们进步
查看“大模型遭遇500道难题测试,o3 Pro仅通过15%”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙