大模型遭遇500道难题测试,o3 Pro仅通过15%

(图片来自网络)
机器之心报道,一项由斯坦福大学、华盛顿大学等机构开发的全新测试集 UQ(Unsolved Questions),包含500道涵盖计算机理论、数学、科幻、历史等领域的难题,专门用于检验大模型在推理、事实准确性以及浏览等方面的能力。该测试集在设计上兼顾了难度与真实性,问题大多是人类尚未解决的难题,攻克后可直接产生现实价值。
为保障问题质量,研究团队采用了“规则过滤器+大语言模型评审+人工审核”等多阶段筛选流程:首先从Stack Exchange等社区抓取未解答问题,经规则筛选后缩减至约33,916个,再经大语言模型筛选后至7,685个,最终经人工审核后确定500道题。筛选后的题目既有挑战性又贴合真实世界场景,能有效检验前沿模型能力。
实验评估了o3、o4-mini、o3-mini等多款主流大模型,在500道难题的测试中,表现最好的模型也仅通过15道题,反映出当前大模型在解决复杂、前沿难题时仍存在较大能力短板。研究还发现,大语言模型在验证自身等模型时存在自我偏见与过度乐观问题,需通过复合验证器等方式优化验证流程。
论文指出,该测试集的提出填补了现有大模型基准的缺口,未来将持续迭代更新问题,以推动大模型在难题解决能力上的提升。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月15日:保时捷新款911 Turbo S正式上市,双涡轮混动系统售价272.8万元起
- 2025年9月15日:本田CR-V全球30年荣耀款9月22日上市
- 2025年9月15日:雷军:小米17系列全面对标iPhone 正面迎战
- 2025年9月15日:科技新突破:多项前沿成果引关注
- 2025年9月15日:小米新旗舰跳过“16”发布17系列,雷军表示正面迎战苹果
- 2025年9月15日:小米汽车推出限时促销 多款车型享优惠福利
- 2025年9月15日:车企半年财报遇宁德时代利润碾压,行业格局引关注
- 2025年9月15日:新华社权威快报:8月国民经济运行总体平稳、稳中有进
- 2025年9月15日:金熊猫奖以影视为载体 成为文化交流关键纽带
- 2025年9月15日:徐州汉风楚韵:古韵新篇
- 2025年9月15日:2025年国家网络安全宣传周今日启动
- 2025年9月15日:铭记历史·奋进复兴:纪念抗战胜利80周年纪实
- 2025年9月15日:金融支持实体经济力度持续加大,政策发力显实效
- 2025年9月15日:2025国家网络安全宣传周开启:以高水平安全护航高质量发展新征程
- 2025年9月15日:国家发布《国家网络安全事件报告管理办法》规范网络安全事件报告
- 2025年9月15日:青绿绘江山——昆山生态湿地践行绿色发展样本
- 2025年9月15日:枫清科技创始人高雪峰:AI应用进入4.0时代,用智能化重塑企业决策
- 2025年9月15日:杭州数字贸易展展现科技新风采:多领域前沿项目亮点纷呈
- 2025年9月15日:罗永浩提议与西贝创始人贾国龙直播对话化解餐饮争议
- 2025年9月15日:罗永浩称华与华道歉 争议事件告一段落
精彩评论(10)