OpenAI GPT - 5 编程测试存争议:跳过23道难题后公布高分
(图片来自网络)
事件背景与争议点:OpenAI在SWE - bench Verified编程测试中仅完成477道题却公布74.9%高分,对比Anthropic Claude完成全部500题的情况,引发行业争议。尤其是OpenAI声称“跳过23道难题”后取得“领先”,其评测分数的可比性与透明性成为焦点。
发布会乌龙与数据操作:OpenAI在发布会中存在表格错误等乌龙后,又引发对其数据操作的质疑。SWE - bench Verified总共设置500道题,GPT - 5仅完成477道,跳过了23道无法运行的题目;而Claude则完整完成所有题目,导致分数对比存在明显差异。
分数计算与公平性争议:
若将跳过的23道题按0分计入,GPT - 5实际全题通过率约为71.4%(74.9%×477/500),低于Claude的74.5%。这显示GPT - 5的“领先”可能基于不完整的评测,引发对评测方法公平性的质疑。
SWE - bench与Verified测试解读:
SWE - bench是AI领域的“程序员高考”,以严格标准考验真实代码难题,评分要求极高。SWE - bench Verified是其人类校验子集,由OpenAI与合作方筛选后确定500道题,但OpenAI未完成全部题目,类似“考了部分试卷却自称全卷满分”,导致分数可比性存疑。
行业影响与未来反思:此事件引发对AI模型评测标准的反思,强调评测透明性与完整性。未来企业或更注重测试公正性,避免操作争议,推动行业健康规范发展。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2026年1月28日:昨日社会热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日文化热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日科技热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日体育热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日娱乐热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日财经热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日教育热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:昨日汽车热门资讯汇总-早报速览(2026-01-28)
- 2026年1月28日:迈阿密国际新援雷吉隆右膝关节受伤 归期待定
- 2026年1月28日:阿森纳联赛阶段11连胜仅丢4球 本赛季前7场率先破门
- 2026年1月28日:交通运输部加强春运公路水路服务保障 推出保畅组合拳
- 2026年1月28日:凡人微光|冰雪热潮中的平凡热爱故事
- 2026年1月28日:冰雪产业焕新:冷资源变热经济,打造全年发展‘旺火’
- 2026年1月28日:2025中国经济关键词:潜力释放 激活超大规模市场优势
- 2026年1月28日:大转折!2025年制造业利润大幅回升,反“内卷”改善价格预期
- 2026年1月28日:2026年中国外贸发展方向:从关键词看新布局
- 2026年1月28日:金沙江鱼儿回家之路:隧洞刷脸、电梯通行,生态保护见成效
- 2026年1月28日:走进“冰雪热”幕后:吉林省冰雪经济背后的劳动者故事
- 2026年1月28日:非洲留学生“小米”变身长沙经贸“纽带”,用直播架起中非经贸之桥
- 2026年1月28日:“一降一增”见证中国外贸破局前行

精彩评论(10)