OpenAI GPT - 5 编程测试存争议：跳过23道难题后公布高分

2025年8月20日

（图片来自网络）

事件背景与争议点：OpenAI在SWE - bench Verified编程测试中仅完成477道题却公布74.9%高分，对比Anthropic Claude完成全部500题的情况，引发行业争议。尤其是OpenAI声称“跳过23道难题”后取得“领先”，其评测分数的可比性与透明性成为焦点。

发布会乌龙与数据操作：OpenAI在发布会中存在表格错误等乌龙后，又引发对其数据操作的质疑。SWE - bench Verified总共设置500道题，GPT - 5仅完成477道，跳过了23道无法运行的题目；而Claude则完整完成所有题目，导致分数对比存在明显差异。

分数计算与公平性争议：
若将跳过的23道题按0分计入，GPT - 5实际全题通过率约为71.4%（74.9%×477/500），低于Claude的74.5%。这显示GPT - 5的“领先”可能基于不完整的评测，引发对评测方法公平性的质疑。

SWE - bench与Verified测试解读：
SWE - bench是AI领域的“程序员高考”，以严格标准考验真实代码难题，评分要求极高。SWE - bench Verified是其人类校验子集，由OpenAI与合作方筛选后确定500道题，但OpenAI未完成全部题目，类似“考了部分试卷却自称全卷满分”，导致分数可比性存疑。

行业影响与未来反思：此事件引发对AI模型评测标准的反思，强调评测透明性与完整性。未来企业或更注重测试公正性，避免操作争议，推动行业健康规范发展。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-08-20 12

评测不完整就不算领先，得全考了才能比。
网友9 2025-08-20 12

希望future里的测试能更公正，别搞争议。
网友8 2025-08-20 12

AI发展要靠真实能力，不能搞虚假宣传，这不好。
网友7 2025-08-20 12

技术测试需要严谨，这事儿得让规则更完善。
网友6 2025-08-20 12

评测公平性很重要，企业得认真对待，不能钻空子。
网友5 2025-08-20 12

OpenAI这操作像是耍小聪明，影响行业公信力。
网友4 2025-08-20 12

编程测试要考全题才能比性能，跳题分数没说服力。
网友3 2025-08-20 12

跳过难题就高分数，感觉像是占小便宜，不过技术复杂也得理解。
网友2 2025-08-20 12

评测标准不透明，企业得遵守公平规则，不然行业乱套。
网友1 2025-08-20 12

这AI考试不考完所有题就说领先，太不诚实了！

查看“OpenAI GPT - 5 编程测试存争议：跳过23道难题后公布高分”相关搜索 >

OpenAI GPT - 5 编程测试存争议：跳过23道难题后公布高分

精彩评论（10）

最新新闻