OpenAI GPT - 5 编程测试存争议:跳过23道难题后公布高分

2025年8月20日
news

(图片来自网络)



事件背景与争议点:OpenAI在SWE - bench Verified编程测试中仅完成477道题却公布74.9%高分,对比Anthropic Claude完成全部500题的情况,引发行业争议。尤其是OpenAI声称“跳过23道难题”后取得“领先”,其评测分数的可比性与透明性成为焦点。



发布会乌龙与数据操作:OpenAI在发布会中存在表格错误等乌龙后,又引发对其数据操作的质疑。SWE - bench Verified总共设置500道题,GPT - 5仅完成477道,跳过了23道无法运行的题目;而Claude则完整完成所有题目,导致分数对比存在明显差异。



分数计算与公平性争议:
若将跳过的23道题按0分计入,GPT - 5实际全题通过率约为71.4%(74.9%×477/500),低于Claude的74.5%。这显示GPT - 5的“领先”可能基于不完整的评测,引发对评测方法公平性的质疑。



SWE - bench与Verified测试解读:
SWE - bench是AI领域的“程序员高考”,以严格标准考验真实代码难题,评分要求极高。SWE - bench Verified是其人类校验子集,由OpenAI与合作方筛选后确定500道题,但OpenAI未完成全部题目,类似“考了部分试卷却自称全卷满分”,导致分数可比性存疑。



行业影响与未来反思:此事件引发对AI模型评测标准的反思,强调评测透明性与完整性。未来企业或更注重测试公正性,避免操作争议,推动行业健康规范发展。



(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-08-20 12
    评测不完整就不算领先,得全考了才能比。
  • 网友9 2025-08-20 12
    希望future里的测试能更公正,别搞争议。
  • 网友8 2025-08-20 12
    AI发展要靠真实能力,不能搞虚假宣传,这不好。
  • 网友7 2025-08-20 12
    技术测试需要严谨,这事儿得让规则更完善。
  • 网友6 2025-08-20 12
    评测公平性很重要,企业得认真对待,不能钻空子。
  • 网友5 2025-08-20 12
    OpenAI这操作像是耍小聪明,影响行业公信力。
  • 网友4 2025-08-20 12
    编程测试要考全题才能比性能,跳题分数没说服力。
  • 网友3 2025-08-20 12
    跳过难题就高分数,感觉像是占小便宜,不过技术复杂也得理解。
  • 网友2 2025-08-20 12
    评测标准不透明,企业得遵守公平规则,不然行业乱套。
  • 网友1 2025-08-20 12
    这AI考试不考完所有题就说领先,太不诚实了!
查看“OpenAI GPT - 5 编程测试存争议:跳过23道难题后公布高分”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙