GPT-5 编程测试争议：OpenAI 测试题选择引关注，与 Claude 对比成焦点

2025年8月17日

（图片来自网络）

事件概述

近日，OpenAI推出的GPT-5在编程测试领域引发争议。据媒体报道，该模型在SWE-Bench Verified编程测试中，并非完成全部设计的500道题，而是仅有477道题，这一测试题选择方式引发外界对测试公平性的质疑，并与Claude等模型对比显示能力差异。

测试过程细节

在SWE-Bench Verified测试中，OpenAI推出的测试集合原本包含500道题目，但因部分题目难度过高或稳定性不足，最终选取了477道题进行测试。而 Claude、谷歌等模型则是完成全部500道题目进行评测。从测试数据集来源看，样本来自多个知名开源项目，如django、pandas、matplotlib等项目，涵盖软件工程不同维度的编程能力测试。

测试项目举例：
Django/Django（Web框架性能优化）
SymPy/SymPy（符号数学计算）
Sphinx-doc/Sphinx（文档生成工具问题）
Matplotlib/Matplotlib（数据可视化功能）
Scikit-learn/Scikit-learn（机器学习参数验证）
Astropy/Astropy（天体物理学模型计算）
Pydata/Xarray（多维数据分析）
Pytest-dev/Pytest（测试框架稳定性）
Pylint-dev/Pylint（代码质量检查）
PSF/Requests（HTTP库功能）

模型对比结果

在仅测试477题的SWE-Bench Verified下，GPT-5编程能力未超过Claude等模型。但在实际开发环境中使用，GPT-5因性价比和可用性成为热门选择。测试还显示不同变量（数据集、推理策略、IDE特性等）会影响模型能力表现，需结合实际场景评估。

网友观点与反思

网友普遍关注测试公平性，认为测试题选择会影响结果真实性。同时反思编程模型需在真实开发环境中评估稳定性、可维护性等指标，而不仅仅是测试题数量或得分。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-08-17 10

这些技术对比和测试争议，能让我们更了解模型，也推动行业发展，支持。
网友9 2025-08-17 10

现在AI搞这种测试题，真是‘心大’，但结果如何也很有趣。
网友8 2025-08-17 10

从事教育工作者，觉得编程测试公平直接影响学生和行业，很关注。
网友7 2025-08-17 10

年轻人觉得这种科技争议很新潮，有趣，但不明白为何选这些题。
网友6 2025-08-17 10

认为测试题选择或能反映OpenAI策略，但公平性不能放弃，值得探讨。
网友5 2025-08-17 10

看到这种对比，觉得Claude在代码质量等方面更成熟，应该深入研究。
网友4 2025-08-17 10

职场开发者认为，测试结果影响工作效率，应该公平对待。
网友3 2025-08-17 10

作为学生，对AI编程测试很关注，觉得这种争议能推动技术进步。
网友2 2025-08-17 10

老年人觉得科技变化快，测试题选择影响结果判断，希望更公平。
网友1 2025-08-17 10

保障测试公平性很重要，科技发展中不能搞的特殊化，这样模型发展才健康。

查看“GPT-5 编程测试争议：OpenAI 测试题选择引关注，与 Claude 对比成焦点”相关搜索 >

GPT-5 编程测试争议：OpenAI 测试题选择引关注，与 Claude 对比成焦点

精彩评论（10）

最新新闻