GPT-5 编程测试争议:OpenAI 测试题选择引关注,与 Claude 对比成焦点

2025年8月17日
news

(图片来自网络)

GPT-5 编程测试争议:OpenAI 测试题选择引关注,与 Claude 对比成焦点

事件概述

近日,OpenAI推出的GPT-5在编程测试领域引发争议。据媒体报道,该模型在SWE-Bench Verified编程测试中,并非完成全部设计的500道题,而是仅有477道题,这一测试题选择方式引发外界对测试公平性的质疑,并与Claude等模型对比显示能力差异。

测试过程细节

在SWE-Bench Verified测试中,OpenAI推出的测试集合原本包含500道题目,但因部分题目难度过高或稳定性不足,最终选取了477道题进行测试。而 Claude、谷歌等模型则是完成全部500道题目进行评测。从测试数据集来源看,样本来自多个知名开源项目,如django、pandas、matplotlib等项目,涵盖软件工程不同维度的编程能力测试。

  • 测试项目举例
  • Django/Django(Web框架性能优化)
  • SymPy/SymPy(符号数学计算)
  • Sphinx-doc/Sphinx(文档生成工具问题)
  • Matplotlib/Matplotlib(数据可视化功能)
  • Scikit-learn/Scikit-learn(机器学习参数验证)
  • Astropy/Astropy(天体物理学模型计算)
  • Pydata/Xarray(多维数据分析)
  • Pytest-dev/Pytest(测试框架稳定性)
  • Pylint-dev/Pylint(代码质量检查)
  • PSF/Requests(HTTP库功能)

模型对比结果

在仅测试477题的SWE-Bench Verified下,GPT-5编程能力未超过Claude等模型。但在实际开发环境中使用,GPT-5因性价比和可用性成为热门选择。测试还显示不同变量(数据集、推理策略、IDE特性等)会影响模型能力表现,需结合实际场景评估。

网友观点与反思

网友普遍关注测试公平性,认为测试题选择会影响结果真实性。同时反思编程模型需在真实开发环境中评估稳定性、可维护性等指标,而不仅仅是测试题数量或得分。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-08-17 10
    这些技术对比和测试争议,能让我们更了解模型,也推动行业发展,支持。
  • 网友9 2025-08-17 10
    现在AI搞这种测试题,真是‘心大’,但结果如何也很有趣。
  • 网友8 2025-08-17 10
    从事教育工作者,觉得编程测试公平直接影响学生和行业,很关注。
  • 网友7 2025-08-17 10
    年轻人觉得这种科技争议很新潮,有趣,但不明白为何选这些题。
  • 网友6 2025-08-17 10
    认为测试题选择或能反映OpenAI策略,但公平性不能放弃,值得探讨。
  • 网友5 2025-08-17 10
    看到这种对比,觉得Claude在代码质量等方面更成熟,应该深入研究。
  • 网友4 2025-08-17 10
    职场开发者认为,测试结果影响工作效率,应该公平对待。
  • 网友3 2025-08-17 10
    作为学生,对AI编程测试很关注,觉得这种争议能推动技术进步。
  • 网友2 2025-08-17 10
    老年人觉得科技变化快,测试题选择影响结果判断,希望更公平。
  • 网友1 2025-08-17 10
    保障测试公平性很重要,科技发展中不能搞的特殊化,这样模型发展才健康。
查看“GPT-5 编程测试争议:OpenAI 测试题选择引关注,与 Claude 对比成焦点”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙