GPT-5 编程测试争议:OpenAI 测试题选择引关注,与 Claude 对比成焦点
(图片来自网络)
事件概述
近日,OpenAI推出的GPT-5在编程测试领域引发争议。据媒体报道,该模型在SWE-Bench Verified编程测试中,并非完成全部设计的500道题,而是仅有477道题,这一测试题选择方式引发外界对测试公平性的质疑,并与Claude等模型对比显示能力差异。
测试过程细节
在SWE-Bench Verified测试中,OpenAI推出的测试集合原本包含500道题目,但因部分题目难度过高或稳定性不足,最终选取了477道题进行测试。而 Claude、谷歌等模型则是完成全部500道题目进行评测。从测试数据集来源看,样本来自多个知名开源项目,如django、pandas、matplotlib等项目,涵盖软件工程不同维度的编程能力测试。
- 测试项目举例:
- Django/Django(Web框架性能优化)
- SymPy/SymPy(符号数学计算)
- Sphinx-doc/Sphinx(文档生成工具问题)
- Matplotlib/Matplotlib(数据可视化功能)
- Scikit-learn/Scikit-learn(机器学习参数验证)
- Astropy/Astropy(天体物理学模型计算)
- Pydata/Xarray(多维数据分析)
- Pytest-dev/Pytest(测试框架稳定性)
- Pylint-dev/Pylint(代码质量检查)
- PSF/Requests(HTTP库功能)
模型对比结果
在仅测试477题的SWE-Bench Verified下,GPT-5编程能力未超过Claude等模型。但在实际开发环境中使用,GPT-5因性价比和可用性成为热门选择。测试还显示不同变量(数据集、推理策略、IDE特性等)会影响模型能力表现,需结合实际场景评估。
网友观点与反思
网友普遍关注测试公平性,认为测试题选择会影响结果真实性。同时反思编程模型需在真实开发环境中评估稳定性、可维护性等指标,而不仅仅是测试题数量或得分。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年11月3日:我国装机规模最大火力发电厂在宁波顺利投产
- 2025年11月3日:CHERRY XTRFY发布搭载新机械轴体三模机械键盘PIXIU99
- 2025年11月3日:倪光南院士:开源RISC-V为AI算力发展提供新机遇(GOTC峰会聚焦)
- 2025年11月3日:第八届进博会新闻中心开放 助力中外媒体服务创新
- 2025年11月3日:李飞飞呼吁大学推动人工智能研究回归公共利益
- 2025年11月3日:进博会前瞻!智元机器人化身AI志愿者亮相新闻中心,能唱能跳能解答
- 2025年11月3日:汇天飞行汽车量产工厂首台下线‘陆地航母’飞行器,全球首条量产线贯通!
- 2025年11月3日:华为鸿蒙6打通苹果生态!实现跨设备互传文件照片
- 2025年11月3日:明略科技400亿IPO上市,开盘大涨超99%!
- 2025年11月3日:OpenAI CEO回应收入与算力:收入超130亿且算力终将过剩
- 2025年11月3日:极摩客推出M7 Ultra迷你主机:搭载AMD锐龙7 PRO 6850U,支持OCuLink等特色功能,现已预约开售
- 2025年11月3日:马斯克与OpenAI CEO口水战再升级,双方就AI发展理念展开激烈辩论
- 2025年11月3日:抖音旗下科技公司增资近95亿 增幅超4倍
- 2025年11月3日:电竞与科技要闻:T1零封TES、英伟达合作制药、理想汽车回应起火等事件汇总
- 2025年11月3日:真我GT8 Pro阿斯顿马丁F1限量版手机外观细节公布
- 2025年11月3日:上汽反超比亚迪成10月汽车销量冠军,10月售45.4万辆同比增长13%
- 2025年11月3日:AI重塑国际中文教育格局:“全球说”国际中文教育智能体发布
- 2025年11月3日:山东上线中国算力平台 人工智能公共服务新枢纽正式运行
- 2025年11月3日:AI代写论文黑工厂事件:学术诚信面临严重冲击
- 2025年11月3日:男子单手操控5台大疆无人机 指哪打哪尽显科技魅力

精彩评论(10)