GPT-5 编程测试争议:OpenAI 测试题选择引关注,与 Claude 对比成焦点

(图片来自网络)
事件概述
近日,OpenAI推出的GPT-5在编程测试领域引发争议。据媒体报道,该模型在SWE-Bench Verified编程测试中,并非完成全部设计的500道题,而是仅有477道题,这一测试题选择方式引发外界对测试公平性的质疑,并与Claude等模型对比显示能力差异。
测试过程细节
在SWE-Bench Verified测试中,OpenAI推出的测试集合原本包含500道题目,但因部分题目难度过高或稳定性不足,最终选取了477道题进行测试。而 Claude、谷歌等模型则是完成全部500道题目进行评测。从测试数据集来源看,样本来自多个知名开源项目,如django、pandas、matplotlib等项目,涵盖软件工程不同维度的编程能力测试。
- 测试项目举例:
- Django/Django(Web框架性能优化)
- SymPy/SymPy(符号数学计算)
- Sphinx-doc/Sphinx(文档生成工具问题)
- Matplotlib/Matplotlib(数据可视化功能)
- Scikit-learn/Scikit-learn(机器学习参数验证)
- Astropy/Astropy(天体物理学模型计算)
- Pydata/Xarray(多维数据分析)
- Pytest-dev/Pytest(测试框架稳定性)
- Pylint-dev/Pylint(代码质量检查)
- PSF/Requests(HTTP库功能)
模型对比结果
在仅测试477题的SWE-Bench Verified下,GPT-5编程能力未超过Claude等模型。但在实际开发环境中使用,GPT-5因性价比和可用性成为热门选择。测试还显示不同变量(数据集、推理策略、IDE特性等)会影响模型能力表现,需结合实际场景评估。
网友观点与反思
网友普遍关注测试公平性,认为测试题选择会影响结果真实性。同时反思编程模型需在真实开发环境中评估稳定性、可维护性等指标,而不仅仅是测试题数量或得分。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月14日:国际观察|数智服贸 互惠共赢——中国高水平对外开放为全球服务贸易描绘新图景
- 2025年9月14日:向新而行:中国主动融入世界市场,敢于迎接经济全球化挑战
- 2025年9月14日:抗战精神永铸民族魂——纪念抗战胜利80周年活动启示录(四)
- 2025年9月14日:苹果iPhone 17后规划10款新品 半数年底前发布
- 2025年9月14日:全球支付呈现四大趋势 先买后付等新业态成焦点
- 2025年9月14日:安徽发布新能源车险发展方案 推动降费扩面破局
- 2025年9月14日:跳海从酒馆到酒店,以社区运营重构住宿体验
- 2025年9月14日:苹果iPhone革新:自研芯片成降本增利核心举措
- 2025年9月14日:iPhone 17系列发布后苹果股价下跌,果链板块投资机遇引关注
- 2025年9月14日:Intel锐炫Pro B50上市十天登顶工作站GPU畅销榜,16GB大显存2999元成爆款
- 2025年9月14日:苹果新款40W动态电源适配器测试结果公布
- 2025年9月14日:腾讯再度减持众安在线 持股接近5%阈值
- 2025年9月14日:于朦胧坠楼事件疑点引发关注,陈晓东发声呼吁还原真相
- 2025年9月14日:60岁张曼玉钻鸡窝掏鸡蛋分享法国生活日常
- 2025年9月14日:研究人员打造带AI同行评审的预印本平台,有望革新科学出版方式
- 2025年9月14日:一位美国富豪与广州药企的闭环传奇!穗创新药国际化进程加速
- 2025年9月14日:NVIDIA确认RTX 50公版显卡未停产 暂时缺货导致下架
- 2025年9月14日:科学家研发出会变色、自修复且能拉伸46倍的智能凝胶
- 2025年9月14日:美股爆发!博通、甲骨文成AI赛道‘卖铲人’新宠?
- 2025年9月14日:与ChatGPT聊天后出现‘AI精神病’现象,社会关注AI影响
精彩评论(10)