GPT-5 编程测试争议:OpenAI 测试题选择引关注,与 Claude 对比成焦点
(图片来自网络)
事件概述
近日,OpenAI推出的GPT-5在编程测试领域引发争议。据媒体报道,该模型在SWE-Bench Verified编程测试中,并非完成全部设计的500道题,而是仅有477道题,这一测试题选择方式引发外界对测试公平性的质疑,并与Claude等模型对比显示能力差异。
测试过程细节
在SWE-Bench Verified测试中,OpenAI推出的测试集合原本包含500道题目,但因部分题目难度过高或稳定性不足,最终选取了477道题进行测试。而 Claude、谷歌等模型则是完成全部500道题目进行评测。从测试数据集来源看,样本来自多个知名开源项目,如django、pandas、matplotlib等项目,涵盖软件工程不同维度的编程能力测试。
- 测试项目举例:
- Django/Django(Web框架性能优化)
- SymPy/SymPy(符号数学计算)
- Sphinx-doc/Sphinx(文档生成工具问题)
- Matplotlib/Matplotlib(数据可视化功能)
- Scikit-learn/Scikit-learn(机器学习参数验证)
- Astropy/Astropy(天体物理学模型计算)
- Pydata/Xarray(多维数据分析)
- Pytest-dev/Pytest(测试框架稳定性)
- Pylint-dev/Pylint(代码质量检查)
- PSF/Requests(HTTP库功能)
模型对比结果
在仅测试477题的SWE-Bench Verified下,GPT-5编程能力未超过Claude等模型。但在实际开发环境中使用,GPT-5因性价比和可用性成为热门选择。测试还显示不同变量(数据集、推理策略、IDE特性等)会影响模型能力表现,需结合实际场景评估。
网友观点与反思
网友普遍关注测试公平性,认为测试题选择会影响结果真实性。同时反思编程模型需在真实开发环境中评估稳定性、可维护性等指标,而不仅仅是测试题数量或得分。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2026年1月28日:迈阿密国际新援雷吉隆右膝关节受伤 归期待定
- 2026年1月28日:阿森纳联赛阶段11连胜仅丢4球 本赛季前7场率先破门
- 2026年1月28日:交通运输部加强春运公路水路服务保障 推出保畅组合拳
- 2026年1月28日:凡人微光|冰雪热潮中的平凡热爱故事
- 2026年1月28日:冰雪产业焕新:冷资源变热经济,打造全年发展‘旺火’
- 2026年1月28日:2025中国经济关键词:潜力释放 激活超大规模市场优势
- 2026年1月28日:大转折!2025年制造业利润大幅回升,反“内卷”改善价格预期
- 2026年1月28日:2026年中国外贸发展方向:从关键词看新布局
- 2026年1月28日:金沙江鱼儿回家之路:隧洞刷脸、电梯通行,生态保护见成效
- 2026年1月28日:走进“冰雪热”幕后:吉林省冰雪经济背后的劳动者故事
- 2026年1月28日:非洲留学生“小米”变身长沙经贸“纽带”,用直播架起中非经贸之桥
- 2026年1月28日:“一降一增”见证中国外贸破局前行
- 2026年1月28日:春晚未启,AI先战!字节、腾讯、百度大厂抢位AI超级入口
- 2026年1月28日:谷歌云上调部分数据传输服务价格 北美地区价格翻倍
- 2026年1月28日:苹果计划维持iPhone 18起售价 面对内存成本上涨
- 2026年1月28日:中国科学家研发‘智能电子衣’ 实现器官精准可控给药
- 2026年1月28日:曦望发布新一代推理GPU芯片S3 2025交付破万片 推动‘百万Token一分钱’落地
- 2026年1月28日:中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?
- 2026年1月28日:泰国U23国脚提拉帕租借加盟J联赛札幌队 比肩中国赛展现才华
- 2026年1月28日:德约科维奇赢9盘进澳网四强?对比2016年美网仅赢8盘,是大满贯最幸运之旅吗?

精彩评论(10)