OpenAI发布最新编程模型GPT-5.2-Codex,与Gemini 3 Flash测试对比表现不及预期
(图片来自网络)
智东西编译 王欣逸编辑 程茜
智东西12月19日消息,今日凌晨,OpenAI发布最新编程模型GPT-5.2-Codex,该模型基于GPT-5.2,对智能体编程能力进行了深度优化。以下是关于该模型及测试对比的详细报道:
模型发布背景: GPT-5.2-Codex基于GPT-5.2,优化了长程任务执行、大规模代码变更、Windows环境兼容及网络安全防御能力。OpenAI称这是他们最强的编程模型,专为复杂软件工程和网络安全领域设计。
测试对比结果: 在与谷歌Gemini 3 Flash的测试中,GPT-5.2-Codex表现不及预期。例如在对50个文件进行漏洞审查的任务中,Gemini 3 Flash用时1分2秒发现5个问题,而GPT-5.2-Codex用时4分48秒仅发现2个问题。此外,SWE-Bench Pro等基准测试中性能提升有限,甚至部分系统测试出现性能退步,引发对其“最强”称号的质疑。
功能与优化点: GPT-5.2-Codex新增了上下文压缩技术,提升长上下文理解、工具调用效率;在原生Windows环境中升级智能体编程表现;在实际任务(如代码导航、重构)中也体现提升,但在SWE-Bench等基准测试中得分未达预期。
网络安全表现: 在夺旗挑战(CTF)等网络安全测试中创纪录,显示模型在安全防护能力提升;但整体测试表现引发对OpenAI新模型效能的关注。
行业竞争背景: 谷歌同期推出低成本的Gemini 3 Flash模型,AI编程赛道竞争加剧,GPT-5.2-Codex在测试中表现不及预期,也反映出行业内技术迭代与竞争的现实。
结语:AI编程工具性能对比成为焦点,GPT-5.2-Codex的发布与测试结果,也促使业界关注模型实际效能与优化空间,未来应用效果或将继续受到关注。
最新新闻
- 2025年12月19日:HMD Terra M三防手机真机谍照曝光
- 2025年12月19日:拼多多股东大会:Temu重仓中国供应链,开启供应链升级新篇章
- 2025年12月19日:中国信通院解读《数据资产管理实践指南(8.0版)》:数据资产管理新实践指南
- 2025年12月19日:我国气象人工智能科学模型‘风源’发布推动气象预报科技创新
- 2025年12月19日:OpenAI冲击6万亿估值 再启千亿融资 亚马逊拟投700亿
- 2025年12月19日:13岁小将于子迪破格当选最佳青年游泳运动员
- 2025年12月19日:2.1万场招聘会、53.7万家企业护航,2025年秋招提供超千万岗位
- 2025年12月19日:经济大省挑大梁丨中国电商直通欧洲2亿人的‘空中快线’
- 2025年12月19日:大国新飞跃|文化瑰宝‘家底’更厚、保护更实、活力更足
- 2025年12月19日:脱贫村的这五年 | 从‘门票经济’到‘体验经济’——嘎拉有个桃花源
- 2025年12月19日:海南自贸港全岛封关,“零关税”等政策带来多项便利
- 2025年12月19日:我国加速布局未来产业抢占发展先机
- 2025年12月19日:各地多举措激发冰雪消费活力
- 2025年12月19日:对投资下滑:既要高度重视也要沉着冷静
- 2025年12月19日:海南封关运作:开放与管理的‘新奏章’
- 2025年12月19日:黄仁勋传记作者警示:谷歌成NVIDIA最大科技对手!
- 2025年12月19日:联想回应与字节AI手机合作:“天禧AI”可选豆包Agent问答
- 2025年12月19日:张江科学会堂开启科技与艺术跨界融合创新之旅
- 2025年12月19日:亚马逊AI团队调整:核心人员与部门架构变动
- 2025年12月19日:菜鸟拟入股九识智能,无人车业务深度整合拓展无人货运市场

精彩评论(10)