OpenAI发布最新编程模型GPT-5.2-Codex,与Gemini 3 Flash测试对比表现不及预期

2025年12月19日
news

(图片来自网络)

智东西编译 王欣逸编辑 程茜
智东西12月19日消息,今日凌晨,OpenAI发布最新编程模型GPT-5.2-Codex,该模型基于GPT-5.2,对智能体编程能力进行了深度优化。以下是关于该模型及测试对比的详细报道:

模型发布背景: GPT-5.2-Codex基于GPT-5.2,优化了长程任务执行、大规模代码变更、Windows环境兼容及网络安全防御能力。OpenAI称这是他们最强的编程模型,专为复杂软件工程和网络安全领域设计。

测试对比结果: 在与谷歌Gemini 3 Flash的测试中,GPT-5.2-Codex表现不及预期。例如在对50个文件进行漏洞审查的任务中,Gemini 3 Flash用时1分2秒发现5个问题,而GPT-5.2-Codex用时4分48秒仅发现2个问题。此外,SWE-Bench Pro等基准测试中性能提升有限,甚至部分系统测试出现性能退步,引发对其“最强”称号的质疑。

功能与优化点: GPT-5.2-Codex新增了上下文压缩技术,提升长上下文理解、工具调用效率;在原生Windows环境中升级智能体编程表现;在实际任务(如代码导航、重构)中也体现提升,但在SWE-Bench等基准测试中得分未达预期。

网络安全表现: 在夺旗挑战(CTF)等网络安全测试中创纪录,显示模型在安全防护能力提升;但整体测试表现引发对OpenAI新模型效能的关注。

行业竞争背景: 谷歌同期推出低成本的Gemini 3 Flash模型,AI编程赛道竞争加剧,GPT-5.2-Codex在测试中表现不及预期,也反映出行业内技术迭代与竞争的现实。

结语:AI编程工具性能对比成为焦点,GPT-5.2-Codex的发布与测试结果,也促使业界关注模型实际效能与优化空间,未来应用效果或将继续受到关注。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-12-19 15
    之前GPT系列更新,这次再看,竞争下发展更快,不过得看实际用不?
  • 网友9 2025-12-19 15
    这次测试对比很直观,让我们清楚了解模型实际性能,科普意义很大。
  • 网友8 2025-12-19 15
    企业用这些模型得看实际效率,测试数据重要,但实际应用场景更关键。
  • 网友7 2025-12-19 15
    AI编程模型发展对教育有影响吗?测试结果可能影响学生学习方向呀。
  • 网友6 2025-12-19 15
    像赛场较量一样,两个模型的对抗,期待后续优化后能更厉害。
  • 网友5 2025-12-19 15
    科技新闻变化太快,希望这些模型能帮到更多人,我觉得很期待。
  • 网友4 2025-12-19 15
    作为程序员,测试结果反映实际工作场景?GPT-5.2-Codex在代码审查这些方面还有提升空间,不过上下文压缩技术不错。
  • 网友3 2025-12-19 15
    作为计算机系学生,这两个模型测试对比很关注,Gemini 3 Flash表现好的话,得研究下算法优化啊。
  • 网友2 2025-12-19 15
    这么专业的新闻我有点看不懂,但感觉AI越来越厉害了,以后用着说不定更顺手。
  • 网友1 2025-12-19 15
    科技发展真快,两个模型比来比去,得看实际用着方便不,不过测试结果影响判断了吗?
查看“OpenAI发布最新编程模型GPT-5.2-Codex,与Gemini 3 Flash测试对比表现不及预期”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙