news 2026/6/15 7:15:39

最强智能体编程模型!OpenAI重磅发布GPT-5.2 Codex

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
最强智能体编程模型!OpenAI重磅发布GPT-5.2 Codex

整理 | 苏宓

出品 | CSDN(ID:CSDNnews)

当下,各家 AI 模型的能力还在你追我赶地往上「卷」,尤其是在编码领域。

就在今天,OpenAI 发布了智能体编程模型 Codex 的新版本——GPT-5.2 Codex,目标很直接:把更复杂、更耗时的软件工程工作,尽量交给 AI 来完成。

按照 OpenAI 的说法,GPT-5.2 Codex 是在 GPT-5.2 能力基础上的一次“强化升级”,重点补齐了几个工程里常见的痛点:长上下文处理、大规模代码重构、Windows 环境下的开发体验,以及网络安全相关能力。

从模型基准测试结果来看,这次更新也不只是“小修小补”。

更强的 GPT-5.2 Codex 来了

在衡量真实软件工程能力的 SWE-Bench Pro 测试中,GPT-5.2 Codex 拿下了 56.4% 的准确率,刷新了该基准的最高纪录,超过了目前已发布的其他编程模型。这一基准下,GPT-5.2 获得了 55.6% 的准确率,GPT-5.1 仅有 50.8%。

在 Terminal-Bench 2.0 中,它的成绩也达到了 64%,超过了 GPT-5.2 的 62.2% 和 GPT-5.1-Codex-Max 的 58.1%,该测试评估了智能体在真实终端环境下进行编译、训练和服务器配置的能力。

同时,模型的视觉能力也更强了,能更好地看懂屏幕截图、技术图表和用户界面,可以直接把设计稿转成可运行的原型。

OpenAI 在博客中反复强调,GPT-5.2 Codex 的核心目标是推动“软件工程”,而不仅仅是写几段代码。在工程实践中,设计、开发、测试、维护缺一不可,最终追求的是稳定、可靠、好维护、还能不断演进的软件。

在这些环节里,GPT-5.2 Codex 尤其擅长的一项能力是代码重构。简单说,就是在不加新功能的前提下,把代码写得更干净、更高效。OpenAI 举例称,这个模型可以调整代码结构,降低内存占用,或者让应用响应更快——这些往往是工程师最不想、但又不得不花时间做的事情。

从演进路线来看,GPT-5.2 Codex 也不是凭空出现的。在它之前,GPT-5-Codex、GPT-5.1-Codex-Max 已经在多步推理、长上下文理解,以及和开发工具协作方面持续打磨,而 5.2 版本正是在这些积累之上继续往前推了一步。

比如,得益于上下文压缩能力,GPT-5.2 Codex 在长时间、跨步骤的编程任务中更不容易“忘事”,能把复杂流程一口气跑完;在大规模代码库中,它对重构、迁移和新功能构建的支持也更成熟。此外,Windows 环境下的编程体验有所提升,并加入了更高级的安全能力,用于辅助漏洞发现、测试和缓解。

安全性进一步提升

除此之外,OpenAI 也特别提到,安全性是 AI 参与软件工程时绕不开的一环。企业级系统对稳定性和可靠性的要求极高,开发和安全团队在修复复杂漏洞时,既需要 AI 的帮助,也必须确保这些工具本身不会带来新的安全隐患。

这一次,在专业级 Capture-the-Flag(CTF)挑战赛中的 pass@12 成绩远超前几代模型,如 o3、GPT-5 和 GPT-5.1-Codex-Max。从 2025 年 4 月到 2026 年 1 月的走势图来看,它的能力呈指数级增长,但仍低于 OpenAI 定义的“高等级准备框架”门槛,因此官方在系统说明中设置了多层安全防护。

事实上,Codex 在安全方向上的潜力已经有过实际案例。本月早些时候,安全研究员 Andrew MacPherson 使用 GPT-5.1-Codex-Max 分析了 React 的一个漏洞(CVE-2025-55182)。他在博客中提到,模型通过多轮评估、模糊测试和漏洞利用分析相结合的方式,不仅帮助缓解了问题,还意外发现并修复了此前未被注意到的漏洞。

在 OpenAI 看来,GPT-5.2 Codex 的这些改进,能在现实中给企业带来直接价值:把最复杂、最重复的软件工程任务自动化,同时支持更复杂功能和更高等级的安全需求,帮助团队提高效率、减少人为失误,在激烈的工程竞争中保持优势。

这个模型是在竞争越来越激烈的情况下推出的。此前,OpenAI 内部就曾因为 Google 的 Gemini 3 进展而启动“红色警报”应对。GPT-5.2-Codex 可以在命令行工具(CLI)、IDE 插件、网页端、移动端以及 GitHub 代码审查中使用。

在发布节奏上,OpenAI 表示 GPT-5.2 Codex 即日起向所有付费 ChatGPT 用户开放。接下来一段时间,访问权限将扩展至 API 用户,同时还会推出一个仅限邀请的可信访问试点,面向经过审核、专注于防御型网络安全的安全专业人士。

更多关于 GPT-5.2 Codex 详见:https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2-codex/

推荐阅读:

GOBI 2025 全球开源商业创新大会顶级嘉宾阵容公开!4 大 Panel 火力全开

亏700亿美元、预算大砍30%、推迟两款头显:改名才4年,Meta元宇宙彻底“退烧”了?

首批鸿蒙极客:开发圈“金IP”的硬核实力

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:04:48

Langchain-Chatchat在智能制造工艺规程查询中的稳定性保障

Langchain-Chatchat在智能制造工艺规程查询中的稳定性保障 在现代制造车间里,一位年轻的工艺员正面对一台突发异常的数控加工中心。他没有翻找厚重的操作手册,也没有打电话求助专家,而是打开内网终端,在一个简洁的对话框中输入&a…

作者头像 李华
网站建设 2026/6/15 12:04:51

基于梯度下降的改进自适应短时傅里叶变换方法实践

一种改进的自适应短时傅里叶变换方法-基于梯度下降 算法运行环境为Jupyter Notebook,执行一种改进的自适应短时傅里叶变换方法-基于梯度下降,附带参考。 算法可迁移至金融时间序列,地震/微震信号,机械振动信号,声发射信…

作者头像 李华
网站建设 2026/6/15 12:04:55

Langchain-Chatchat在博物馆导览系统中的创新

Langchain-Chatchat在博物馆导览系统中的创新 在一座国家级博物馆的展厅里,一位游客站在唐代三彩马展柜前,轻声问手中的智能导览设备:“这匹马为什么是绿色的?当时的人是怎么烧制出这种颜色的?” 几秒钟后,…

作者头像 李华
网站建设 2026/6/15 4:08:28

9、调试与调试工具指南

调试与调试工具指南 在软件开发过程中,调试是确保程序正常运行的关键环节。本文将介绍运行时镜像构建过程中文件缺失问题的解决方法,以及一系列远程调试工具的使用方法。 运行时镜像构建与文件添加 在构建项目时,“Make Run - Time Image” 过程不会触发系统生成和构建发…

作者头像 李华
网站建设 2026/6/15 12:04:49

13、Windows Embedded CE 开发:测试与应用全解析

Windows Embedded CE 开发:测试与应用全解析 1. Windows Embedded CE 测试套件概述 测试对于产品的成功至关重要,它能验证关键功能并确保性能的一致性。Windows Embedded CE 测试套件(CETK)提供了进行必要测试的环境。以下是使用 CETK 可完成的操作: - 连接模拟器 :…

作者头像 李华
网站建设 2026/6/15 4:25:06

FaceFusion人脸动作捕捉数据导入功能上线

FaceFusion 人脸动作捕捉数据导入功能深度解析 在虚拟内容创作愈发依赖“真实感”的今天,一个微小的表情偏差都可能让观众出戏。无论是虚拟偶像直播时的嘴角抽动不自然,还是影视特效中主角情绪传递不到位,背后往往指向同一个问题:…

作者头像 李华