收手吧GPT-5-Codex，外面全是AI編程智能體！_gpt5|openai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

剛剛， GPT-5「船新」版本上線！
這次OpenAI直接使用Codex品牌名稱來作為新模型后綴， GPT-5-Codex！
新模型能力將更加擅長智能編碼！
即使2025年只剩下三分之一，各家巨頭在「編程智能體」的爭奪依然是白熱化?。 ?

OpenAI官博更是重新定義了「自動補全」，升級為「agent-complete」。
在OpenAI播客第六集中，總裁Greg與Codex負責人Thibault Sottiaux聊了很多關于GPT-5-Codex ，以及到2030年軟件開發可能會是「什么樣子」。

首先來速通一下此次重大更新。
此次發布的GPT-5-Codex屬于GPT-5的一個特殊版本，它專為智能體編程（agentic coding）重新設計。
GPT-5-Codex將具備全面的「雙模」特長：
即時協作：與開發者實時配合，快速回答問題、修復小bug 。
獨立執行：能長時間自主推進復雜任務（如大規模重構、跨文件調試）。
簡單說就是， GPT-5-Codex不僅快&而且更加可靠。
GPT-5-Codex的交互響應更靈敏，小任務幾乎即時，大任務可持續執行數小時。
OpenAI內部測試可連續7小時完成大規模重構。

GPT-5-Codex三大性能全面提升
首先，在SWE-bench驗證和代碼重構任務上， GPT-5-Codex都超過了目前最先進的GPT-5-high 。
尤其是在非常適合于真實世界任務的代碼重構任務上， GPT-5-Codex的準確率達到了51.3% ，遠高于GPT-5-high的33.9% 。

其次， GPT-5-Codex此次更新的關鍵特性就是「動態調整」資源！
根據OpenAI內部員工的使用數據，在按模型生成token量（含隱藏推理和最終輸出）排序的后10%用戶請求中， GPT?5-Codex的token消耗量比GPT?5減少93.7% ，紅色箭頭處。
相反，在前10%的高復雜度請求中， GPT?5-Codex會投入更多思考時間，其代碼推理、編輯、測試和迭代的耗時達到兩倍，黃色箭頭處。

最后，這次的GPT?5-Codex經過專門訓練，非常擅于執行代碼審查和發現關鍵缺陷。
按照OpenAI的說法，他們發現GPT?5-Codex生成的評論更不容易出現錯誤或不重要的情況，從而讓用戶能將更多注意力集中在關鍵問題上，比如：

「不正確評論」顯著降低：從13.7%降至4.4% 。
「高影響力評論」顯著增加：從39.4%提升到52.4%
「聚焦關鍵重點」：平均每個PR提出的評論數從1.32降至0.93

此消彼長，這讓Vibe Coding更加接近于嚴肅的工程化編程！

為何用Codex命名？
在GPT-5-Codex的「發布會」上， Greg聊到了Codex的起源。

最早在GPT-3時代，他們就發現模型能根據文檔串（docstring）自動補全函數代碼，他們認為當時就具備了「語言模型寫代碼」的可行性。
2021年， OpenAI就率先推出Codex ，并與GitHub合作打造Copilot ，探索AI直接嵌入開發工作流的可能性。

現在Codex的Web界面
Greg說編程一直是OpenAI特別關注的領域，專門使用代碼數據和指標來優化模型表現，與其他領域不同。

早于Vibe Coding的Harness概念

在這次討論中， Greg還用一個新的詞語「Harness」來解釋了OpenAI其實比流行的Vibe Coding更早就發現「用語言模型編程」的魔力。
「Harness」這個詞原意是馬具、韁繩，用來把馬與車或騎手連接起來，使力量可以被控制和發揮。
OpenAI的Greg在講Codex時借用這個詞，表達類似的作用：

模型本身就像「馬」或「大腦」，能產生力量（智能、輸入輸出）。
Harness就像「韁繩/集成框架」，把模型和外部環境（工具、IDE、終端、云端等）連起來，讓它能真正執行任務、發揮效能。

在做普通語言模型應用時，接口（interface）或「韁繩」（harness）其實很簡單——模型只是補全一段文字，最多再跟進一兩次對話就結束了。
但在編程場景下，文本會「活起來」，因為代碼需要真正被執行、需要和工具連接才能發揮作用。
因此，人們意識到， harness的重要性幾乎和模型本身的智能同等關鍵，它決定了模型是否真的可用。
OpenAI所謂的harness ，就是把模型與其余的基礎設施整合起來，讓模型能夠真正地對環境采取行動。

性能與使用體驗

這次GPT-5-Codex的延遲是一大亮點，代碼補全必須<1.5秒，否則用戶體驗差。
GPT-5-Codex可以連續執行長時間任務，特別適合大型重構、遷移任務。
此次更新后還支持多模式交互：終端vibe coding、IDE編輯、GitHub集成、Cursor集成等，應有盡有，滿足不同開發習慣。

OpenAI內部實踐

除了GPT-5-Codex外， Greg還爆料了更多內幕。
OpenAI在內部實踐中孵化了幾款關鍵工具，幫助團隊探索AI編程智能體的潛力。
首先是10x ，一款內部原型，最初在終端運行，能顯著提高開發效率。
它支持異步長時間執行，工程師甚至可以合上筆記本讓任務繼續運行，因此被認為帶來「十倍生產力」，但因尚未打磨成熟而未對外發布。
其次是Agents.md ，這是一個放在代碼庫里的說明文件，類似專門寫給Codex的README 。
它能壓縮上下文，減少模型探索代碼的負擔，同時存放團隊的開發偏好（如測試位置、風格約定）。這樣 Codex 能更快理解項目環境，執行任務更高效。
最后是Code Review Agent ，這是在內部試點后效果最驚艷的工具。
它能理解PR的意圖與實現是否一致，檢查依賴關系，發現人類審查可能遺漏的bug 。
內部團隊甚至在上線前一晚依賴它審查數十個PR ，并幾乎零bug發布。
討論中也提到， 2030年的軟件開發將不再是「人寫代碼+工具輔助」，而是「AI寫大部分代碼+人類監督和設計架構」。
開發者更像是團隊的指揮官，專注于戰略性問題和創意設計，而繁瑣、重復、危險的工作則由 AI 智能體承擔。

收手吧， GPT-5-Codex
現在，編程智能體已經成為各大AI巨頭的火力集中點，打得火熱！
OpenAI此次發布GPT-5-Codex也是再次「官宣加入戰場」。
但是，收手吧，外面已經全是編程智能體了！
讓我們盤點一下國內外今年到底有多少編程智能體～

國外通用/主流編程AI智能體

Cursor：深度集成在IDE中，有agent模式，會檢索本地代碼能跨文件操作、項目級別重構等。
Claude Code CLI：代碼diff、工具調用能力、原型快速實驗。
Gemini CLI：優勢在上下文窗口（context window）、處理大型代碼庫的重構能力強。
GitHub Copilot+Copilot 的擴展

國內代表性產品 /平臺

國內在這個賽道加速也非常快，不少大廠都在做「編程智能體\\編程模型」的組合，已經有很多專門用于編程的模型和產品。

騰訊的代碼助手CodeBuddy
通義千問的Qwen3-Coder
字節的TRAE
百度的文心智能體平臺
DeepSeek最新的V3.1系列

比如DeepSeek官方公告指出， V3.1在編程智能體和在命令行 / 終端環境下解決復雜任務中表現比之前的 DeepSeek系列模型有明顯提升。
總體來看，雖然2025年被稱為智能體之年，但主要還是聚焦在編程智能體。
國外市場以Cursor、Gemini CLI、Claude Code等為代表，強調模型執行力、重構大上下文處理、IDE/CLI無縫集成等能力。
而國內也同步推出同類型產品對標Cursor和Claude Code等產品。
GPT-5-Codex的上線，讓這場「編程智能體大戰」更加的白熱化！
雖然OpenAI很早就洞察到「語言模型能編程」，但是：
AI編程IDE的認知被Cursor摘取了
AI編程CLI的認知被Claude Code拿到了。
而且國內還同步跟進了各種同類型的產品。
【收手吧GPT-5-Codex，外面全是AI編程智能體！】不知道這次起個大早，趕了晚集的GPT-5-Codex能不能拿下「AI智能體編程」的頭銜～