
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

剛剛 , GPT-5「船新」版本上線!
這次OpenAI直接使用Codex品牌名稱來作為新模型后綴 , GPT-5-Codex!
新模型能力將更加擅長智能編碼!
即使2025年只剩下三分之一 , 各家巨頭在「編程智能體」的爭奪依然是白熱化?。 ?
OpenAI官博更是重新定義了「自動補全」 , 升級為「agent-complete」 。
在OpenAI播客第六集中 , 總裁Greg與Codex負責人Thibault Sottiaux聊了很多關于GPT-5-Codex , 以及到2030年軟件開發可能會是「什么樣子」 。
首先來速通一下此次重大更新 。
此次發布的GPT-5-Codex屬于GPT-5的一個特殊版本 , 它專為智能體編程(agentic coding)重新設計 。
GPT-5-Codex將具備全面的「雙模」特長:
即時協作:與開發者實時配合 , 快速回答問題、修復小bug 。
獨立執行:能長時間自主推進復雜任務(如大規模重構、跨文件調試) 。
簡單說就是 , GPT-5-Codex不僅快&而且更加可靠 。
GPT-5-Codex的交互響應更靈敏 , 小任務幾乎即時 , 大任務可持續執行數小時 。
OpenAI內部測試可連續7小時完成大規模重構 。
GPT-5-Codex三大性能全面提升
首先 , 在SWE-bench驗證和代碼重構任務上 , GPT-5-Codex都超過了目前最先進的GPT-5-high 。
尤其是在非常適合于真實世界任務的代碼重構任務上 , GPT-5-Codex的準確率達到了51.3% , 遠高于GPT-5-high的33.9% 。
其次 , GPT-5-Codex此次更新的關鍵特性就是「動態調整」資源!
根據OpenAI內部員工的使用數據 , 在按模型生成token量(含隱藏推理和最終輸出)排序的后10%用戶請求中 , GPT?5-Codex的token消耗量比GPT?5減少93.7% , 紅色箭頭處 。
相反 , 在前10%的高復雜度請求中 , GPT?5-Codex會投入更多思考時間 , 其代碼推理、編輯、測試和迭代的耗時達到兩倍 , 黃色箭頭處 。
最后 , 這次的GPT?5-Codex經過專門訓練 , 非常擅于執行代碼審查和發現關鍵缺陷 。
按照OpenAI的說法 , 他們發現GPT?5-Codex生成的評論更不容易出現錯誤或不重要的情況 , 從而讓用戶能將更多注意力集中在關鍵問題上 , 比如:
- 「不正確評論」顯著降低:從13.7%降至4.4% 。
- 「高影響力評論」顯著增加:從39.4%提升到52.4%
- 「聚焦關鍵重點」:平均每個PR提出的評論數從1.32降至0.93
為何用Codex命名?
在GPT-5-Codex的「發布會」上 , Greg聊到了Codex的起源 。
最早在GPT-3時代 , 他們就發現模型能根據文檔串(docstring)自動補全函數代碼 , 他們認為當時就具備了「語言模型寫代碼」的可行性 。
2021年 , OpenAI就率先推出Codex , 并與GitHub合作打造Copilot , 探索AI直接嵌入開發工作流的可能性 。
現在Codex的Web界面
Greg說編程一直是OpenAI特別關注的領域 , 專門使用代碼數據和指標來優化模型表現 , 與其他領域不同 。
早于Vibe Coding的Harness概念
在這次討論中 , Greg還用一個新的詞語「Harness」來解釋了OpenAI其實比流行的Vibe Coding更早就發現「用語言模型編程」的魔力 。
「Harness」這個詞原意是馬具、韁繩 , 用來把馬與車或騎手連接起來 , 使力量可以被控制和發揮 。
OpenAI的Greg在講Codex時借用這個詞 , 表達類似的作用:
- 模型本身就像「馬」或「大腦」 , 能產生力量(智能、輸入輸出) 。
- Harness就像「韁繩/集成框架」 , 把模型和外部環境(工具、IDE、終端、云端等)連起來 , 讓它能真正執行任務、發揮效能 。
在做普通語言模型應用時 , 接口(interface)或「韁繩」(harness)其實很簡單——模型只是補全一段文字 , 最多再跟進一兩次對話就結束了 。
但在編程場景下 , 文本會「活起來」 , 因為代碼需要真正被執行、需要和工具連接才能發揮作用 。
因此 , 人們意識到 , harness的重要性幾乎和模型本身的智能同等關鍵 , 它決定了模型是否真的可用 。
OpenAI所謂的harness , 就是把模型與其余的基礎設施整合起來 , 讓模型能夠真正地對環境采取行動 。
性能與使用體驗
這次GPT-5-Codex的延遲是一大亮點 , 代碼補全必須<1.5秒 , 否則用戶體驗差 。
GPT-5-Codex可以連續執行長時間任務 , 特別適合大型重構、遷移任務 。
此次更新后還支持多模式交互:終端vibe coding、IDE編輯、GitHub集成、Cursor集成等 , 應有盡有 , 滿足不同開發習慣 。
OpenAI內部實踐
除了GPT-5-Codex外 , Greg還爆料了更多內幕 。
OpenAI在內部實踐中孵化了幾款關鍵工具 , 幫助團隊探索AI編程智能體的潛力 。
首先是10x , 一款內部原型 , 最初在終端運行 , 能顯著提高開發效率 。
它支持異步長時間執行 , 工程師甚至可以合上筆記本讓任務繼續運行 , 因此被認為帶來「十倍生產力」 , 但因尚未打磨成熟而未對外發布。
其次是Agents.md , 這是一個放在代碼庫里的說明文件 , 類似專門寫給Codex的README 。
它能壓縮上下文 , 減少模型探索代碼的負擔 , 同時存放團隊的開發偏好(如測試位置、風格約定) 。 這樣 Codex 能更快理解項目環境 , 執行任務更高效。
最后是Code Review Agent , 這是在內部試點后效果最驚艷的工具 。
它能理解PR的意圖與實現是否一致 , 檢查依賴關系 , 發現人類審查可能遺漏的bug 。
內部團隊甚至在上線前一晚依賴它審查數十個PR , 并幾乎零bug發布 。
討論中也提到 , 2030年的軟件開發將不再是「人寫代碼+工具輔助」 , 而是「AI寫大部分代碼+人類監督和設計架構」 。
開發者更像是團隊的指揮官 , 專注于戰略性問題和創意設計 , 而繁瑣、重復、危險的工作則由 AI 智能體承擔 。
收手吧 , GPT-5-Codex
現在 , 編程智能體已經成為各大AI巨頭的火力集中點 , 打得火熱!
OpenAI此次發布GPT-5-Codex也是再次「官宣加入戰場」 。
但是 , 收手吧 , 外面已經全是編程智能體了!
讓我們盤點一下國內外今年到底有多少編程智能體~
國外通用/主流編程AI智能體
- Cursor:深度集成在IDE中 , 有agent模式 , 會檢索本地代碼 能跨文件操作、項目級別重構等 。
- Claude Code CLI:代碼diff、工具調用能力、原型快速實驗 。
- Gemini CLI:優勢在上下文窗口(context window)、處理大型代碼庫的重構能力強 。
- GitHub Copilot+Copilot 的擴展
國內代表性產品 /平臺
國內在這個賽道加速也非常快 , 不少大廠都在做「編程智能體\\編程模型」的組合 , 已經有很多專門用于編程的模型和產品 。
- 騰訊的代碼助手CodeBuddy
- 通義千問的Qwen3-Coder
- 字節的TRAE
- 百度的文心智能體平臺
- DeepSeek最新的V3.1系列
總體來看 , 雖然2025年被稱為智能體之年 , 但主要還是聚焦在編程智能體 。
國外市場以Cursor、Gemini CLI、Claude Code等為代表 , 強調模型執行力、重構大上下文處理、IDE/CLI無縫集成等能力 。
而國內也同步推出同類型產品對標Cursor和Claude Code等產品 。
GPT-5-Codex的上線 , 讓這場「編程智能體大戰」更加的白熱化!
雖然OpenAI很早就洞察到「語言模型能編程」 , 但是:
AI編程IDE的認知被Cursor摘取了
AI編程CLI的認知被Claude Code拿到了 。
而且國內還同步跟進了各種同類型的產品 。
【收手吧GPT-5-Codex,外面全是AI編程智能體!】不知道這次起個大早 , 趕了晚集的GPT-5-Codex能不能拿下「AI智能體編程」的頭銜~
推薦閱讀
- 剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目
- 連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了
- 看吧,國產顯卡又一突破!龍芯首款GPGPU研發基本完成了
- 7500mAh+2k直屏+2億長焦,定價3999元,真我新機沖的太高了吧
- 黃仁勛子女逆襲上位,4萬億「皇儲」成長史首曝:一個學烘焙,一個開酒吧
- 笑死,人形機器人運動會全是鬼畜名場面,這鍋粥大家來趁亂喝了吧
- iPhone 16突然降價,這價格是瘋了吧?
- iPhone 17 Air,這電池容量瘋了吧?
- 2149的小屏「MIX」,今天這新機來搗亂的吧
- 小扎火速挖走谷歌IMO金牌模型華人功臣,以后還是別公布團隊名單了吧
