連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

文章圖片

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

文章圖片

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

文章圖片

【連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了】連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

文章圖片


頭圖由AI生成
智東西
編譯 | 程茜
編輯 | 李水青
智東西9月16日消息 , 今日凌晨 , OpenAI發布新模型GPT-5-Codex , 這是其在GPT-5基礎上專門為軟件工程優化的模型版本 , 進一步提升了Codex中的智能體編程(Agentic Coding)能力 。
OpenAI在博客中提到 , GPT-5-Codex的訓練側重于實際的軟件工程工作 , 其可以根據任務動態調整思考時間 , 在大型復雜任務上能夠獨立工作超過7個小時 。
同時在基準測試中 , 相比于GPT-5 , GPT-5-Codex在多項基準測試中的準確率、代碼審查的高影響力評論概率都實現提升 。
GPT-5-Codex發布后兩個多小時 , OpenAI聯合創始人、CEO薩姆·阿爾特曼(Sam Altman)就在X中透露 , GPT-5-Codex的流量占比已達到Codex總流量的40%左右 , 今天就能占到超一半流量比例 。
在開發者使用Codex的所有場景中 , GPT-5-Codex均可用 , 它是云端任務和代碼審查的默認工具 , 開發者也可通過Codex命令行界面(CLI)或集成開發環境(IDE)進行擴展 , 選擇將其用于本地任務 。
OpenAI今年4月首次推出開源編程智能體Codex CLI和5月首次推出Codex的網頁版 , 兩周前其將Codex整合為一個通過ChatGPT帳戶連接的單一產品體驗 , 使得開發者可以在本地環境和云端之間無縫遷移工作 , 而不會丟失上下文 。
Codex包含在ChatGPT Plus、Pro、Business、教育和企業用戶的訂閱套餐中 , 其中Plus、教育和Business套餐每周可支持幾次重點編碼課程 , Pro套餐可支持一周內多個項目的使用 。 對于通過API密鑰使用Codex CLI的開發人員 , OpenAI計劃很快在API中提供GPT-5-Codex 。
在OpenAI的X評論區 , 開發者稱OpenAI這一新發布對于處理復雜項目非常有前景 , 還有開發者對自己的AI工具訂閱預算擔憂 。

一、根據任務動態調整思考時間 , 錯誤評論減少、高影響力評論增加GPT-5-Codex針對復雜的實際工程任務進行了訓練 , 例如從頭構建完整項目、添加功能和測試、調試、執行大規模重構以及進行代碼審查 。 其可以更好遵循AGENTS.md的指令 , 并生成高質量的代碼 , 開發者只需提出自己的需求 , 無需編寫冗長的代碼風格或代碼整潔性說明 。
此外GPT?5-Codex會根據任務的復雜程度 , 動態調整思考時間 , 其執行任務的時間會從幾秒到7個小時不等 。 該模型結合了編程智能體的兩項基本技能:在交互式會話中與開發者配對 , 以及在較長的任務上持續、獨立地執行 。 這意味著Codex在處理小型、定義明確的請求或與它聊天時會感覺更敏捷 , 并且在處理大型重構等復雜任務時也能工作更長時間 。
從歷史數據來看 , 包括GPT-5發布之時 , OpenAI僅公布了477個衡量模型解決真實軟件工程任務能力的基準測試集SWE-bench Verified的測試結果 , 這是因為當時部分任務無法在其基礎設施環境中運行 。 如今 , OpenAI已修復了這一問題 , 目前可公布全部500個任務的測試結果 。 GPT-5-Codex在該基準測試中的準確率為74.5% , GPT-5為72.8% 。
OpenAI基于包含來自大型成熟代碼庫的重構風格任務測試了新模型的代碼重構能力 , 涉及Python、Go、OCaml等編程語言 。 GPT-5-Codex在該測試中的準確率為51.3% , GPT-5為33.9% 。
在測試中 , 研究人員發現GPT?5-Codex能夠獨立處理大型復雜任務超過7小時 , 不斷迭代實現、修復測試錯誤并最終交付成功 。
基于OpenAI內部員工的使用情況 , 研究人員發現當按模型生成的token數對用戶交互輪次進行排序時 , 其中生成token數最少的排名最后10%情況中 , GPT-5-Codex使用的token比GPT-5少93.7% 。
排名前10%的情況正好相反 , GPT-5-Codex會進行更多思考 , 在推理、代碼編輯、測試以及迭代上花費的時間是GPT-5的兩倍 。
GPT-5-Codex還可用于執行代碼審查并查找關鍵缺陷 。 審查時 , 它會瀏覽開發者的代碼庫 , 推理依賴關系 , 并運行代碼和測試以驗證正確性 。
OpenAI評估了熱門開源存儲庫中近期提交的代碼審查性能 , 經驗豐富的軟件工程師會在每次提交時評估審查意見的正確性和重要性 。
GPT-5的錯誤評論有約13.7% , GPT-5-Codex僅為4.4% , 高影響力評論占比中GPT-5有39.4% , GPT-5-Codex有52.4% , 每個拉取請求的平均評論數中 , GPT-5平均有1.32條 , GPT-5-Codex有0.9條 。
他們發現 , GPT-5-Codex的意見不太可能出現錯誤或不重要的情況 。
據TechCrunch報道 , OpenAI Codex產品負責人Alexander Embiricos在一次簡報會上稱 , GPT-5-Codex性能提升很大程度上得益于其動態思考能力 。 用戶可能熟悉ChatGPT中GPT-5的實時路由器(Real-timerouter) , 它會根據任務的復雜性將查詢定向到不同的模型 , GPT-5-Codex的工作原理類似 , 但沒有內置路由器 , 可以實時調整任務的處理時長 。 與路由器相比 , 這是一個優勢 , 因為路由器一開始就決定了要用多少計算能力和時間來解決一個問題 , 而GPT-5-Codex可以在問題開始五分鐘后就決定需要再花一個小時 。
OpenAI的官方博客也提到 , 與通用模型GPT-5不同 , 他們建議開發者僅在Codex或類似Codex環境中執行智能體編程任務時使用GPT-5-Codex 。

二、三大核心改進 , 智能體編程工作流更自動化此外 , OpenAI最近還進行了一些更新 , 包括改進的Codex CLI和新的Codex IDE擴展 。
首先是針對Codex CLI 。
基于開源社區對Codex CLI的反饋 , OpenAI圍繞智能體編程工作流重建了Codex CLI 。 現在 , 開發者可以直接在CLI中附加和共享圖像 , 包括屏幕截圖、線框圖和圖表等 , 從而構建基于設計決策的共享上下文 , 并準確獲取所需內容 。
在處理更復雜的工作時 , Codex現在可以使用待辦事項列表跟蹤進度 , 并包含網頁搜索和MCP等用于連接外部系統的工具 , 從而整體上提高工具使用準確性 。
終端用戶界面的升級包括工具調用和差異顯示格式更佳、更易于理解 。
審批模式簡化為三個級別:只讀(需明確審批)、自動(需完全訪問工作區但需在工作區外審批)以及完全訪問(可在任意位置讀取文件并通過網絡訪問運行命令) 。 其還支持壓縮對話狀態 , 方便開發者管理較長的會話 。
其次是Codex IDE擴展 。
這一IDE擴展可將Codex智能體接入VS Code、Cursor以及其他基于VS Code衍生的編輯器 , 允許其與Codex共同預覽本地代碼變更、協同編輯代碼 。
當開發者在IDE中使用Codex時 , 只需輸入更簡短的指令就能獲得結果 , 這是因為Codex可利用上下文信息 , 例如開發者已打開的文件或選中的代碼片段 。
Codex IDE擴展允許開發者在云端環境與本地環境之間切換工作流 , 開發者無需離開編輯器 , 就能創建新的云端任務、跟蹤正在進行中的工作、查看已完成的任務 。
若需對代碼進行收尾調整 , 其還可以在IDE中直接打開云端任務 , 且Codex會完整保留相關上下文信息 。
此外 , OpenAI還一直在提升云基礎設施的性能 , 通過緩存容器 , 其將新任務和后續任務的平均完成時間縮短了90% 。 Codex現在可以通過掃描并執行常用的安裝腳本來自動設置環境;借助可配置的互聯網訪問權限 , 在運行時根據需要執行像pip install這樣的命令來獲取依賴項 。
與CLI和IDE擴展中一樣 , 開發者現在可以通過上傳圖像的方式 , 向Codex共享前端設計規范 , 如界面原型圖、視覺稿 , 或上傳界面錯位、樣式異常的截圖說明UI漏洞 。
Codex構建前端內容時 , 可以自行啟動瀏覽器查看已構建的效果并進行迭代優化 , 最終會將結果截圖附加到對應任務以及GitHub拉取請求中 。
在代碼審查中 , Codex可以被用于發現關鍵缺陷 。
與靜態分析工具不同 , 它可以將拉取請求中聲明的開發意圖與實際差異進行匹配 , 結合整個代碼庫及依賴項展開推理分析 , 并通過執行代碼與測試用例來驗證實際運行行為 。
一旦開發者在某個GitHub庫啟用了Codex , 當拉取請求從草稿狀態轉為就緒狀態時 , Codex就會自動對其進行審查 , 并將分析結果發布在該拉取請求上 。
如果Codex建議進行修改 , 開發者可以在同一個對話線程中讓Codex直接實施這些修改 。
開發者也可以在拉取請求中明確提及@codex review來請求審查 , 例如@codex review for security vulnerabilities(讓Codex審查安全漏洞)或@codex review for outdated dependencies(讓Codex審查過時的依賴項) 。
Codex目前已在OpenAI內部 , 被用于審查其絕大多數的拉取請求 , 每天能發現數百個問題 , 而且往往是在人工審查開始之前就已發現 。

結語:AI編程工具競爭白熱化當下 , AI編程工具的競爭已經變得愈發激烈 , 既有OpenAI Codex、Claude Code、Anysphere Cursor、微軟GitHub Copilot幾大產品進場廝殺 , 還有Cursor年度經常性收入(ARR)在2025年初就超過5億美元 , 更有AI代碼編輯器Windsurf遭遇一場混亂收購 , 導致其團隊被谷歌和Cognition兩家公司瓜分 。
OpenAI Codex此次升級 , 發布專門為智能體編程優化的全新模型 , 使得其自動化編程以及與用戶協作的能力都大幅提升 , 證明了AI編程工具競賽的激烈程度持續升溫 。

    推薦閱讀