剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

文章圖片

剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

文章圖片

剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

文章圖片

剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

文章圖片

剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

文章圖片

剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

機器之心報道
編輯:Panda
凌晨 1 點 , OpenAI 發布了 GPT-5-Codex 。
從名字也能看出來 , 這是針對智能體編程任務進行了專門優化的 GPT-5 。 OpenAI 博客介紹說 , GPT-5-Codex 的訓練重點放在真實的軟件工程任務上 。 它既能在短時間的交互式會話中快速響應 , 也能獨立完成冗長復雜的任務 。 它的代碼審查(code review)能力可以在代碼上線前發現關鍵漏洞 。

GPT-5-Codex 已經在 Codex 的所有使用場景中上線 , 包括 Codex CLI、IDE 擴展、網頁端、移動設備以及 GitHub 中的代碼審查 。 它是云端任務和代碼審查的默認模型 , 開發者也可以通過 Codex CLI 或 IDE 插件 , 在本地任務中選擇使用它 。 順帶一提:Codex 已包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 訂閱中 。
發布兩個半小時后 , OpenAI CEO 山姆?奧特曼激動地表示 GPT-5-Codex 的流量已經占到了 Codex 流量的 40% 左右 , 并且他預計該模型在今天之內就將成為 Codex 的流量主體 。

OpenAI 表示:「自從 4 月推出 Codex CLI、5 月推出 Codex Web 以來 , Codex 已逐步演變成更高效的編程助手 。 兩周前 , 我們把 Codex 整合成一個統一的產品體驗 , 并與 ChatGPT 賬號打通 。 這樣 , 你可以無縫切換本地環境和云端任務 , 不會丟失上下文 。 」
該模型一發布就收獲了諸多好評 , 甚至有人表示這是「自切片面包發明以來最好的東西」 。

OpenAI 已經以附錄形式將 GPT-5-Codex 加入了 GPT-5 系統卡 。

地址:https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/
下面我們就來更詳細地了解一下 GPT?5-Codex 。
GPT?5-Codex
GPT-5-Codex 重點優化了在真實工程場景中的自主式(agentic)軟件工程能力 。
它接受過完整項目構建、功能開發、測試編寫、調試、大規模重構和代碼審查等復雜任務的訓練 。 相比 GPT-5 , 它更易于控制 , 遵循 AGENTS.md 的指令更好 , 代碼質量更高 。 OpenAI 表示:「你只需要告訴它想要什么 , 而不用寫冗長的風格說明 。 」
其在 SWE-bench Verified(軟件工程)和 Code refactoring tasks(代碼重構)兩個基準上的準確度表現都優于 GPT-5 (high) 。

值得一提的是 , OpenAI 在 SWE-bench Verified 上的成績這一次終于使用了該數據集中所有的共 500 個任務 , 而不是像之前那樣只使用了 477 個任務(曾因此備受批評) , OpenAI 聲稱之前只使用 477 個任務的原因是「有部分任務無法在基礎設施上運行 , 而現在這一問題已解決 。 」
至于另一個代碼重構基準 Code refactoring tasks 則包含許多來自大型成熟軟件庫的重構任務 , 覆蓋 Python、Go、OCaml 等語言 。 比如 Gitea 的一個 PR , 就修改了 232 個文件、3541 行代碼 , 為應用邏輯引入 ctx 變量 。
GPT-5-Codex 不僅性能更優 , 也能根據任務復雜度動態調整思考時間 。
它結合了兩種關鍵能力:一是與開發者配合的交互式會話 , 二是對長任務的持久自主執行 。
在處理小型請求或對話時 , GPT-5-Codex 反應更快;而在處理復雜任務(如大型重構)時 , 它能持續工作更久 。 OpenAI 表示:「在測試中 , 我們看到 GPT-5-Codex 能獨立運行超過 7 小時 , 不斷迭代實現、修復測試 , 最終交付可用代碼 。 」
OpenAI 還分享了他們的 內部使用數據:
用戶請求中 , 用戶交互中 token 數量(包括隱藏的推理和最終的輸出)最少的 10% 情況下 , GPT-5-Codex 的 token 消耗比 GPT-5 少 93.7% 。 用戶交互中 token 數量最多的 10% 情況下 , 它會投入更多時間 , 進行更深入的推理、編輯、測試和迭代 。
GPT-5-Codex 也專門訓練了代碼審查能力 , 可以主動發現關鍵漏洞 。 它會遍歷代碼庫 , 分析依賴 , 并運行代碼和測試來驗證正確性 。 OpenAI 用熱門開源項目的最新提交(commit)做了評估 , 并讓經驗豐富的工程師進行了驗證 , 結果發現:GPT-5-Codex 的審查意見更少出現錯誤或無關內容 , 更能把注意力集中在關鍵問題上 。

在前端任務上 , GPT-5-Codex 表現可靠 。 它能生成美觀的桌面應用 , 也在移動網站的偏好測試中顯著提升 。 云端環境下 , 它還能讀取你上傳的圖片或截圖 , 檢查自己的進度 , 并把結果截圖返回 。
GPT-5-Codex 針對 Codex CLI、IDE 插件、云環境和 GitHub 進行了深度優化 , 同時也支持多種工具調用 。 不過 OpenAI 也指出:「與通用的 GPT-5 不同 , 我們建議只在 Codex 或類似場景下使用 GPT-5-Codex 。 」
Codex 更新
除了發布 GPT-5-Codex , OpenAI 今天還宣布了 Codex 的一些升級 , 包含全新設計的 Codex CLI 以及新的 Codex IDE 插件 。
Codex CLI
Codex CLI 是開源的 。 過去幾個月里 , OpenAI 基于社區反饋重新設計了 CLI , 讓它更適合「自主編程」的工作流 , 使模型能成為更強大、更可靠的搭檔 。
現在用戶可以在 CLI 中直接添加圖片 , 例如截圖、線框圖和設計圖 。 這樣可以建立共享上下文 , 讓設計決策更清晰 , 并更容易得到符合預期的結果 。
在處理復雜任務時 , Codex 會用待辦清單(to-do list)跟蹤進度 , 還支持 web 搜索 和 MCP 等外部系統連接工具 , 整體的工具調用更準確 。
終端界面也升級了:工具調用和代碼差異現在格式更清晰 , 更容易閱讀 。

批準模式(approval mode)簡化為三種:
只讀:需要明確批準才能修改; 自動:擁有完整工作區權限 , 但在工作區外仍需批準; 完全訪問:可以讀取任意文件 , 并在有網絡訪問的情況下運行命令 。CLI 還支持壓縮對話狀態 , 方便管理更長的會話 。
Codex IDE 插件
Codex 也能在 IDE 中直接使用 。 這個插件支持 VS Code、Cursor 以及其他 VS Code 分支 。 它能把 Codex 帶進編輯器 , 讓用戶能無縫預覽本地改動 , 并直接用 Codex 修改代碼 。

OpenAI 介紹了在 IDE 中使用 Codex 的幾個優勢:
你可以寫更簡短的提示詞 , 得到更快的結果 , 因為 Codex 會自動利用上下文 , 例如你打開的文件或選中的代碼 。 你可以在云端和本地環境之間流暢切換 。 比如 , 在編輯器里直接創建云端任務、跟蹤進行中的工作或審查已完成的任務 。 如需要調整 , 你可以在 IDE 中直接打開云端任務 , Codex 會保留上下文 。云端的 Codex
除了 CLI 和 IDE 插件 , 新的 GitHub 集成也讓 Codex 的云端智能體更貼近開發者的日常工作流 。 用戶無需離開編輯器或 GitHub , 就能把任務交給 Codex 。

OpenAI 表示 , 他們也一直在幕后不斷提升云端性能 , 包括:
通過緩存容器(caching containers) , 新任務和跟進任務的完成時間縮短了 90% 。 Codex 會自動檢測常見的初始化腳本并執行 , 幫你完成環境配置 。 在配置了網絡權限后 , 它還能在運行時執行 pip install 等命令 , 安裝所需依賴 。和 CLI、IDE 一樣 , 云端 Codex 也支持使用圖片 。 你可以上傳前端設計規范或 UI bug 截圖 。 Codex 會在瀏覽器里運行自己生成的內容 , 檢查效果 , 并把截圖附在任務或 GitHub PR 中 。
代碼審查
Codex 現在也支持代碼審查功能 , 可以發現關鍵缺陷 。 和靜態分析工具不同 , Codex 會:
對比 PR 的目標和實際改動 , 分析整個代碼庫和依賴關系 , 運行代碼和測試來驗證行為 。這種審查力度 , 通常只有最仔細的人類工程師才能做到 。 Codex 正好補上這一缺口 , 幫助團隊更早發現問題 , 減輕審查負擔 , 讓上線更放心 。

在 GitHub 上啟用后:
當 PR 從草稿變為可審查狀態時 , Codex 會自動給出分析 。 如果它建議修改 , 你可以直接在同一討論線程里讓它實現 。 你也可以手動請求審查 , 比如在 PR 里輸入 「@codex review」 , 甚至給額外指令 , 如 「@codex review for security vulnerabilities」(檢查安全漏洞)或 「@codex review for outdated dependencies」(檢查過時依賴) 。OpenAI 表示:「在 OpenAI 內部 , Codex 已經審查了我們絕大多數 PR , 每天能發現數百個問題 , 很多在人工審查開始之前就已經被攔下 。 這讓團隊能更快推進 , 同時保持信心 。 」
OpenAI 如何讓 Codex 更安全?
OpenAI 還介紹了在開發 Codex 時對代碼與數據安全的保護措施 , 他們也部署了一些防范潛在濫用的手段 。
默認沙箱環境:無論本地還是云端 , Codex 默認運行在沙箱環境中 , 且關閉網絡訪問 。 這可以避免它在你的電腦上執行有害操作 , 也能減少來自不可信來源的提示詞注入風險 。 權限機制:在執行可能危險的操作前 , Codex 會請求許可 。 它也經過訓練 , 會運行命令來驗證自己的輸出 。 可配置的安全設置:開發者可以根據風險承受度調整設置 。 在云端 , 可以限制網絡訪問只允許可信域名;在 CLI 和 IDE 插件中 , 開發者可以決定是否批準 Codex 運行命令 , 或允許它使用網頁搜索、連接 MCP 服務器 。 這樣能擴展能力 , 但也會增加風險 。OpenAI 也給出了建議:「我們始終建議開發者在上線前先檢查 Codex 的工作結果 。 Codex 會在每個任務中提供引用、終端日志和測試結果 , 方便人工驗證 。 」但 OpenAI 也強調:Codex 應作為附加審查者 , 而不是完全取代人工審查 。
和 GPT-5 一樣 , OpenAI 依然將 GPT-5-Codex 在生物與化學領域的任務歸類為 High 能力 , 并采取了相應的安全措施 , 以盡量減少潛在風險 。
價格與可用性
Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 訂閱中 。
Plus、Edu、Business 用戶:每周可覆蓋幾次集中的編程會話 。 Pro 用戶:支持一整周、多個項目的完整工作量 。 Business 計劃:可以額外購買積分 , 突破默認上限 。 Enterprise 計劃:提供共享積分池 , 按實際使用付費 。【剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目】目前用戶還無法通過 API Key 使用 Codex CLI , 但 OpenAI 也表示很快(soon)將通過 API 開放 GPT-5-Codex 。

    推薦閱讀