【OpenAI 發(fā)布最強(qiáng)編程模型 GPT-5.1】DoNews11月20日消息 , OpenAI 11 月 19 日宣布推出 GPT-5.1-Codex-Max 智能體編程模型 , 顯著提升了長(zhǎng)遠(yuǎn)推理能力、效率和實(shí)時(shí)交互能力 。 此外該模型將取代 GPT-5.1-Codex , 成為 Codex 集成界面上的默認(rèn)模型 。
此次發(fā)布緊隨谷歌 Gemini 3 Pro 之后 , 但在多個(gè)關(guān)鍵編程基準(zhǔn)測(cè)試中 , Codex-Max 展現(xiàn)出更強(qiáng)的實(shí)力 。 例如 , 在衡量解決實(shí)際軟件問題的 SWE-Bench Verified 測(cè)試中 , Codex-Max 以 77.9% 的準(zhǔn)確率小幅領(lǐng)先于 Gemini 3 Pro 的 76.2% 。
Codex-Max 在 Terminal-Bench 2.0 測(cè)試中也領(lǐng)先 , 準(zhǔn)確率達(dá)到 58.1% , 而 Gemini 的準(zhǔn)確率為 54.2%;在 LiveCodeBench Pro(一項(xiàng)競(jìng)爭(zhēng)激烈的編碼 Elo 基準(zhǔn)測(cè)試)測(cè)試中 , 它的得分與 Gemini 的 2439 分持平 。
GPT-5.1-Codex-Max 的一項(xiàng)重大架構(gòu)升級(jí)是引入了名為“壓縮”(Compaction)的機(jī)制 。 該機(jī)制允許模型在接近其上下文窗口限制時(shí) , 智能地保留關(guān)鍵上下文信息并丟棄無關(guān)細(xì)節(jié) , 從而實(shí)現(xiàn)跨越數(shù)百萬 token 的連續(xù)工作而不會(huì)出現(xiàn)性能下降 。
得益于此 , 該模型在內(nèi)部測(cè)試中已成功完成持續(xù)超過 24 小時(shí)的復(fù)雜任務(wù) , 如多步驟代碼重構(gòu)和自主調(diào)試 。 同時(shí) , 這項(xiàng)技術(shù)還提升了約 30% 的 token 效率 , 有效降低了成本與延遲 。
新模型目前已集成到 OpenAI 自家的多個(gè) Codex 開發(fā)環(huán)境中 , 包括其官方命令行工具(Codex CLI)、內(nèi)部代碼審查工具以及各類交互式編程環(huán)境 。
開發(fā)者可以通過這些工具體驗(yàn)到模型強(qiáng)大的實(shí)時(shí)交互能力 , 例如在可視化界面中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練或模擬光學(xué)定律 。 不過 , GPT-5.1-Codex-Max 尚未通過公共 API 提供 , 但官方表示即將開放 。 普通用戶則需要訂閱 ChatGPT Plus、Pro 或企業(yè)版等付費(fèi)計(jì)劃才能使用 。
OpenAI 透露 , 其內(nèi)部 95% 的工程師每周都會(huì)使用 Codex , 自采用以來 , 這些工程師平均多提交了約 70% 的拉取請(qǐng)求(Pull Requests) , 顯著提升了內(nèi)部開發(fā)速度 。
盡管 Codex-Max 具備高度的自主性 , OpenAI 仍強(qiáng)調(diào)它應(yīng)作為編碼“助手”而非人類的替代品 。 為保證透明度 , 模型會(huì)生成詳細(xì)的終端日志和測(cè)試引用 , 以便開發(fā)者審查和驗(yàn)證其生成的所有代碼 。 此外 , 模型在默認(rèn)情況下運(yùn)行于嚴(yán)格的沙盒環(huán)境中 , 并禁用了網(wǎng)絡(luò)訪問 , 以確保安全性 。
推薦閱讀
- iPhone 18 分批發(fā)布?是產(chǎn)品策略升級(jí)還是無奈之舉?
- 高通第五代驍龍8突然官宣:架構(gòu)細(xì)節(jié)均已清晰,11月26日發(fā)布
- 為企業(yè)而生 鴻蒙電腦企業(yè)版即將發(fā)布
- OceanBase發(fā)布首款A(yù)I數(shù)據(jù)庫seekdb 并全部開源
- 鼎陽科技發(fā)布全新SNA5000B系列矢量網(wǎng)絡(luò)分析儀
- 體系化布局賦能全球算力,GCC發(fā)布二十余項(xiàng)成果 激活A(yù)I產(chǎn)業(yè)新動(dòng)能
- 谷歌凌晨突然發(fā)布Gemini 3,提供先進(jìn)推理功能
- OPPO Reno15系列已正式發(fā)布:兩個(gè)版本,到底有多少區(qū)別?
- 鴻蒙最強(qiáng)折疊屏!余承東首次展示華為Mate X7真機(jī) 邀請(qǐng)網(wǎng)友四字形容
- 榮耀500系列突然官宣:外觀、配置基本清晰,11月24日發(fā)布
