GPT-5.2性能爆表,但紅色警報沒有解除

GPT-5.2性能爆表,但紅色警報沒有解除

文章圖片

GPT-5.2性能爆表,但紅色警報沒有解除

文章圖片

GPT-5.2性能爆表,但紅色警報沒有解除

文章圖片

GPT-5.2性能爆表,但紅色警報沒有解除


就在剛剛 , ChatGPT-5.2發布了 。
這是OpenAI成立以來 , 首次發布紅色警報(Code Red)后的第一款產品 。
雖然在時間上 , GPT-5.2只跟5.1相隔了一個月 。 但是從公布的性能數據來看 , GPT-5.2較上一代提升巨大 , 而且遠超谷歌和Anthropic的同期產品 。
然而OpenAI的紅色警報并未因此解除 , 這家公司仍處于危機之中 。
究其原因 , 現在的市場已經逐漸開始對OpenAI祛魅 , 而是更冷靜地審視每一分算力背后的投入產出比 。 在這種前所未有的環境之下 , OpenAI不僅需要證明自己是最強的 , 還需要證明自己不可被替代 。
01
首先要說的 , 就是GPT-5.2的數學能力 。
長期以來 , 業界普遍認為大語言模型雖然能寫代碼、能聊天 , 但在嚴格的數學推理上總是差強人意 。 這次GPT-5.2 Thinking在AIME 2025數學競賽中拿到了100%的滿分 。

AIME是美國數學邀請賽 , 題目難度遠超普通高中數學 , 需要扎實的數學功底和靈活的解題思路 。 GPT-5.2能在這樣的測試中全部答對 , 說明它在數學推理上已經達到了相當高的水平 。
在更高難度的FrontierMath測試中 , GPT-5.2 Thinking解決了40.3%的專家級數學難題 。 這個測試專門針對前沿數學研究設計 , 許多題目連專業數學家都需要花費大量時間思考 。 能解決其中40%的問題 , 已經展現出在輔助科學研究方面的潛力 。
除了推理和數學 , GPT-5.2在專業工作領域也表現突出 。
在OpenAI新推出的GDPval基準測試中 , GPT-5.2 Thinking在涵蓋44種職業的知識工作任務上 , 有70.9%的情況下擊敗或打平了頂尖行業專家 。
這些任務包括制作演示文稿、構建復雜的財務模型、撰寫專業文檔等 。 OpenAI表示 , 它完成這些任務的速度是人類專家的11倍以上 , 成本卻不到1% 。
在軟件工程方面 , GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的準確率 , 在SWE-bench Verified上達到80% 。 這些測試評估的是模型在真實代碼庫中修復bug、實現新功能的能力 。
早期測試者反饋 , 它在前端開發和復雜UI實現上尤其出色 , 甚至能夠根據一條提示就生成包含3D效果和物理模擬的完整應用 。
GPT-5.2在長文檔理解上也有明顯進步 。 在OpenAI的MRCRv2測試中 , 它成為首個在256k token長度下 , 針對4-needle變體任務達到近乎100%準確率的模型 。
這意味著用戶可以上傳數百頁的報告、合同或研究論文 , 模型仍能準確理解分散在不同位置的相關信息 , 并進行綜合分析 。

在視覺理解方面 , GPT-5.2的錯誤率在圖表推理和軟件界面理解任務上幾乎減半 。 它對圖像中物體的空間位置有了更準確的把握 。
OpenAI展示了一個例子:即使輸入一張模糊的主板照片 , GPT-5.2也能準確識別出各個組件的位置并標注邊界框 , 而前代模型只能識別出少數部分且位置偏差較大 。

此次發布包含三個版本 。 GPT-5.2 Instant定位為日常工作的快速助手 , 適合信息查詢、技術寫作和翻譯等任務 。 GPT-5.2 Thinking專注于深度推理 , 在編程、數據分析和復雜文檔處理上表現最佳 , 是專業工作的首選 。 GPT-5.2 Pro則是最智能的版本 , 適合那些\"值得等待高質量答案\"的高難度問題 。
同時這次發布最引人注目的 , 不僅是模型本身的能力提升 , 更是一個令人驚訝的效率數據:在ARC-AGI-1測試中 , GPT-5.2 Pro實現了約390倍的效率改進 。
一年前 , OpenAI曾驗證過一個未發布的o3預覽版本 , 在ARC-AGI-1測試中達到88%的準確率 , 但每個任務的成本約為4500美元 。 如今 , GPT-5.2 Pro不僅將準確率提升至90.5% , 還將單任務成本降至11.64美元 。 這種量級的效率提升 , 意味著原本只能在實驗室中演示的能力 , 現在有可能真正走向實際應用 。

ARC-AGI測試被設計用來衡量抽象推理能力 , 它要求模型在面對從未見過的模式時 , 仍能找出規律并給出答案 。 這種能力接近人類所謂的“舉一反三” 。
GPT-5.2 Pro在ARC-AGI-1驗證集上的表現 , 使其成為首個突破90%門檻的模型 。 在難度更高的ARC-AGI-2上 , GPT-5.2 Thinking也達到了52.9%的準確率 , 創下了鏈式思維模型的新紀錄 。
02
GPT-5.2是奧特曼啟動Code Red后的一次強有力證明 , 但競爭的結果不會由單一基準測試決定 。 真正的較量在于誰能更好地理解用戶需求 , 誰能在保持技術領先的同時控制成本 , 誰能在不同應用場景中提供更可靠的服務 。
一個來自GitHub的開源基準測試給出了答案 。 在lechmazur維護的NYT Connections測試中 , GPT-5.2的表現并不如預期 。

NYT Connections是《紐約時報》推出的一個文字游戲 , 要求玩家從16個詞語中找出四組相關的詞匯 。 這個測試被設計成了一個LLM基準 , 通過加入額外的干擾詞來增加難度 , 目前包含759個謎題 。 這種測試考察的是模型對語言的細微理解、聯想能力和分類推理 。
在這個排行榜上 , Gemini 3 Pro Preview以96.8%的準確率位居第一 。 緊隨其后的是xAI的Grok 4.1 Fast Reasoning , 準確率為93.5% 。 OpenAI的模型中 , 表現最好的是GPT-5 Pro , 準確率為83.9% , 排在第八位 。 GPT-5.2在高推理模式下的準確率為77.9% , 排名第11位 。
這個結果多少有些出人意料 。 GPT-5.2在數學競賽中能拿滿分 , 在專業工作任務中能超越人類專家 , 但在這個看似簡單的文字游戲上 , 卻落后于競爭對手近20個百分點 。
深入分析會發現 , 這并不是簡單的性能問題 。 NYT Connections測試的是模型對語言文化背景的理解 , 對詞語之間隱含關聯的把握 , 以及在多個可能性中做出合理選擇的能力 。
比如BANK、INTEREST、RATE、LOAN可能組成金融類別 , 也可能BANK與SHORE、BEACH、COAST組成河岸類別 。
模型需要同時考慮多個維度的關聯 , 并找到最合理的分組方式 。
Gemini 3 Pro在這個測試上的領先 , 說明谷歌在語言理解的某些維度上確實有獨到之處 。 Grok系列模型的表現也值得注意 , xAI雖然起步較晚 , 但在特定任務上已經展現出競爭力 。
有趣的是 , 測試數據還顯示 , 在最新的100個謎題中 , 各模型的排名基本保持一致 , 這說明訓練數據污染的可能性不大 。 模型之間的差距是實質性的 , 而非來自對題目的記憶 。
這個測試的存在 , 給AI社區提供了一個更全面的視角 。 模型能力的評估不應該只看幾個主流基準測試 , 也需要關注那些看似邊緣但實則反映深層能力的測試 。
NYT Connections考察的聯想和分類能力 , 在實際應用中同樣重要 , 比如在信息檢索、內容推薦、知識圖譜構建等場景中 。
從這個角度看 , 奧特曼的Code Red警報確實還不能解除 。 雖然GPT-5.2在很多領域表現出色 , 但它并沒有在所有維度上都取得領先 。 競爭對手在某些方向上依然保持著優勢 , 甚至在擴大差距 。
03
技術競爭最終要落到商業層面 。 OpenAI在市場上的處境 , 比技術指標的對比要復雜得多 。
從定價策略來看 , GPT-5.2在API層面的價格定在每百萬輸入token 1.75美元 , 每百萬輸出token 14美元 , 比前代GPT-5.1分別貴了40% 。
GPT-5.2 Pro價格也提高了 , 每百萬輸入token 21美元 , 每百萬輸出token 168美元 。

這個漲價幅度不小 , OpenAI的解釋是新模型能力更強 , 性價比實際上更高 。 但對于大量調用API的開發者來說 , 成本的增加是實實在在的 。
相較之下 , Gemini 3 Pro的核心型號為gemini-3-pro-preview , 其token定價按上下文窗口長度區分 , 提示詞≤20 萬 token 時 , 輸入每百萬token 2美元、輸出每百萬token 12美元 , 提示詞>20萬token時 , 輸入和輸出價格分別翻倍至每百萬token 4美元和18美元 。
Claude 方面 , 最新的 Opus 4.5定價大幅下調 , 輸入每百萬token 5美元、輸出每百萬token 25美元 , 相比前代降幅約2/3 , 上下文窗口為200K token , 且無長上下文加價情況 。
當競爭對手們如Gemini和Claude都在通過大幅降價 , 試圖讓AI變成像水電一樣廉價的基礎設施時 , OpenAI 卻反其道而行之 , 不僅沒有參與價格戰 , 反而坦然地掛出了高昂的價格標簽 。 這只能說明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品” 。
在商業邏輯中 , 奢侈品的定義往往不在于“有用” , 而在于“稀缺”和“極致” 。 OpenAI 正在賭 , 賭這個世界上存在一部分最高端的智力需求 , 它們對價格不敏感 , 但對質量有著近乎偏執的要求 。
對于這部分用戶 , 只要能提供那個唯一的、最正確的答案 , 168美元的價格不僅不貴 , 反而是一種身份和能力的篩選 。
這或許才是“紅色警報”在商業層面的真正回響 。 它不再是擔心落后 , 而是擔心平庸 。
OpenAI正在進行一場危險的博弈:它試圖通過高價策略 , 將自己與“普通 AI”徹底區隔開來 , 建立起類似愛馬仕或蘋果那樣的品牌護城河 。
但這也意味著 , 它從此失去了“差不多就行”的容錯空間 。 可問題就在于一旦這件昂貴的“奢侈品”在實際體驗中無法提供碾壓式的優越感 , 那么用戶轉身離開的速度 。
【GPT-5.2性能爆表,但紅色警報沒有解除】況且 , 能挽救OpenAI的遠不止一個高性能的模型那么簡單 , 奧特曼現在需要的 , 是一個足夠動人的新故事 。

    推薦閱讀