GPT-5.4養龍蝦太貴?OpenAI自己出手砍到了一折

GPT-5.4養龍蝦太貴?OpenAI自己出手砍到了一折

文章圖片

GPT-5.4養龍蝦太貴?OpenAI自己出手砍到了一折

文章圖片

GPT-5.4養龍蝦太貴?OpenAI自己出手砍到了一折

文章圖片



最近OpenClaw可以說是火遍了大江南北 。 各大廠商都說自己的模型如何支持小龍蝦 , 唯獨沒人推薦ChatGPT 。
事實上OpenAI才收購了OpenClaw 。
原因就一個“貴” 。
讓AI幫你完成一個稍微復雜的任務 , 比如自動化處理一批客戶郵件 , 背后可能要調用模型幾十上百次:理解意圖、檢索信息、生成草稿、校對潤色、逐封發送……如果每一步都調用滿血版GPT-5.4 , 一輪操作下來 , 飼料費(token)比蝦本身還貴 。
特別是隨著OpenClaw這類agent框架的爆發 , AI的工作模式已經發生了根本性轉變:從前我們向AI提問 , 它盯著問題想很久 , 然后吐出一長串文字;現在AI面對一個復雜任務 , 要將其拆解成微小步驟分步推進 。 每一步都調用旗艦大模型 , 不僅延遲讓人崩潰 , 成本也會高到離譜 。
在這種背景下 , OpenAI正式發布GPT-5.4 mini與nano兩款小型模型 , 并宣稱其為公司“迄今最強大的小型模型” 。
麻雀雖小五臟俱全 , 不要小瞧這兩個小玩意 , 不僅GPT-5.4核心的優勢和能力它們繼承了下來 , 同時還更快、更省資源 , 并且適合于大批量、高頻率的AI任務調用 。
【GPT-5.4養龍蝦太貴?OpenAI自己出手砍到了一折】OpenAI貌似是覺得mini還不夠小 , 所以做出了更輕量的nano 。
nano是GPT-5.4最輕量、最快速的版本 , 專為對速度和成本要求極高的任務而設計 。
事實就是 , 用單一模型處理所有事務性價比太低 , 經常陷入高射炮打蚊子的境況 , 不如調整成大模型決定任務方向 , 小模型進行大規??焖賵绦械姆桨?。
OpenAI自家的Codex就是這么干的 。
一個主模型負責理解任務意圖、拆解步驟 , 然后調度mini/nano級別的子agent去執行具體的代碼修改、測試運行、結果校驗 , 每個子任務只消耗極低的成本 。
大模型就像坐鎮中軍、運籌帷幄的主帥 , 只抓頂層戰略、調度全局資源 。 小模型則是無數支精銳輕騎 , 身形輕便、行動迅捷、批量奔赴前線 , 專一完成細分任務 。
01
OpenAI為什么這么做
mini和nano在價格上確實“mini”以及“nano” 。 要理解OpenAI為什么押注輕量化 , 先看看這兩款模型到底便宜到什么程度 。
mini和nano均支持 400k tokens 的上下文窗口 。 在輸入價格上 , GPT-5.4旗艦版是2.5 美元/百萬token , mini版是0.75美元/百萬 token , nano版更是夸張 , 僅0.2美元/百萬token , 輸入成本僅為旗艦模型GPT-5.4的8% 。
而輸出價格上 , GPT-5.4是15美元/百萬 token , mini版約為它的1/3(4.5 美元) , nano版約為它的1/12(1.25 美元) 。
換句話說 , OpenAI用戶們的賬單直接砍到了零頭 。

價格只是表象 , 真正驅動OpenAI做這件事的 , 是整個行業的使用趨勢已經發生了根本性轉向 。
輕量化小模型主要有調用成本低、響應快這兩大特征 , 不少證據表明小模型已經成為當前AI落地最具性價比、最具增長潛力的選擇 。
在OpenRouter本月度最受歡迎LLM排行榜前十中 , 輕量化模型占到了6個席位 , 它們參數量普遍集中在數十億至數百億級別 , 和Claude Opus這類動輒數千億甚至萬億參數的通用旗艦大模型形成鮮明的差異 。
榜單Top 2席位被輕量化小模型包攬 , 第1名MiniMax M2.5以8.29T tokens的調用量斷層領跑全榜 , 月度漲幅高達 476%;第2名Google Gemini 3 Flash Preview , 調用量也達到4.24T tokens , 遠超多數通用旗艦大模型 。

Hugging Face Hub的模型下載量統計同樣印證了這一趨勢:92.48%的下載量來自少于10億參數的模型 , 86.33% 為5億以下 , 69.83% 為2億以下 。
大模型也進入了薄利多銷的時代 。
1B+參數量的模型 , 即便包含多款輿論熱度極高的開源大模型 , 整體下載占比僅為7.52% , 不足輕量化模型的十分之一 , 這說明大模型的高關注度 , 似乎并未轉化為真實的落地與采用 。

從OpenAI自身的商業賬本來看 , 做小模型更是一道必答題 。
今年2月底 , OpenAI宣布ChatGPT全球每周活躍用戶已突破9億 , 付費用戶約5000 萬 , 付費轉化率僅約5%左右 , 絕大多數用戶仍停留在免費版本 。 這也成為其未來商業化最核心的增長空間 。
絕大多數的C端付費用戶 , 核心使用場景是日常對話、文案潤色、信息檢索、輕量代碼編寫等高頻輕量需求 。
這類場景完全不需要GPT-5.4這類旗艦大模型的極限復雜推理能力 , 百億級以內的輕量化小模型足以覆蓋大部分需求 , 同時又能提供毫秒級響應、無排隊等待的使用體驗 , 完美匹配絕大多數用戶的核心訴求 。
說了這么多“為什么” , 接下來看看這兩款模型到底交出了怎樣的答卷——畢竟 , 飼料便宜了 , 蝦的個頭要是也縮水了 , 那就不叫降本增效 , 叫偷工減料 。
02
mini、nano能力幾何
mini和nano的優勢就只是小和便宜嗎?
No No No
根據OpenAI官網的一系列跑分測試 , 可以說它們能力表現也很突出 。
在業內公認最權威的AI程序員測試SWE-bench Pro 中 , GPT-5.4 mini的準確率達到了54.4% , 表現極具殺傷力 , 逼近滿血版GPT-5.4的57.7% 。
GPT-5.4 nano的準確率為52.4% , 再考慮到它極低的成本 , 非常適合作為快速迭代的代碼審查和輔助子agent 。
以下兩張圖表看得更直觀 , 橫軸分別代表模型的響應時長和所用成本 , 縱軸均表示模型在任務中的準確率 。
GPT-5.4雖然準確率穩居第一 , 但是在橫軸上卻延伸了太遠 , 也就是不僅思考久 , 燒的錢還多 。 而nano和mini的折線則整體居于坐標圖左側 , 標志了它們極高的性價比 。

它們只是犧牲了一點點終極的邏輯上限 , 就換來了極快的響應速度和極低的成本 。
對此 , 不少網友戲稱:小龍蝦的飼料費終于被打下來了 。
的確 , mini和nano未來可能會成為養蝦的主流API選擇 。
在OSWorld-Verified(真實電腦環境操作測試)中 , GPT-5.4 mini達到了72.1%的準確率 , 幾乎追平了滿血旗艦版的75% 。

這項測試主要是讓AI像人一樣 , 通過看顯示器、動鼠標、敲鍵盤來使用一臺真的電腦 , 包括使用Chrome、Office、VS Code等軟件 。
這才是OpenClaw等agent玩家最看重的指標 。
過去讓AI操控電腦 , AI經常會瞎點或者反應遲鈍 。 mini版本的這個高分意味著 , 它識別按鈕、滑塊、輸入框的精度極高 , 在一些自動化任務上可以更加得心應手 。
然而 , 也不是所有場景都適合用小模型 。
nano模型在OSWorld-Verified上的得分僅為39.0% , 甚至低于上一代GPT-5 mini的42.0% 。
這意味著在需要精細操控電腦界面的復雜任務上 , nano還力有不逮 。
同樣 , 對于需要深度推理、長鏈條邏輯的高難度任務 , 旗艦版GPT-5.4仍然不可替代 。
小模型的價值不在于取代大模型 , 而在于和大模型搭配使用——把對的模型放在對的位置 , 才是子agent架構真正的精髓 。
這也恰恰是nano和mini發布的深層意義 , 它們不是來搶旗艦版飯碗的 , 而是來幫旗艦版分擔那些“高射炮打蚊子”的活兒 。
當大模型不再需要親自處理每一個瑣碎步驟 , 整個系統的效率和成本結構都會發生質變 。
OpenAI想打的不是一場簡單的價格戰 , OpenAI內心OS是這樣的:“我可以每個token少賺你點錢 , 但是我要讓你多用我的小模型 , 把總收入抬上去 。 ”
典型的薄利多銷 。
過去“便宜”是國產模型的護城河 , 可是這道護城河正在被填平 。 對普通開發者和企業用戶而言 , AI可能很快就會變成各行各業用得起、跑得快的新基礎設施 。
小龍蝦的飼料費打下來了 , 養蝦的門檻也在悄悄降低 。 接下來的問題是:誰能養出最肥的蝦?

    推薦閱讀