OpenAI開源2個推理模型：筆記本/手機就能跑，性能接近o4-mini_編程

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

金磊發自凹非寺
量子位 | 公眾號 QbitAI
沒能等到GPT-5 ，但OpenAI在深夜卻很突然地open了一下——
開源兩個推理模型：gpt-oss-120b和gpt-oss-20b 。

要知道，上一次OpenAI開源模型還是6年前，也就是2019年的GPT-2 。
而這次的名字也是非常的直接， gpt-oss ，即Open Source Series ，意思就是“開源系列” 。
它們的亮點如下：
gpt-oss-120b：1170億參數（MoE架構，激活參數約51億），可在單張80GB GPU上運行，性能接近閉源的o4-mini 。 gpt-oss-20b：210億參數（Moe架構，激活參數約36億），可在16GB內存的消費級設備上運行，性能接近o3-mini 。并且它倆均采用Apache 2.0許可證，允許商用無需付費或授權。
從性能角度來看， gpt-oss已經達到了開源模型里推理性能的第一梯隊，但在代碼生成和復雜推理任務中仍略遜于閉源模型（如GPT-o3和o4-mini）。

在模型發布的第一時間， Sam Altman在自己的社交平臺上也道出了這倆模型的“價值”：
可以在本地筆記本（20b的可以在手機上）運行；耗資數十億美元的研究成果。

并且蘇媽（Lisa Su）也是幾乎同時出來為Altman站臺，表示“很榮幸成為第0天的合作伙伴” 。

不過有意思的是，在官方HuggingFace介紹中，提及的卻是英偉達的H100……

先看效果在開源動作一個小時后， OpenAI官方還放出了一個實測效果的視頻。

這次講解的人員，分別是在OpenAI負責開發者體驗的Dom和Zhaohan：

他倆是在一臺120G的Macbook Pro上進行的測試，借助Ollama在本地運行120B的gpt-oss（搭了2塊H100）。
二人先小試牛刀，測試了一下gpt-oss在思維鏈中調用工具的能力，即搜索+Python解釋器。
他們在開啟Browser Tool和Python Tool后，在本地提問：
舊金山天氣如何？

可以看到，本地的gpt-oss-120b穩穩地輸出了正確的結果。
在第二個測試例子中，他們讓2個非常大的數字相乘。
在這個過程中，可以看到gpt-oss一次又一次地調用Python工具，雖然中間有出錯的情況，但最終給到了正確的答案。

接下來，二人把網直接斷掉，在本地搞了一個射擊類的小游戲：

同樣是在斷網的情況下，他倆又經過一番操作，將游戲中的圖標變成了草莓的樣式：

整體來看，實測的體感還是比較絲滑的，并且生成速度達到了40-50 tokens/s 。
完整體驗視頻如下：

視頻地址：https://mp.weixin.qq.com/s/bIaUXw9XWR2Sb4dy4i37_Q
再看性能除了實測效果之外， OpenAI也一道發布了gpt-oss相關的技術博客。
整體來看，這兩個模型在工具使用、少樣本函數調用、鏈式思考推理（如Tau-Bench智能評估套件的結果所示）以及HealthBench上表現強勁，甚至超越了包括OpenAI o1和GPT?4o在內的專有模型。
預訓練與模型架構
gpt-oss模型使用的OpenAI最先進的預訓練和后訓練技術進行訓練，特別關注推理、效率和在廣泛部署環境中的實際可用性。
雖然OpenAI已經公開了包括Whisper和CLIP在內的其他模型，但gpt-oss模型是自GPT?2以來的第一個開放權重語言模型。
每個模型都是一個Transformer ，利用專家混合（MoE）來減少處理輸入所需的活躍參數數量。
gpt-oss-120b每個token激活5.1B個參數，而gpt-oss-20b激活3.6B個參數。這些模型分別具有117b和21b的總參數。
這些模型使用類似GPT?3的交替密集和局部帶狀稀疏注意力模式。
為了提高推理和內存效率，模型還使用分組多查詢注意力，組大小為8 。團隊使用旋轉位置嵌入（RoPE）進行位置編碼，并原生支持最長128k的上下文長度。

團隊在主要由英語文本組成的數據集上訓練這些模型，重點關注STEM領域、編程和通用知識。
OpenAI使用一個超集（superset）分詞器對數據進行分詞，該分詞器基于OpenAI o4-mini和GPT?4o使用的分詞器：o200k_harmony ，今天也將開源這一分詞器。
后訓練階段
這些模型采用與o4-mini相似的流程進行了后訓練，包括有監督微調階段和高算力的強化學習階段。
OpenAI的目標是使模型符合OpenAI 模型規范的要求，并在生成答案之前學會使用鏈式思維（CoT）和工具調用。
在后訓練過程中，團隊采用了與OpenAI最先進專有推理模型相同的技術，使這些模型展現出了卓越的能力。
與API中OpenAI o系列推理模型類似，這兩個開源權重模型支持三種推理強度——低、中、高——在延遲與性能之間實現權衡。
開發者可以通過系統提示語中的一句話，輕松設定所需的推理強度。
評估結果團隊對gpt-oss-120b和gpt-oss-20b進行了標準學術基準測試評估，衡量它們在編程、競賽數學、健康問答和Agent工具使用等方面的能力，并與OpenAI的其他推理模型（包括 o3、o3-mini 和 o4-mini）進行了對比。
在競賽編程（Codeforces）、通用問題解決（MMLU和HLE）以及工具調用（TauBench）方面， gpt-oss-120b的表現優于OpenAI的o3-mini ，并達到或超過了o4-mini的水平。

在健康相關問答（HealthBench）和競賽數學（AIME 2024 與 2025）上， gpt-oss-120b的表現甚至超越了o4-mini 。

盡管體積較小， gpt-oss-20b在同樣的評估中也達到了或超過了OpenAI o3-mini的水平，尤其在競賽數學和健康問答方面表現更加出色。

思維鏈
OpenAI最近的研究表明，在模型的鏈式思維（CoT）未經過直接監督對齊訓練的前提下，監測其推理過程的CoT有助于識別不當行為。
遵循自發布OpenAI o1-preview以來的一貫原則，團隊在gpt-oss模型上并未對CoT進行任何形式的直接監督。
OpenAI認為，這一點對于監測模型的不當行為、欺騙行為及濫用情況至關重要。
團隊希望，通過發布一個未經過監督對齊的開源模型，能夠為開發者和研究人員提供機會，自主研究并實現各自的 CoT 監測機制。
開發者不應在其應用中將模型的鏈式思維內容直接展示給用戶。
因為這些內容可能包含虛構或有害信息，其中的語言可能不符合OpenAI的安全標準，甚至可能泄露模型被明確指示不得在最終輸出中包含的信息。
OpenAI為什么要開源？在技術博客的最后， OpenAI也對今天開源的動作，做出了解釋。
在OpenAI看來， gpt-oss-120b和gpt-oss-20b的發布，是開源權重模型向前邁出的重要一步。
以其體量，這兩款模型在推理能力和安全性方面都實現了實質性提升。
開源模型是對OpenAI托管模型的重要補充，為開發者提供了更豐富的工具選項，加速前沿研究，推動創新，并支持更安全、透明的AI開發，適用于更廣泛的使用場景。
這些開源模型還降低了新興市場、資源受限行業以及中小型組織進入AI的門檻——這些組織可能缺乏采用專有模型所需的預算或靈活性。
如今，全球更多人可以借助這些強大、易獲取的工具進行建設、創新，并為自己和他人創造新的機會。開放獲取這些在美國開發的高能力模型，有助于推動AI發展走向更加民主化。
一個健康的開源模型生態，是實現AI普及并惠及全人類的重要維度之一。
One More Thing：雖然但是……網友們最最最最關心的似乎還是——
GPT-5呢？？？？
【OpenAI開源2個推理模型：筆記本/手機就能跑，性能接近o4-mini】
技術博客地址：https://openai.com/index/introducing-gpt-oss/
HuggingFace地址：https://huggingface.co/openai/gpt-oss-120b
GtiHub地址：https://github.com/openai/gpt-oss
— 完 —
量子位 QbitAI · 頭條號
關注我們，第一時間獲知前沿科技動態

OpenAI開源2個推理模型：筆記本/手機就能跑，性能接近o4-mini

推薦閱讀

湖南油炸米粉肉的做法

螃蟹和蝦不能和什么一起吃

青梅果什么時候上市

皮革婚是什么意思

闖紅燈扣不扣分

word繪制表格怎么劃線

夢見雪后太陽夢見雪后太陽出來了

李元芳簡介

自研國產海思麒麟簡介海思麒麟芯片是哪個國家的產品品牌

簽了！華為正式對外官宣，外媒：這相當于確認了

銀川到西安客車電話是多少時間，請問銀川到西安的客車在哪個站發車每天幾點發車票多少錢

天鎮縣景點

小米手機怎么用USB連接電腦上網

西安二手車市場，西安的舊車交易市場在哪幾點開

開標原件怎么查,取消投標人原件核查

佳能打印機怎么連接wifi