英偉達成美國大模型開源標桿：Nemotron 3連訓練配方都公開_機器人|ai|黃仁勛|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

夢晨發自凹非寺量子位 | 公眾號 QbitAI
英偉達在開源模型上玩的很激進：
“最高效的開放模型家族”Nemotron 3 ，混合Mamba-Transformer MoE架構、NVFP4低精度訓練全用上。

而且開放得很徹底：
不僅開放模型權重，還要把超過10萬億token的訓練數據、預訓練和后訓練軟件、訓練配方全部公開。

與其他開源模型相比性能有競爭力，且速度快1.5-3.3倍。

把Mamba和Transformer混著用Nemotron 3在架構層面追求推理效率的最大化。
傳統Transformer的自注意力機制需要對不斷增長的KV Cache做線性掃描，序列越長，計算開銷越大。
英偉達的解決方案是大量使用Mamba-2層替代自注意力層——Mamba層在生成時只需要存儲固定大小的狀態，不受序列長度影響。
以Nano型號為例，整個模型主要由交替堆疊的Mamba-2層和MoE層構成，自注意力層只保留了少數幾個。
論文給出的層排布模式是：5個Mamba-2+MoE的重復單元，接3個同樣結構的單元，再來1個包含注意力層的單元，最后是4個Mamba-2+MoE單元。

【英偉達成美國大模型開源標桿：Nemotron 3連訓練配方都公開】在8k輸入、16k輸出的典型推理場景下， Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍。序列越長，優勢越明顯。

與此同時，模型在長上下文任務上的表現并沒有打折扣。
論文展示了一組RULER基準測試的結果：在100萬token輸入長度下， Nemotron 3 Nano基座模型拿到了68.2分，而在同樣條件下訓練的Nemotron 2 Nano 12B只有23.43分，出現了斷崖式下跌。 MoE混合架構在長度外推上的魯棒性明顯更好。
LatentMoE：在潛空間里做專家路由針對Super和Ultra這兩個更大的模型，英偉達提出了LatentMoE架構，在潛在空間中進行專家計算。
MoE層在實際部署時會遇到兩類瓶頸：
低延遲場景下，每次只處理幾十到幾百個token ，此時從顯存讀取專家權重成為主要開銷。
高吞吐場景下，一次處理數千token ，此時專家間的all-to-all通信成為瓶頸。兩種情況下，開銷都與隱藏維度d線性相關。
LatentMoE的做法是：先把token從原始隱藏維度d投影到一個更小的潛在維度?（通常是d的四分之一），在這個低維空間里完成專家路由和計算，最后再投影回原始維度。
這樣一來，每個專家的權重加載量和通信量都降低了d/?倍。省下來的計算預算被用于增加專家數量和每個token激活的專家數。

標準MoE用128個專家、激活6個；LatentMoE用512個專家、激活22個。
兩者的總參數量和激活參數量幾乎相同（都是8B激活、73B總參），但LatentMoE在所有下游任務上都取得了更好的成績——MMLU-Pro從48.30提升到52.87 ，代碼任務從51.95提升到55.14 ，數學任務從78.32提升到80.19 。

需要注意的是，路由門控網絡、共享專家計算以及非專家層仍然保留在原始維度，因為這些部分對瓶頸的貢獻很小。
用NVFP4訓練250億tokenSuper和Ultra還采用了NVFP4格式進行訓練，這是英偉達在低精度訓練上的又一次探索。
NVFP4是一種4位浮點格式，采用E2M1的元素格式（2位指數、1位尾數），配合16元素的微塊縮放和E4M3格式的塊縮放因子。在GB300上， FP4的峰值吞吐量是FP8的3倍。
論文顯示，團隊已經用NVFP4格式穩定訓練了高達25萬億token 。與BF16訓練相比， Nano模型的損失差距控制在1%以內， 8B激活參數的更大模型差距進一步縮小到0.6%以內。

在MMLU、GSM8K、HumanEval等下游任務上， NVFP4訓練的模型與BF16版本的準確率曲線幾乎完全重合。

不過并非所有層都適合量化到NVFP4 。團隊發現Mamba輸出投影層在量化后會出現高達40%的flush-to-zero現象，因此保留在MXFP8精度；QKV投影和注意力投影保留在BF16以維持少量注意力層的保真度；網絡最后15%的層也保持高精度以確保穩定性。 MTP層和潛在投影由于對推理時間影響很小，同樣保留在BF16 。
多環境強化學習一把訓到底Nemotron 3的后訓練采用了多環境強化學習，覆蓋數學推理、競賽編程、指令遵循、軟件工程、搜索、對話、通用工具使用、長上下文等多種任務。
與之前分階段訓練不同能力的做法不同，這次英偉達選擇同時訓練所有任務。
論文指出，這種同步訓練方式更穩定，更不容易出現reward hacking ，也避免了分階段訓練常見的能力退化問題。
AIME25數學分數從80提升到90 ， LiveCodeBench從65提升到72 ， τ2-Bench工具使用從40提升到50左右，全程呈穩定上升趨勢。

高效的推理吞吐量在這里發揮了重要作用。
大規模RL需要生成海量rollout樣本， Nemotron 3的混合架構相比其他開源模型有顯著優勢。
團隊還采用了異步RL架構來解耦訓練和推理，并利用多token預測加速rollout生成。訓練算法方面使用GRPO配合masked importance sampling來處理訓練策略和rollout策略之間的差異。
整個后訓練軟件棧以Apache 2.0協議開源，包括NeMo-RL（可擴展RL訓練）和NeMo-Gym（RL環境集合）兩個倉庫。
此外， Nemotron 3還支持推理時的思維預算控制。
用戶可以指定思維鏈的最大token數，當模型達到預算時，追加一個標記即可讓模型基于部分思維鏈生成最終回答。
論文給出了準確率與平均生成token數之間的權衡曲線，這為實際部署中的效率-精度平衡提供了細粒度控制。
論文地址：https://arxiv.org/abs/2512.20856

英偉達成美國大模型開源標桿：Nemotron 3連訓練配方都公開

推薦閱讀

手機變色了怎么設置回來

艾杜紗洗面奶能卸彩妝嗎

照片與視頻怎么合成怎樣將視頻和照片合成視頻

新鮮玫瑰食用方法

上海戶口遷入南京辦理流程

一個月的新生兒如何照顧

小麥秸稈是什么材質

我只會什么寫句子怎么用我只會造句

如何讓E908用視頻做待機墻紙

筆記本連接投影儀方法步驟筆記本電腦怎么連接投影儀

政府如何彌補市場缺陷,如何彌補市場不足

分享蘋果8p掉幀的具體處理方法。

紅瑰寶是紅木嗎

中國南方與北方具體分界線是怎樣的在供暖問題上，對南方不供暖的介定好象不合理

兩個小故事，與生活攜手的文章，直面世俗一角

釣2050斤的魚用什么主線和子線，釣鯉魚用幾號線組