英偉達成美國大模型開源標桿:Nemotron 3連訓練配方都公開

英偉達成美國大模型開源標桿:Nemotron 3連訓練配方都公開

文章圖片

英偉達成美國大模型開源標桿:Nemotron 3連訓練配方都公開

文章圖片

英偉達成美國大模型開源標桿:Nemotron 3連訓練配方都公開

文章圖片

英偉達成美國大模型開源標桿:Nemotron 3連訓練配方都公開

文章圖片

英偉達成美國大模型開源標桿:Nemotron 3連訓練配方都公開

文章圖片


夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
英偉達在開源模型上玩的很激進:
“最高效的開放模型家族”Nemotron 3 , 混合Mamba-Transformer MoE架構、NVFP4低精度訓練全用上 。

而且開放得很徹底:
不僅開放模型權重 , 還要把超過10萬億token的訓練數據、預訓練和后訓練軟件、訓練配方全部公開 。

與其他開源模型相比性能有競爭力 , 且速度快1.5-3.3倍 。

把Mamba和Transformer混著用Nemotron 3在架構層面追求推理效率的最大化 。
傳統Transformer的自注意力機制需要對不斷增長的KV Cache做線性掃描 , 序列越長 , 計算開銷越大 。
英偉達的解決方案是大量使用Mamba-2層替代自注意力層——Mamba層在生成時只需要存儲固定大小的狀態 , 不受序列長度影響 。
以Nano型號為例 , 整個模型主要由交替堆疊的Mamba-2層和MoE層構成 , 自注意力層只保留了少數幾個 。
論文給出的層排布模式是:5個Mamba-2+MoE的重復單元 , 接3個同樣結構的單元 , 再來1個包含注意力層的單元 , 最后是4個Mamba-2+MoE單元 。

【英偉達成美國大模型開源標桿:Nemotron 3連訓練配方都公開】在8k輸入、16k輸出的典型推理場景下 , Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍 。 序列越長 , 優勢越明顯 。

與此同時 , 模型在長上下文任務上的表現并沒有打折扣 。
論文展示了一組RULER基準測試的結果:在100萬token輸入長度下 , Nemotron 3 Nano基座模型拿到了68.2分 , 而在同樣條件下訓練的Nemotron 2 Nano 12B只有23.43分 , 出現了斷崖式下跌 。 MoE混合架構在長度外推上的魯棒性明顯更好 。
LatentMoE:在潛空間里做專家路由針對Super和Ultra這兩個更大的模型 , 英偉達提出了LatentMoE架構 , 在潛在空間中進行專家計算 。
MoE層在實際部署時會遇到兩類瓶頸:
低延遲場景下 , 每次只處理幾十到幾百個token , 此時從顯存讀取專家權重成為主要開銷 。
高吞吐場景下 , 一次處理數千token , 此時專家間的all-to-all通信成為瓶頸 。 兩種情況下 , 開銷都與隱藏維度d線性相關 。
LatentMoE的做法是:先把token從原始隱藏維度d投影到一個更小的潛在維度?(通常是d的四分之一) , 在這個低維空間里完成專家路由和計算 , 最后再投影回原始維度 。
這樣一來 , 每個專家的權重加載量和通信量都降低了d/?倍 。 省下來的計算預算被用于增加專家數量和每個token激活的專家數 。

標準MoE用128個專家、激活6個;LatentMoE用512個專家、激活22個 。
兩者的總參數量和激活參數量幾乎相同(都是8B激活、73B總參) , 但LatentMoE在所有下游任務上都取得了更好的成績——MMLU-Pro從48.30提升到52.87 , 代碼任務從51.95提升到55.14 , 數學任務從78.32提升到80.19 。

需要注意的是 , 路由門控網絡、共享專家計算以及非專家層仍然保留在原始維度 , 因為這些部分對瓶頸的貢獻很小 。
用NVFP4訓練250億tokenSuper和Ultra還采用了NVFP4格式進行訓練 , 這是英偉達在低精度訓練上的又一次探索 。
NVFP4是一種4位浮點格式 , 采用E2M1的元素格式(2位指數、1位尾數) , 配合16元素的微塊縮放和E4M3格式的塊縮放因子 。 在GB300上 , FP4的峰值吞吐量是FP8的3倍 。
論文顯示 , 團隊已經用NVFP4格式穩定訓練了高達25萬億token 。 與BF16訓練相比 , Nano模型的損失差距控制在1%以內 , 8B激活參數的更大模型差距進一步縮小到0.6%以內 。

在MMLU、GSM8K、HumanEval等下游任務上 , NVFP4訓練的模型與BF16版本的準確率曲線幾乎完全重合 。

不過并非所有層都適合量化到NVFP4 。 團隊發現Mamba輸出投影層在量化后會出現高達40%的flush-to-zero現象 , 因此保留在MXFP8精度;QKV投影和注意力投影保留在BF16以維持少量注意力層的保真度;網絡最后15%的層也保持高精度以確保穩定性 。 MTP層和潛在投影由于對推理時間影響很小 , 同樣保留在BF16 。
多環境強化學習一把訓到底Nemotron 3的后訓練采用了多環境強化學習 , 覆蓋數學推理、競賽編程、指令遵循、軟件工程、搜索、對話、通用工具使用、長上下文等多種任務 。
與之前分階段訓練不同能力的做法不同 , 這次英偉達選擇同時訓練所有任務 。
論文指出 , 這種同步訓練方式更穩定 , 更不容易出現reward hacking , 也避免了分階段訓練常見的能力退化問題 。
AIME25數學分數從80提升到90 , LiveCodeBench從65提升到72 , τ2-Bench工具使用從40提升到50左右 , 全程呈穩定上升趨勢 。

高效的推理吞吐量在這里發揮了重要作用 。
大規模RL需要生成海量rollout樣本 , Nemotron 3的混合架構相比其他開源模型有顯著優勢 。
團隊還采用了異步RL架構來解耦訓練和推理 , 并利用多token預測加速rollout生成 。 訓練算法方面使用GRPO配合masked importance sampling來處理訓練策略和rollout策略之間的差異 。
整個后訓練軟件棧以Apache 2.0協議開源 , 包括NeMo-RL(可擴展RL訓練)和NeMo-Gym(RL環境集合)兩個倉庫 。
此外 , Nemotron 3還支持推理時的思維預算控制 。
用戶可以指定思維鏈的最大token數 , 當模型達到預算時 , 追加一個標記即可讓模型基于部分思維鏈生成最終回答 。
論文給出了準確率與平均生成token數之間的權衡曲線 , 這為實際部署中的效率-精度平衡提供了細粒度控制 。
論文地址:https://arxiv.org/abs/2512.20856

    推薦閱讀