華為盤古718B模型最新成績：開源第二

2026-04-14 華為算法 ai 數學

文章圖片

文章圖片

金磊發自凹非寺
量子位 | 公眾號 QbitAI
高手如云，高手如云，但華為依舊“殺”出了一片天。
就在最新一期的SuperCLUE中文大模型通用基準測評中，各個AI大模型玩家的成績新鮮出爐。
從大家最為關心的開源、國產兩個維度來看，前三名排名分別為：
DeepSeek-V3.1-Terminus-Thinking openPangu-Ultra-MoE-718B Qwen3-235B-A22B-Thinking-2507
（注：SuperCLUE是一個綜合性的大模型評測基準，本次通過對數學推理、科學推理、代碼生成、智能體Agent、幻覺控制、精確指令遵循六個維度的核心能力進行評估，共計1260道題目。）
那么華為這個擁有7180億參數體量的MoE大模型，究竟憑什么脫穎而出？
在我們與openPangu核心成員深入交流之后，發現他們的訓練哲學并非是大力出奇跡，與之恰恰相反——
不靠堆數據，靠會思考。

這又是什么意思呢？接下來，我們就來一同細看。
數量給質量讓路我們都知道，訓練數據的質量直接影響大模型的最終能力。
因此， openPangu團隊在后訓練數據構建中遵循了三個核心原則：質量優先、多樣性覆蓋、復雜度適配。
并且為此建立了一套覆蓋“數據生成-科學篩選-精準增強”的全流程方案。
△通用后訓練數據構建框架
質量優先：團隊建立了指令數據質量評估體系，結合規則、模型和人工三重審核機制，以確保低質量樣本的有效清理。多樣性覆蓋：從領域和任務類型兩個維度進行設計，并通過去重和壓縮選樣算法，在保證數據覆蓋廣度的同時避免冗余。復雜度適配：為避免模型僅在簡單任務上過擬合，團隊通過推理步驟、概念抽象度、計算復雜度等指標對任務難度進行量化，并利用自迭代拒絕采樣策略，重點進行中高難度任務的訓練。這種對數據質量的嚴格把控，正是提升模型在復雜場景下推理能力的關鍵因素之一。
三階段預訓練策略除了數據質量之外，模型的基礎能力與預訓練階段是息息相關。
整體來看，團隊將openPangu-718B的預訓練過程被設計為三個階段：通用（General）、推理（Reasoning）和退火（Annealing）。
首先是通用階段，這個階段的目標是為模型構建廣泛的世界知識。模型通過學習大規模的文本和代碼數據，形成對世界的基本認知。
【華為盤古718B模型最新成績：開源第二】其次是推理階段，專注于提升模型的邏輯推理能力。團隊顯著增加了泛數學、STEM（科學、技術、工程和數學）及代碼數據的訓練比重，并重點引入了高難度的多步驟推理題庫。
為提升多步推理的準確性并減少幻覺，團隊為這部分數據制作了詳細的思維鏈（CoT），以引導模型學習解決問題的邏輯路徑。
最后是退火階段，此階段旨在增強模型應用知識和推理技能的能力。訓練文本的上下文長度被階梯式地提升至8K、32K和128K ，同時增加了指令類數據的占比。
此外，該階段還引入了多種Agent類型的數據，為模型學習使用外部工具（Tool-use）建立基礎。
緩解幻覺有妙招幻覺可以說是大型語言模型普遍面臨的一大挑戰，為緩解這個此問題，團隊引入了“批判內化”（Critique Internalization）機制。
這個機制的核心思想是，不僅讓模型學習正確的示范（傳統SFT模式），更要讓模型學習如何評判一個解答的優劣。
不同于傳統的批判微調（CFT）只依賴固定的人類反饋數據來訓練模型，批判內化策略在初始模型訓練完成后，利用拒絕采樣階段引入額外的自我批判信號，引導模型在生成答案時基于不同任務的行為準則Guideline ，主動審視自己的推理過程。
通過這種訓練，模型能夠將批判性思維融入自身推理過程。在生成回答時，它能更好地審視自身的邏輯鏈條，檢查是否存在邏輯跳躍、信息遺漏或偏離指令等問題。
實驗結果表明，該機制有效緩解了模型幻覺，并提升了指令遵從性和價值觀對齊的表現。同時，這種針對性的反思也使得模型的輸出更為精煉和可靠。
Agent能力也進化了為了提升模型使用工具的能力，團隊采用了升級版的工具數據合成框架——ToolACE 。
這個框架通過一系列關鍵技術，生成了大量高質量、高復雜度的多輪多工具調用數據用于訓練。

領域工具組合：將現實場景中相互關聯的工具（如日歷查詢和航班預訂）進行組合，并提供工具依賴圖和領域規則，使模型學習在復雜任務中如何協同使用多個工具。交互式目標軌跡生成：采用“計劃-執行”分離策略，先由AI規劃出解決任務的工具調用序列，再通過與模擬環境的交互執行該序列，生成完整的工具使用軌跡。多智能體對話生成：利用多個AI智能體模擬用戶與助手的互動，將工具調用過程轉化為自然的對話腳本，并引入隨機打斷、反問澄清等復雜交互情況，以提升數據的真實性。多維校驗與錯例迭代：對生成的數據進行多維度質量檢查，包括內容滿足度、狀態變化正確性、工具調用效率等。低分數據將被分析錯誤原因，并用于迭代優化生成策略。通過這套系統， openPangu-718B學習在復雜的多輪交互中準確、靈活地調用工具。
三步式后訓練優化方案在完成數據構建和核心能力訓練后， openPangu團隊還經過了一個“三步走”的后訓練微調方案，進行了最終的性能優化。
第一步：漸進動態微調 (PDFT)
為避免模型在指令微調（SFT）階段對訓練數據產生過擬合，團隊采用了漸進動態微調（Progressive Dynamic Fine-Tuning PDFT）。該方法讓模型的學習模式從常規SFT平滑過渡到動態微調（DFT）。
訓練初期，模型以常規SFT模式充分學習；后期則逐步增加DFT權重，使模型更關注尚未充分掌握的知識點，從而在欠擬合與過擬合之間取得平衡。
第二步：強化學習 (RL) 微調
考慮到openPangu-718B這類混合專家（MoE）模型的訓練穩定性要求較高，團隊采用了GSPO（Group Sequence Policy Optimization）算法進行強化學習。
與GRPO算法相比， GSPO在訓練大型MoE模型時表現出更好的穩定性，有助于模型性能的持續提升，避免了訓練過程中的性能衰退。

第三步：模型融合 (Model Merging)
在不同訓練階段，會產出在特定領域各有優勢的多個模型版本。為整合這些模型的優點，團隊采用了一種黑盒優化的模型融合方法。
通過構建一個覆蓋廣泛任務的測評集，使用優化算法自動搜索各候選模型的最佳融合權重，最終生成一個綜合性能更強的模型。
總結來看， openPangu-718B的優異表現，源于其在預訓練、數據構建、幻覺控制、工具學習及后訓練優化等環節系統性的技術創新。
從三階段預訓練奠定基礎，到通過“批判內化”機制提升可靠性，再到利用ToolACE框架拓展Agent能力，最后通過三步式后訓練方案進行精細打磨，每一步都反映了其背后的技術策略。
與此同時， openPangu團隊也為行業提供了一個極具價值的范本：真正的競爭力，來自于對技術細節的極致打磨和對核心問題的深刻洞察。
參考鏈接：[1
https://ai.gitcode.com/ascend-tribe/openpangu-ultra-moe-718b-model[2
https://arxiv.org/abs/2501.17703[3
http://arxiv.org/abs/2409.00920[4
http://arxiv.org/abs/2508.12685[5
https://arxiv.org/abs/2508.05629[6
https://arxiv.org/pdf/2507.18071[7
https://arxiv.org/abs/2402.03300
— 完 —
量子位 QbitAI · 頭條號
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：東方升，西方落？中美芯片博弈局勢清晰了，會越來越好

下一篇：理想i6上市72小時，客戶對比都是特斯拉和小米