華為盤古718B模型最新成績:開源第二

華為盤古718B模型最新成績:開源第二

文章圖片

華為盤古718B模型最新成績:開源第二

文章圖片

華為盤古718B模型最新成績:開源第二

金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
高手如云 , 高手如云 , 但華為依舊“殺”出了一片天 。
就在最新一期的SuperCLUE中文大模型通用基準測評中 , 各個AI大模型玩家的成績新鮮出爐 。
從大家最為關心的開源、國產兩個維度來看 , 前三名排名分別為:
DeepSeek-V3.1-Terminus-Thinking openPangu-Ultra-MoE-718B Qwen3-235B-A22B-Thinking-2507
(注:SuperCLUE是一個綜合性的大模型評測基準 , 本次通過對數學推理、科學推理、代碼生成、智能體Agent、幻覺控制、精確指令遵循六個維度的核心能力進行評估 , 共計1260道題目 。 )
那么華為這個擁有7180億參數體量的MoE大模型 , 究竟憑什么脫穎而出?
在我們與openPangu核心成員深入交流之后 , 發現他們的訓練哲學并非是大力出奇跡 , 與之恰恰相反——
不靠堆數據 , 靠會思考 。

這又是什么意思呢?接下來 , 我們就來一同細看 。
數量給質量讓路我們都知道 , 訓練數據的質量直接影響大模型的最終能力 。
因此 , openPangu團隊在后訓練數據構建中遵循了三個核心原則:質量優先、多樣性覆蓋、復雜度適配 。
并且為此建立了一套覆蓋“數據生成-科學篩選-精準增強”的全流程方案 。
△通用后訓練數據構建框架
質量優先:團隊建立了指令數據質量評估體系 , 結合規則、模型和人工三重審核機制 , 以確保低質量樣本的有效清理 。 多樣性覆蓋:從領域和任務類型兩個維度進行設計 , 并通過去重和壓縮選樣算法 , 在保證數據覆蓋廣度的同時避免冗余 。 復雜度適配:為避免模型僅在簡單任務上過擬合 , 團隊通過推理步驟、概念抽象度、計算復雜度等指標對任務難度進行量化 , 并利用自迭代拒絕采樣策略 , 重點進行中高難度任務的訓練 。這種對數據質量的嚴格把控 , 正是提升模型在復雜場景下推理能力的關鍵因素之一 。
三階段預訓練策略除了數據質量之外 , 模型的基礎能力與預訓練階段是息息相關 。
整體來看 , 團隊將openPangu-718B的預訓練過程被設計為三個階段:通用(General)、推理(Reasoning)和退火(Annealing) 。
首先是通用階段 , 這個階段的目標是為模型構建廣泛的世界知識 。 模型通過學習大規模的文本和代碼數據 , 形成對世界的基本認知 。
【華為盤古718B模型最新成績:開源第二】其次是推理階段 , 專注于提升模型的邏輯推理能力 。 團隊顯著增加了泛數學、STEM(科學、技術、工程和數學)及代碼數據的訓練比重 , 并重點引入了高難度的多步驟推理題庫 。
為提升多步推理的準確性并減少幻覺 , 團隊為這部分數據制作了詳細的思維鏈(CoT) , 以引導模型學習解決問題的邏輯路徑 。
最后是退火階段 , 此階段旨在增強模型應用知識和推理技能的能力 。 訓練文本的上下文長度被階梯式地提升至8K、32K和128K , 同時增加了指令類數據的占比 。
此外 , 該階段還引入了多種Agent類型的數據 , 為模型學習使用外部工具(Tool-use)建立基礎 。
緩解幻覺有妙招幻覺可以說是大型語言模型普遍面臨的一大挑戰 , 為緩解這個此問題 , 團隊引入了“批判內化”(Critique Internalization)機制 。
這個機制的核心思想是 , 不僅讓模型學習正確的示范(傳統SFT模式) , 更要讓模型學習如何評判一個解答的優劣 。
不同于傳統的批判微調(CFT)只依賴固定的人類反饋數據來訓練模型 ,批判內化策略在初始模型訓練完成后 , 利用拒絕采樣階段引入額外的自我批判信號 , 引導模型在生成答案時基于不同任務的行為準則Guideline , 主動審視自己的推理過程 。
通過這種訓練 , 模型能夠將批判性思維融入自身推理過程 。 在生成回答時 , 它能更好地審視自身的邏輯鏈條 , 檢查是否存在邏輯跳躍、信息遺漏或偏離指令等問題 。
實驗結果表明 , 該機制有效緩解了模型幻覺 , 并提升了指令遵從性和價值觀對齊的表現 。 同時 , 這種針對性的反思也使得模型的輸出更為精煉和可靠 。
Agent能力也進化了為了提升模型使用工具的能力 , 團隊采用了升級版的工具數據合成框架——ToolACE 。
這個框架通過一系列關鍵技術 , 生成了大量高質量、高復雜度的多輪多工具調用數據用于訓練 。

領域工具組合:將現實場景中相互關聯的工具(如日歷查詢和航班預訂)進行組合 , 并提供工具依賴圖和領域規則 , 使模型學習在復雜任務中如何協同使用多個工具 。 交互式目標軌跡生成:采用“計劃-執行”分離策略 , 先由AI規劃出解決任務的工具調用序列 , 再通過與模擬環境的交互執行該序列 , 生成完整的工具使用軌跡 。 多智能體對話生成:利用多個AI智能體模擬用戶與助手的互動 , 將工具調用過程轉化為自然的對話腳本 , 并引入隨機打斷、反問澄清等復雜交互情況 , 以提升數據的真實性 。 多維校驗與錯例迭代:對生成的數據進行多維度質量檢查 , 包括內容滿足度、狀態變化正確性、工具調用效率等 。 低分數據將被分析錯誤原因 , 并用于迭代優化生成策略 。通過這套系統 , openPangu-718B學習在復雜的多輪交互中準確、靈活地調用工具 。
三步式后訓練優化方案在完成數據構建和核心能力訓練后 , openPangu團隊還經過了一個“三步走”的后訓練微調方案 , 進行了最終的性能優化 。
第一步:漸進動態微調 (PDFT)
為避免模型在指令微調(SFT)階段對訓練數據產生過擬合 , 團隊采用了漸進動態微調(Progressive Dynamic Fine-Tuning PDFT) 。 該方法讓模型的學習模式從常規SFT平滑過渡到動態微調(DFT) 。
訓練初期 , 模型以常規SFT模式充分學習;后期則逐步增加DFT權重 , 使模型更關注尚未充分掌握的知識點 , 從而在欠擬合與過擬合之間取得平衡 。
第二步:強化學習 (RL) 微調
考慮到openPangu-718B這類混合專家(MoE)模型的訓練穩定性要求較高 , 團隊采用了GSPO(Group Sequence Policy Optimization)算法進行強化學習 。
與GRPO算法相比 , GSPO在訓練大型MoE模型時表現出更好的穩定性 , 有助于模型性能的持續提升 , 避免了訓練過程中的性能衰退 。

第三步:模型融合 (Model Merging)
在不同訓練階段 , 會產出在特定領域各有優勢的多個模型版本 。 為整合這些模型的優點 , 團隊采用了一種黑盒優化的模型融合方法 。
通過構建一個覆蓋廣泛任務的測評集 , 使用優化算法自動搜索各候選模型的最佳融合權重 , 最終生成一個綜合性能更強的模型 。
總結來看 , openPangu-718B的優異表現 , 源于其在預訓練、數據構建、幻覺控制、工具學習及后訓練優化等環節系統性的技術創新 。
從三階段預訓練奠定基礎 , 到通過“批判內化”機制提升可靠性 , 再到利用ToolACE框架拓展Agent能力 , 最后通過三步式后訓練方案進行精細打磨 , 每一步都反映了其背后的技術策略 。
與此同時 , openPangu團隊也為行業提供了一個極具價值的范本:真正的競爭力 , 來自于對技術細節的極致打磨和對核心問題的深刻洞察 。
參考鏈接:[1
https://ai.gitcode.com/ascend-tribe/openpangu-ultra-moe-718b-model[2
https://arxiv.org/abs/2501.17703[3
http://arxiv.org/abs/2409.00920[4
http://arxiv.org/abs/2508.12685[5
https://arxiv.org/abs/2508.05629[6
https://arxiv.org/pdf/2507.18071[7
https://arxiv.org/abs/2402.03300
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀