2025外灘大會:螞蟻、人大發布首個原生MoE擴散語言模型

【2025外灘大會:螞蟻、人大發布首個原生MoE擴散語言模型】2025外灘大會:螞蟻、人大發布首個原生MoE擴散語言模型

文章圖片


螞蟻集團和人民大學聯合研發原生MoE架構擴散語言模型(dLLM) LLaDA-MoE , 在約20T數據上完成了從零訓練MoE架構的擴散語言模型 , 驗證了工業級大規模訓練的擴展性和穩定性;效果超過此前發布稠密擴散語言模型LLaDA1.0/1.5和Dream-7B , 比肩等效自回歸模型 , 并保有數倍的推理速度優勢 。 模型將在近期完全開源 , 以推動全球AI社區在dLLM上的技術發展 。
9月11日 , 在2025Inclusion·外灘大會上 , 螞蟻集團與中國人民大學聯合發布業界首個原生MoE架構的擴散語言模型(dLLM)“LLaDA-MoE” , 中國人民大學高瓴人工智能學院副教授李崇軒 , 螞蟻集團通用人工智能研究中心主任、西湖大學特聘研究員、西湖心辰創始人藍振忠參與了發布儀式 。

(中國人民大學、螞蟻集團聯合發布首個MoE架構擴散模型LLaDA-MoE)
據介紹 , 這款新模型通過非自回歸的掩碼擴散機制 , 首次通過原生訓練的MoE在大規模語言模型中實現了與Qwen2.5相當的語言智能(如上下文學習、指令遵循、代碼和數學推理等) , 挑戰了“語言模型必須自回歸”的主流認知 。
實現數據顯示 , LLaDA-MoE模型性能效果在代碼、數學、Agent等任務上領先于LLaDA1.0/1.5和Dream-7B等擴散語言模型 , 接近或超越了自回歸模型 Qwen2.5-3B-Instruct , 僅激活 1.4B 參數即可實現等效3B稠密模型的性能 。

(LLaDA-MoE性能表現)
“LLaDA-MoE模型驗證了工業級大規模訓練的擴展性和穩定性 , 意味我們在把dLLM訓擴到更大規模的路上又往前走了一步 。 ”藍振忠在發布現場表示 。
中國人民大學高瓴人工智能學院副教授李崇軒介紹 , “兩年過去 , AI大模型能力突飛猛進 , 但存在一些問題始終沒有得到本質上的解決 。 究其原因 , 這是當前大模型普遍采用的自回歸生成范式所造成的——模型天然是單向建模的 , 從前往后依次生成下一個token 。 這導致它們難以捕tokens 之間的雙向依賴關系 。 ”
面對這些問題 , 一些研究者選擇另辟蹊徑 , 將目光投向并行解碼的擴散語言模型 。 然而 , 現有 dLLM 均基于稠密架構 , 難以復刻 ARM 中 MoE 的“參數擴展、計算高效”優勢 。 在這樣的行業背景下 , 螞蟻和人大聯合研究團隊 , 首次在MoE架構上推出了原生的擴散語言模型LLaDA-MoE 。
藍振忠還表示 , “我們將于近期向全球完全開源模型權重和自研推理框架 , 與社區共同推動 AGI 新一輪突破 。 ”
據了解 , 螞蟻與人大團隊攻關 3個月 , 在LLaDA-1.0基礎上重寫訓練代碼 , 并且基于螞蟻自研分布式框架 ATorch提供EP 并行等一系列并行加速技術 , 基于螞蟻Ling2.0基礎模型的訓練數據 , 在負載均衡、噪聲采樣漂移等核心難題上取得突破 , 最終采用 7B-A1B(總7B、激活1.4B)的MOE架構完成約 20T 數據的高效訓練 。
在螞蟻自研的統一評測框架下 , LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17項基準上平均提升 8.4% , 領先 LLaDA-1.5達到13.2% , 與 Qwen2.5-3B-Instruct 打平 。 實驗再次驗證“MoE 放大器”定律在 dLLM 領域同樣成立 , 為后續 10B–100B 稀疏模型提供可行路徑 。
據藍振忠介紹 , 除模型權重外 , 螞蟻還將同步開源針對 dLLM 并行特性深度優化的推理引擎 。 相比 NVIDIA 官方 fast-dLLM , 該引擎實現了顯著加速 。 相關代碼與技術報告將于近期在 GitHub 及 Hugging Face 社區同步發布 。
藍振忠還透露 , 螞蟻將持續投入包括基于dLLM的AGI領域 , 下一階段將聯合學界和全球AI社區共同推動AGI新的突破 。 “自回歸不是終點 , 擴散模型同樣可以成為通向 AGI 的主干道 。 ”藍振忠如是說 。
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀