攻克大模型訓推差異難題，螞蟻開源新一代推理模型Ring-flash-2.0_算法

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心發布
機器之心編輯部
“MoE+Long-CoT（長思維鏈）+RL（強化學習）” 這條技術路線存在難以兼顧訓練穩定性和效果的難題。 9 月 19 日，螞蟻百靈大模型團隊把 “難啃的骨頭” 直接做成開源禮包 ——Ring-flash-2.0 。 100B 總參、6.1B 激活，數學 AIME25 拿下 86.98 分， CodeForces elo 分數 90.23 ， 128K 上下文實測 200+token/s 。
更關鍵的是，他們通過獨創的棒冰（icepop）算法和長周期的 RL 訓練， Ring-flash-2.0 在多項推理榜單上（數學、代碼和邏輯推理）取得了顯著突破，性能達到了 40B 以內 dense 模型的 SOTA 水平，甚至可與參數量更大的 MoE 模型相媲美。

Ring-flash-2.0 性能表現
機器之心深度拆解，這一開源項目，為什么可能改寫下一階段大模型的競爭節奏。
一、從 “不能用” 到 “敢開源”：MoE 長思考的臨界點
2025 年，業內流行一張 “死亡曲線”：在長思維鏈場景下， MoE 模型 RL 訓練存在獎勵崩潰的問題。于是大家只能把學習率調小、任務提前終止，無法繼續訓練。
棒冰（icepop）算法：讓 RL 進行長周期的穩定訓練
Ring-flash-2.0 的破冰點在于 “棒冰（icepop）”：雙向截斷 + 掩碼修正，一句話總結 ——“把訓推精度差異過大的 token 當場凍住，不讓它回傳梯度” 。
最終， icepop 能夠保持穩定的強化學習訓練過程，避免了 GRPO 出現的訓練崩潰問題。

左圖為 GRPO 訓練到 180-200 步開始崩潰， icepop 能實現持續穩定提升；右圖為 GRPO 訓練不久出現梯度爆炸， icepop 能持續穩定在合理范圍。
與 GRPO 相比， icepop 還將訓推精度差異約束在合理范圍內，顯示出對于控制訓推精度差異有效性。

左圖為 GRPO 訓推精度差異隨著訓練成指數上升， icepop 較為平穩；右圖為訓推精度差異最大值， GRPO 隨著訓練上升非常明顯， icepop 維持在較低水位。
效果肉眼可見：訓練再也不崩，百靈團隊內部笑稱， “終于不用擔心訓練無法長跑的問題” 。
詳細的棒冰（icepop）算法介紹參考技術博客：https://ringtech.notion.site/icepop
Two-staged RL：先 “算對” ，再 “像人”
百靈大模型團隊首先采用 Long-CoT SFT ，采用包含數學、代碼、邏輯和科學四大領域為主體的多學科高質量推理數據集，讓模型 “學會思考”；第二步，通過可驗證獎勵的 RLVR（Reinforcement Learning with Verifiable Rewards），把推理逼到極限；隨后，加入 RLHF ，用高質量人類偏好數據，把格式、安全、可讀性拉回舒適區。

百靈團隊驗證了直接融合 RLVR+RLHF 的聯合訓練和 Two-staged RL ，兩種方式在實驗中效果差異不大。但由于 RLVR 和 RLHF 的問題難度不一致， RLHF 的思維鏈長度相對較短，放在一起訓練會有較多等待長尾現象，從工程效率角度，使用了 Two-staged RL 方案。
二、6.1B 激活打平 40B Dense ，成本曲線出現 “拐點”
大模型競爭進入 “第二幕” ，核心指標不再是 “誰參數多” ，而是 “誰性價比高” 。

Ring-flash-2.0 架構圖。
繼承 Ling 2.0 系列的高效 MoE 設計，通過 1/32 專家激活比、MTP 層等架構優化， Ring-flash-2.0 僅激活 6.1B (non-embedding 4.8B) 參數，即可等效撬動約 40B dense 模型的性能。
得益于小激活、高稀疏度的設計， Ring-flash-2.0 在 4 張 H20 部署下實現 200+ token/s 的吞吐，大幅降低高并發場景下 Thinking 模型的推理成本。同時， Ring-flash 借助 YaRN 外推可支持 128K 長上下文，隨著輸出長度的增加，其相對加速比最高可達 7 倍以上。

【攻克大模型訓推差異難題，螞蟻開源新一代推理模型Ring-flash-2.0】生成速度對比

競賽數學視頻

貪吃蛇case

arcprize case

冒泡排序可視化

粒子煙花模擬
生成搜索引擎首頁 query：請仿照 Perplexity ，設計并生成一個搜索引擎首頁，網站名稱為 “想搜” ， slogan 為 “想搜，才會贏” 。請實現基本的搜索界面、風格化 Banner 和搜索輸入區。

生成搜索引擎首頁
結語：大模型競爭進入 “高性價比” 時代
從 2022 年 ChatGPT 點燃生成式 AI ，到 2024 年長思考成為新戰場，行業一直在等一個 “既聰明又便宜” 的推理模型。 Ring-flash-2.0 用 100B 總參、6.1B 激活、200+token/s 的速度，把「Long-CoT + RL」做到工程可落地，還順手把訓練穩定性、推理成本、開源生態一次性打包。
如果說 GPT-4 開啟了 “大模型可用時代” ，那 Ring-flash-2.0 或許正式拉開了 “MoE 長思考高性價比時代” 的帷幕。剩下的問題只有一個：你準備用它做什么？
開源地址：
HuggingFace：https://huggingface.co/inclusionAI/Ring-flash-2.0 ModelScope：https://modelscope.cn/models/inclusionAI/Ring-flash-2.0 GitHub： https://github.com/inclusionAI/Ring-V2 技術博客： https://ringtech.notion.site/icepop文中視頻鏈接：https://mp.weixin.qq.com/s/GP6SkIP0Pq1j08XL0XccoQ

攻克大模型訓推差異難題，螞蟻開源新一代推理模型Ring-flash-2.0

推薦閱讀

簽合同中的定與訂的區別是什么

黎明跟劉德華演的電影叫什么

早上空腹可以吃香蕉嗎

陜西省計算機二級報名時間2021 陜西省計算機二級考試報名時間2023

怎么設置兩個微信號可以同時在線

什么叫光學聲子聲學聲子

翔宇的寓意

面試 2022年上半年河南省中小學教師資格考試防疫須知

soho是什么性質的房子

發抖音可以用的句子

分享在華為Mate20中開啟一鍵省電的方法。

狗子發燒會自己好嗎

變圓的胖妞……更可愛啦又胖又萌又可愛的圖片

提高顧客滿意度的途徑

秋雨綿綿思萬千秋雨綿綿的唯美句子

天津南開電話區號多少，天津的電話區號是多少