復旦北大聯合美團提出TDAR:破解Block Diffusion速度精度悖論

復旦北大聯合美團提出TDAR:破解Block Diffusion速度精度悖論

文章圖片

復旦北大聯合美團提出TDAR:破解Block Diffusion速度精度悖論

文章圖片

復旦北大聯合美團提出TDAR:破解Block Diffusion速度精度悖論

文章圖片

復旦北大聯合美團提出TDAR:破解Block Diffusion速度精度悖論

文章圖片

復旦北大聯合美團提出TDAR:破解Block Diffusion速度精度悖論



如今 , Test-Time Scaling(測試時擴展)已成為提升模型推理能力的關鍵路徑 。 而在這一浪潮中 , 塊擴散語言模型(Block Diffusion Language Models BDLMs) 憑借其獨特的并行解碼能力 , 被視為超越傳統自回歸(AR)模型推理效率的有力競爭者 。

然而 , 現有的 BDLMs 在面對長鏈推理時 , 陷入了一個兩難的效率 - 效果博弈:大塊(Large Block)解碼速度極快 , 但在復雜推理中容易出錯 , 導致性能大幅下降;而小塊(Small Block)雖然推理準確 , 但退化為接近自回歸的速度 , 失去了擴散模型的并行優勢 。 同時 , 現有的解碼策略(如固定置信度)無法適應長推理鏈中 “難易交替” 的動態特性 。 這引出了一個核心問題:如何在保持 Block Diffusion 高效并行優勢的同時 , 解鎖其在復雜推理任務上的 Test-Time Scaling 潛力?

近期 , 復旦大學 NLP 實驗室(FDU NLP)、北京大學知識計算實驗室(KCL)聯合美團 LongCat Team 提出了一種 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR , 通過引入 “粗思考 , 細求證” (Think Coarse Critic Fine TCCF) 范式與有界自適應置信度解碼 (Bounded Adaptive Confidence Decoding BACD) , 成功打破了速度與精度的零和博弈 。



論文標題:Advancing Block Diffusion Language Models for Test-Time Scaling 論文鏈接:https://arxiv.org/abs/2602.09555 代碼鏈接:https://github.com/LuLuLuyi/TDAR 模型鏈接: https://huggingface.co/lulululuyi/TDAR-8B-Thinking


TDAR-8B-Thinking 在 AIME24 上的性能與速度對比圖 。 TDAR 位于右上角 , 展示了在保持高推理速度的同時實現了 SOTA 的準確率 。

核心創新:雙重自適應機制

為了解決上述痛點 , 研究團隊提出了一套統一的測試時擴展框架 TDAR , 如下圖所示 , 該框架包含兩個核心設計:有界自適應置信度解碼(BACD)與 “粗思考 , 細求證” (Think Coarse Critic Fine TCCF) 范式 。


TDAR 方法概覽 。 展示了 TCCF 流程(Coarse Thinking -Fine Critic)以及 BACD 的動態閾值機制 。

1. 解碼層:BACD (Bounded Adaptive Confidence Decoding)

傳統的動態解碼往往依賴固定的置信度閾值 , 這在長鏈推理中極易導致 “一步錯 , 步步錯” 。 研究團隊提出了有界自適應置信度解碼(BACD)算法 , 該算法利用已生成 token 的平均置信度作為信號 , 動態調整當前的去噪閾值 。 同時 , 為了實現效率和效果的兼顧 , 增加了雙重邊界保護機制:上限(Upper Bound)負責在模型自信時激進加速 , 下限(Lower Bound)負責在模型不確定時強制保守 , 防止錯誤累積 。 這使得模型能夠像人類一樣 , 簡單步驟快思考 , 困難步驟慢推敲 。



2. 范式層:TCCF (Think Coarse Critic Fine)

長鏈推理并非均勻的過程 , 而是由 “探索” 和 “驗證” 組成的異質序列 。 在探索階段 , 思維發散但推理內容較為粗糙 , 而在驗證階段 , 需要更加精細的驗證和總結 。 研究團隊提出了 TCCF 范式 , 根據推理階段的功能分配不同的計算粒度:

Think Coarse(粗思考):使用 大 Block Size (block_size=16) 進行快速的探索性推理 , 迅速鋪開思維路徑 。 Critic Fine(細求證):使用 小 Block Size (block_size=1) 進行精細的驗證、糾錯和總結 , 確保最終答案的正確性 。【復旦北大聯合美團提出TDAR:破解Block Diffusion速度精度悖論】
此外 , 為了支持大 Block 的高效訓練 , 研究團隊引入了 Progressive Block Size Extension(漸進式塊大小擴展) 策略 , 有效緩解了 Block Size 增大帶來的性能衰退 。

實驗結果:速度與精度的雙重飛躍

研究團隊在 Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench 共6個主流推理基準上評估了 TDAR-8B-Thinking 。

實驗結果表明 , TDAR-8B-Thinking 在 8B 規模的 Block Diffusion 模型中取得了最佳性能 , 平均性能超越前 SOTA 模型 TraDo-8B 3.4 個百分點 , 解碼速度從 1.27 TPF 飆升至 2.97 TPF 。

結合 BACD 算法后 , 速度進一步提升至 3.37 TPF 且性能再漲 1.6 個百分點;疊加 TCCF 范式后 , 在 AIME24 復雜數學任務上準確率從 36.3% 提升至 42.9% , 同時維持 3.04 TPF 的高速度 , 實現了速度與性能的完美平衡 。

Method
AIME24 TPF
AIME24 AVG@8
Fast-dLLM-v2
2.58
0.0
SDAR-8B-Chat
2.96
5.0
DiRL-8B-Instruct
1.96
18.8
TraDo-8B-Instruct
2.13
13.3
TraDo-8B-Thinking
1.35
31.3
+ BACD
1.44
32.9
+ BACD +TCCF
1.36
35.8
TDAR-8B-thinking (ours)
4.47
34.6
+ BACD
5.07
36.3
+ BACD +TCCF
3.04
42.9
實驗結果表格 。 TDAR-8B 及其變體在各項指標上均優于現有的自回歸和擴散模型基線 。

深度分析:解構 TDAR 的性能來源

為了探究 TDAR 高效背后的機制 , 研究團隊對 Block Size、解碼策略及 TCCF 范式進行了多維度的量化分析 。

1. 突破效率瓶頸:BACD 解鎖高能效區間

研究團隊將 BACD 與 BDLMs 中主流的采樣算法進行了對比 , 包括 Static Confidence Decoding(固定步數 , 性能上限但效率低)和 Dynamic Confidence Decoding(動態閾值) 。

首先 , 研究團隊比較了在不同閾值下的性能與速度權衡 。 如下圖所示 , 對于 Dynamic Confidence Decoding , 隨著置信度閾值(Threshold)的降低 , 模型的性能會出現肉眼可見的衰退 。 相比之下 , BACD 在獲得持續效率增益的同時 , 依然維持了穩定的性能表現 。


BACD 與 Dynamic Confidence 等方法的效率 - 準確率在不同 threshold 對比

研究團隊對 BACD 在不同閾值下 , 模型輸出的行為進行了分析 , 相比于標準的動態置信度解碼 , BACD 在不同閾值下表現出極高的穩定性 。 分析顯示 , BACD 有效避免了低閾值下的 “模型崩潰” 和 “重復生成” 問題 , 證明了 BACD 在動態調整去噪步數時具有顯著的優越性 。


BACD 在不同閾值下的性能穩定性分析 。

2. Block Size 的權衡

Block Size 是影響 BDLMs 性能與效率的關鍵變量 。 研究團隊深入探究了其非線性影響:

如下圖所示 , 隨著 Block Size 增大 , 推理速度呈線性增長 , 但生成質量會出現顯著衰退 。 通過權衡分析 , 研究團隊鎖定 B=16 為 8B 模型的最佳平衡點(Sweet Spot) 。 TDAR 在此設置下 , 既保留了并行解碼的速度優勢 , 又通過漸進式訓練(Progressive Extension)維持了強大的推理能力 。


不同 Block Size 下模型性能與效率的 Trade-off 分析 。

3. TCCF 的普適性增益

在不同的解碼算法下應用 TCCF 機制 , 比較其在 AIME24 上的表現 , 如下圖所示 。 結果表明 , 無論是在 Dynamic Confidence 還是 BACD 算法下 , 引入 TCCF(即從 Coarse 到 Fine 的轉換)都能帶來一致且顯著的性能提升 。

特別是在 BACD 算法中 , TCCF 有效提升了不同閾值下的性能下限 。 這證明了 “粗思考 , 細求證” 機制能有效彌補單一解碼策略在細節處理上的不足 , 實現了 1+12 的效果 。


TCCF 策略在不同解碼算法及閾值下的性能增益分析 。

結論與展望:釋放 BDLMs 的推理潛力

TDAR 的提出 , 標志著 Block Diffusion 語言模型在復雜推理任務上邁出了重要一步 。 從此以后 , 大 Block Size 不再是禁區 , 通過漸進式訓練和 BACD 解碼 , 大 Block 也可以兼顧質量與速度 。 而 TCCF 范式的提出 , 證明了針對推理階段動態分配計算粒度的必要性 。

TDAR 不僅為 BDLMs 的 Test-Time Scaling 提供了一套高效的解決方案 , 也為未來并行推理模型的設計提供了新的思路 。

團隊成員均來自美團LongCat后訓練團隊:

陸毅 , 復旦大學自然語言處理實驗室碩士在讀 , 研究方向為大語言模型 , 復雜推理 , 導師為桂韜老師 。

孔德陽 , 北京大學軟件工程國家研究中心碩士在讀 , 研究方向為大語言模型 , 復雜推理 , 導師為葉蔚副研究員 。

王嘉寧 , 獲得華東師范大學博士學位 , 曾前往UCSD訪問學習 , 在ACL、EMNLP、AAAI、ICLR等頂會發表論文數十篇 , 目前就職于美團 , LongCat-Flash-Thinking核心作者之一 , 研究方向為大模型訓練與復雜推理 。

    推薦閱讀