Parallel-Probe問世,并行推理效率提升35.8%

Parallel-Probe問世,并行推理效率提升35.8%

文章圖片

Parallel-Probe問世,并行推理效率提升35.8%

文章圖片

Parallel-Probe問世,并行推理效率提升35.8%

文章圖片




當大模型推理進入 Parallel Thinking 時代 , 一個關鍵問題隨之出現:

模型在并行推理的過程中 , 究竟發生了什么?多條推理路徑同時展開 , 看似為模型帶來了更強的能力 , 卻也引入了一個長期被忽視的問題——大量計算是否正在被浪費在已經「沒有必要繼續」的思考上?

為了回答這一問題 , 來自馬里蘭大學、圣路易斯華盛頓大學、北卡羅來納大學教堂山分校等機構的研究團隊提出了 Parallel-Probe 。 不同于直接從算法設計出發 , 該研究首先通過引入 2D Probing , 對 online 并行推理過程中的全局動態性進行了系統性刻畫 。 研究發現 , 并行推理并非一個「算得越多越好」的過程:全局共識往往在所有分支結束之前就已提前穩定 , 而少數冗長的長尾路徑卻持續占據大量計算資源 , 成為并行推理效率的主要瓶頸 。

【Parallel-Probe問世,并行推理效率提升35.8%】基于這些關鍵發現 , 研究團隊進一步提出了一個 training-free 的并行推理控制算法 Parallel-Probe , 能夠在不犧牲核心準確率的前提下 , 顯著減少無效計算 , 將推理延遲降低 35.8% , 總 token 成本降低 25.8% 。



論文名稱:Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing 論文鏈接:https://arxiv.org/pdf/2602.03845 Code:https://github.com/zhengkid/Parallel-Probe Online Judge:https://huggingface.co/spaces/EfficientReasoning/efficient_reasoning_online_judgement
核心痛點:孤立的
「并行路徑」到底帶來了什么?

目前的并行推理方法(如多數投票機制)存在一個顯著缺陷:各推理分支彼此獨立 。 這意味著 , 即使大部分分支已經達成了共識 , 系統仍需等待所有分支(包括那些冗余的長尾路徑)全部生成完畢 。



研究人員提出 , 這種「局部視角」導致了嚴重的效率低下 。 通過系統 2D 探測接口 , 研究團隊揭示了并行推理的三大底層動態特征:

非單調縮放:準確率并非隨著算力投入單調增加 , 而是取決于「寬度」與「深度」的精細平衡(Figure (a)) 。 路徑長度不均:并行分支的生成長度差異極大 , 計算資源往往被少數「長尾」路徑占據(Figure (b)) 。 共識提早穩定:全局共識往往在所有分支結束前就已經達成(平均共識達成率僅為 0.31)(Figure (c)) 。
技術突破:基于全局信號的
「外科手術式」 2D Budget Control

即插即用:Parallel-Probe 是一種模型無關的方法 , 可直接適配各種現成的開源或閉源大語言模型 。



針對上述發現 , Parallel-Probe 采用了一種 Training-Free 的輕量級控制器 , 通過兩個核心機制優化同時從寬度和深度優化在線并行思考:

基于共識的早期停止(Consensus-based Early Stopping):該機制周期性地從各分支中提取中間結果 。 一旦探測到全局多數答案在連續幾個周期內保持穩定 , 控制器將直接終止整組推理 , 避免后續冗余步驟 。
基于偏差的分支剪枝(Deviation-based Branch Pruning):實時監控每一條路徑 。 如果某條路徑顯著偏離了當前的全局大趨勢(即出現異常) , 系統會果斷對其進行「剔除」 , 將資源傾注在更有潛力的路徑上 。
實驗結果:刷新帕累托前

沿研究團隊在 Qwen3 系列模型(0.6B 至 8B)上進行了廣泛測試 , 涵蓋了 AIME 2024/2025 和 HMMT 2025 等高難度競賽題庫 。



實驗結果表明 , Parallel-Probe 在性能、成本效率和延遲效率之間建立了更優的平衡點 , 系統性地優于現有的 ESC 和 SC 等基準方法 。

基礎設施貢獻:SCOUT 測試床

為了推動該領域的持續研究 , 團隊還推出了 SCOUT(順序與并發離線利用測試床) 。 該平臺實現了推理生成與控制策略的解耦 , 允許開發者在極低開銷下模擬各種縮放策略 , 極大提升了測試效率 。



代碼及 Online Judge 平臺已開源:

GitHub:https://github.com/zhengkid/Parallel-Probe 平臺:Efficient Reasoning Online Judge
本文作者

鄭童 , 馬里蘭大學計算機科學系二年級博士生 , 研究方向聚焦于 Reasoning 尤其是 Parallel Thinking(并行思考) 。 他的研究關注如何打破傳統順序推理在效率與魯棒性上的瓶頸 , 使大語言模型能夠以更結構化、更高效的方式進行并行推理 。 代表性工作包括 Parallel-R1 , 該工作首次提出基于強化學習的框架 , 在真實世界推理任務中自適應地激勵并行思考行為;以及 MoT(Mixture of Thoughts) , 系統性地構建多推理模態的并行思考機制 , 在訓練與推理階段統一整合自然語言、代碼與符號推理等不同模態 , 從而實現更高效、更具表達力的并行推理 。

    推薦閱讀