又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

文章圖片

又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

文章圖片

又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

文章圖片

又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

文章圖片

又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

文章圖片

又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

文章圖片

又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

機器之心報道
機器之心編輯部
推理訓練促使大語言模型(LLM)生成長思維鏈(long CoT) , 這在某些方面有助于它們探索解決策略并進行自我檢查 。 雖然這種方式提高了準確性 , 但也增加了上下文長度、token / 計算成本和答案延遲 。
因此 , 問題來了:當前的模型能否利用其元認知能力 , 在這一帕累托前沿上提供其他組合策略 , 例如在降低上下文長度和 / 或延遲的情況下提高準確性?
帶著這一問題 , Meta 超級智能實驗室、倫敦大學學院、Mila、Anthropic 等機構的研究者進行了探索 。 從抽象層面來看 , 他們將 LLM 視為其「思維」的改進操作符 , 實現一系列可能的策略 。

論文標題:Rethinking Thinking Tokens: LLMs as Improvement Operators 論文地址:https://arxiv.org/pdf/2510.01123研究者探究了一種推理方法家族 —— 并行 - 蒸餾 - 精煉(Parallel-Distill-Refine PDR) , 該方法包含以下步驟:(i) 并行生成多樣化草稿;(ii) 將其蒸餾成一個有限的文本工作區;(iii) 在此工作區的基礎上進行精煉 , 生成的輸出將作為下一輪的種子 。 重要的是 , 通過調整并行度 , PDR 能夠控制上下文長度(從而控制計算成本) , 并且上下文長度不再與生成 token 的總數混淆 。
根據當前模型在 PDR 實例中的應用 , 它們在準確性上優于長思維鏈 , 同時延遲更低 。 當將并行度設置為 1 時 , 得到一個特例 —— 順序精煉(Sequential Refinement SR)(即迭代改進單一候選答案) , 其表現優于長思維鏈(代價是更高的延遲) 。
這種模型組織的成功引申了一個問題:進一步的訓練是否能夠改變帕累托前沿?為此 , 研究者訓練了一個 8B 規模的思考模型 , 使用強化學習(RL)使其與 PDR 推理方法保持一致 。
在具有可驗證答案的數學任務中 , 迭代 pipeline 在匹配的順序預算下超越了單次推理基準 , 并且 PDR 方法帶來了最大的提升 , 在 AIME 2024 和 AIME 2025 數學任務中 , 準確率分別提高了 11% 和 9% 。
LLM 作為改進操作符
研究者考慮任務 x(例如數學問題) , 目標是在給定的 token 預算下生成高質量的最終成果 s_final(解答、證明或程序) 。 設 M_θ 為一個(可以凍結或訓練的)大語言模型(LLM) , 并作為改進操作符 。 給定當前的成果 s_t(單次生成或一組生成結果)和緊湊的文本工作區 C_t , 模型會提出一個改進方案:

讀寫壓縮循環 。 每個步驟:(i) 讀取當前工作區 C_t , (ii) 通過 M_θ 寫出改進后的成果 s_t+1 , (iii) 使用綜合操作符 D 將成果壓縮回一個有限的工作區 , 為下一個步驟做準備 。

token 預算 。 研究者在以下兩個預算下評估每種方法:

操作符實例化
研究者探究了以下兩種短上下文的迭代精煉流程 。
一是順序精煉(SR , 單一候選的深度改進) 。
對于所有 t , 設置 C_t ≡ ?, 并且迭代改進單一成果進行 R 輪:
【又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限】
順序精煉與緊湊工作區 。 在 SR 中 , 不提供顯式的工作區 。 研究者還評估了一種變體 , 在每一輪之間插入錯誤分析步驟:模型不會直接改進之前的答案 , 而是首先識別并解釋當前解答中的缺陷 , 然后生成修訂后的解答 。 這些筆記在每一輪中充當一個暫時的、局部的工作區 。
二是并行 - 蒸餾 - 精煉(PDR , 每輪工作區) 。
研究者不保持持久的記憶 。 相反 , 對于每一輪 r = 1 . . .R , 基于當前的有限摘要采樣 M_r 個草稿(并行) , 然后重新綜合(蒸餾)出一個新的有限摘要供下一輪使用:

在最后一輪強制執行單次生成 M_R = 1 , 此生成結果作為最終解答 s_final 返回 。 摘要是按輪次生成且非持久的 , 早期文本不會被重播 , 防止了每次調用時上下文的增長 。
另外 , 研究者考慮了蒸餾操作符 D 的幾種實際實例化方式:
全局摘要 提取性 top-k 證據(共享) random-k / 自舉工作區最后是操作符一致性訓練 。 前文將 M_θ 視為凍結 , 并純粹依賴于提示 / 調度 。 現在 , 研究者通過在與測試時相同的短上下文迭代接口下優化模型 , 確保訓練與部署 / 推理的一致性 。
基礎算法 。 對于基準強化學習(RL) , 研究者使用來自 Minimax-M1 的 CISPO 目標 。 對于給定的提示 x , 生成器 π(?| θ_old) 使用舊策略 θ_old 生成 G 個回合 {o^G_i=1 。 像 sympy 或 math-verify 這樣的自動化檢查器被用來為每個回合分配標量獎勵 r_i(±1) 。 CISPO 將 GRPO 的組歸一化優勢與 REINFORCE 結合起來 , 達到以下目標 。

為什么 PDR 訓練時只進行一輪?研究者表示 , 進行單一的 PDR 回合(包括 M 個早期草稿 , 蒸餾為 C , 以及單次精煉)可以捕捉到關鍵的接口 , 同時控制 B_total 并穩定強化學習 。 在推理時 , 則可以使用相同的操作符運行多個回合(R1) 。
本文的數據混合方法在保留長軌跡能力的同時 , 教會模型在短迭代中進行推理 。 PDR 被模擬為一次并行→蒸餾→精煉回合 , 在該過程中 , 模型觀察 (x C) , 并對最終解答軌跡進行可驗證獎勵優化 。
實驗結果
在預算感知協議下 , 研究者將順序精煉(SR)和并行 - 蒸餾 - 精煉(PDR)操作符與長思維鏈(CoT)基準進行了比較 。 他們使用符號驗證器(如 sympy 和 math-verify) 來測量準確性 , 還將結果報告為順序預算 B_seq(沿著接受路徑的延遲代理)和總預算 B_total(所有調用的 token 數)的函數 。
研究者對 SR 和 PDR 作為推理時操作符應用于數學問題進行了評估 。 給定一個提示 x , 模型生成一個思維軌跡和最終解答 。 思維跨度由 「...」限定 , 去除后僅使用自包含的解答作為后續回合輸入的構建 。 他們在 AIME 2024 和 AIME 2025(AoPS , 2025)上進行評估 , 并報告在 16 次獨立生成中的準確率 - mean@16 。
通過實驗 , 研究者試圖回答以下四個研究問題:
RQ1:短上下文迭代是否能通過比較 {SR PDR 與長軌跡 CoT , 在匹配的 B_seq 和 B_total 下超越長軌跡? RQ2:通過比較三種 D 變體:全局摘要、提取性 top-k 和 random-k 自舉 , 找出生成 C^(r) 的最佳蒸餾策略 。 RQ3:識別給定模型的驗證能力對最終性能的影響 。 RQ4:操作符一致性訓練是否能夠改變帕累托前沿?他們比較了操作符一致性 + 標準強化學習與標準單軌跡強化學習 。RQ1:短上下文迭代是否在匹配延遲的情況下超越長軌跡?
圖 3 和圖 9 報告了在相同有效 token 預算 Bseq 下 , AIME 2024 和 AIME 2025 上的準確性 。 研究者觀察到 , 從長思維鏈(Long CoT)轉到順序精煉(SR)時 , 準確性穩定提升;從 SR 到并行 - 蒸餾 - 精煉(PDR)時 , 這一提升繼續 。
對于 o3-mini , 在有效預算為 49k token、每次調用思維預算為 16k token 時 , 準確性從 76.9(長鏈推理)提升至 81.5(SR)和 86.7(PDR) , 相較長思維鏈 , 絕對值提升了 +9.8 個百分比 。 gemini-2.5-flash 從 SR 到 PDR 的變化小于 o3-mini , 表明 gemini-2.5-flash 在自我驗證方面更強 。


RQ2:哪種蒸餾(即摘要)策略效果最佳?
表 2 研究了在固定輪次(每輪生成次數為 g = [16 8 4
)和每輪 k = 2 個候選的設置下 , PDR 中的蒸餾操作符 D 。
在不同數據集和基礎模型上 , 樣本級的 top-k 和全局摘要選擇一致性優于共享 top-k 和 random-k , 并且隨著思維預算 B 的增加 , 差距逐漸擴大 。
主要的例外是 AIME 2025 與 o3-mini 的情況 , 其中全局摘要優于其他方法 。 研究者推測 , o3-mini 的摘要特別擅長從正確和錯誤的草稿中捕捉線索 , 而這些線索在蒸餾后會促使更強的后續精煉 。

RQ3:驗證能力如何影響推理時間性能?
從圖 6 和圖 8 中 , 研究者觀察到注入錯誤候?。 ∣racle (Incorrect))會導致所有模型的性能大幅下降 。 對于 o3-mini , 性能下降顯著大于 gemini-2.5-flash , 這表明后者具有更強的自我驗證和恢復能力 。 這一趨勢在 AIME 2024 和 AIME 2025 中都得到了體現 。


RQ4:操作符一致性訓練是否推動了帕累托前沿的移動?
表 3 總結了主要結果 。 從每個強化學習(RL)目標得到的模型分別在長思維鏈(Long CoT)生成和 PDR 上進行了評估 。 PDR 強化學習相比基準方法在 AIME 2024 上提升了 +3.34 個百分點 , 在 AIME 2025 上提升了 +1.67 個百分點 。
從基準 RL 檢查點開始的持續更新 , 使得額外的 PDR 強化學習帶來了更大的提升 , 分別在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 個百分點 。 此外 , 研究者還觀察到 , 在 PDR RL 訓練下 , 長思維鏈生成也有一定的增益 。
這些結果表明 , 使用操作符一致性的強化學習目標進行訓練減少了訓練與部署之間的不匹配 , 將額外的計算轉化為準確性 , 而不會增加每次調用的順序預算 。

更多技術細節和實驗結果請參閱原論文 。

    推薦閱讀