算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性

算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性

文章圖片

算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性

文章圖片

算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性

文章圖片

算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性

文章圖片

算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性

文章圖片


機器之心報道
編輯:Panda
用強化學習讓 LLM 具備推理(reasoning)能力確實很有效 , 但耗費頗高 。
這類模型在回答問題前會生成一長串的思維鏈(LongCoT);并且增加「思考 token」 的數量能夠提升模型的能力 。 與任何強化學習問題一樣 , 它存在一個決定軌跡如何生成的環境 。
對于推理 LLM 而言 , 這個環境相當簡單 , 以至于常常被忽略:狀態(state)是由提示詞(prompt)與截至目前已生成的推理 token 拼接而成 , 而動作(action)則是從策略(即推理 LLM)中采樣的下一個 token 。
這種設計看似輕巧 , 但卻可能導致狀態的大小沒有邊界 —— 會隨著思考過程的加長而不斷增長 。 對于基于注意力機制的策略來說 , 這意味著整個過程中的計算量會面臨令人望而卻步的二次級增長 。
為了降低推理 LLM 長思考的計算量 , 人們已經提出了許多方法 , 包括使用帶有長度正則化的目標函數、剪枝或早停方法等 。
而近日 , Mila 和微軟研究院等多家機構的一個聯合研究團隊卻另辟蹊徑 , 提出了一個不同的問題:如果環境從一開始就不會造成計算量的二次級增長呢?
他們提出了一種新的范式 , 其中策略會在基于一個固定大小的狀態上進行推理 。 他們將這樣的策略命名為馬爾可夫式思考機(Markovian Thinker) 。

論文標題:The Markovian Thinker 論文地址:https://arxiv.org/abs/2510.06557v1 模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd 代碼倉庫:https://github.com/McGill-NLP/the-markovian-thinker這項研究的三位共一作者之一的 Amirhossein Kazemnejad 在 上表示 , Delethink 的有效性開啟了強化學習思維環境的創新 。 此外 , 馬爾可夫思維的程度及其有效性表明 , 推理 LLM 可以以不同的方式構建 , 或許可以采用非二次架構 。

馬爾可夫式思考機
馬爾可夫式思考機的核心思想是重構強化學習的構成形式 , 使得無論總思考長度如何 , 策略讀取的有效狀態大小都是有界的 。 其直接效果是深遠的:更長的思考過程僅需線性的計算量和恒定的內存 , 這與思考長度有關 , 從而將「模型思考多久」與「它必須處理多少上下文」這兩個問題解耦 。
他們通過 Delethink 這一范式對思想進行了實例化 。 它是一個強化學習環境 , 通過將推理過程組織成一系列固定大小的區塊(chunk)來引導馬爾可夫行為 。

Delethink 將思維強化學習環境重新定義為一個分塊的、馬爾可夫式的過程:其生成過程以固定大小的區塊 (chunk) 進行 , 在每個區塊的邊界處 , 環境會將上下文 (context) 重置為一個全新的提示詞 , 該提示詞包含原始查詢以及一小段來自前一個區塊的延續內容 。
這會迫使策略 (policy) 必須學會通過維持一個文本狀態來跨區塊推進思考 , 從而創建一個「馬爾可夫式思考機」 (Markovian Thinker) 。
相比之下 , LongCoT 環境會無限制地拼接 token , 因此其狀態(以及模型上下文)會隨著軌跡 (trace) 的延長而不斷增長 。
算法 1 的偽代碼展示了對單個查詢的訓練過程 。

更多細節請訪問原論文 。 總之 , 經過這樣的設計 , 在 Delethink 中的生成和用于更新策略的反向傳播兩個階段都是線性 scaling 的 , 而在 LongCoT 中則是二次級的 。 下圖展示了當思考長度從 n token 增長到 nS token 時 , LongCoT 和 Delethink 的 FLOP、內存、反向傳播時間、生成時間的變化情況 。

效果顯著
【算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性】該團隊進行了實驗:Delethink 的效果非常顯著 。 即便以 8K 大小的區塊進行推理 , 使用 Delethink 訓練的 DeepSeek R1-Distill 1.5B 模型依然可以思考長達 24K token , 在相同的 24K 思考預算下 , 其在數學基準測試上的表現能達到并超過 LongCoT-RL 。


在測試時擴展方面 , Delethink 在 LongCoT-RL 性能飽和時仍能持續提升 , 帶來了額外的增益 。

更進一步 , 他們使用 Delethink 訓練 R1-Distill 1.5B 模型進行長達 96K token 的思考;僅需少量額外的訓練步驟 , 它就在 AIME’24 上達到了 49% 的準確度 , 其解題過程平均長度為 36K token 。

線性計算帶來的效果是顯著的:他們根據實驗數據估計 , 對于平均 94K 的思考長度 , LongCoT-RL 訓練需要 27 個 H100 - 月 , 而使用 Delethink 則僅需 7 個 H100 - 月 。
為什么有效?
為了探究 Delethink 訓練有效的原因 , 他們還分析了模型在強化學習初始化階段的表現 。
他們觀察到 , R1-Distill 系列模型(1.5B-14B) 在沒有任何額外訓練或提示的情況下已經能夠零樣本(zero-shot)地采樣出馬爾可夫式的軌跡 , 甚至恢復了大部分標準 LongCoT 的性能 。

這種強大的初始化(即大量符合期望行為的、分布內的正向樣本)為強化學習提供了一個有利的起點 。
他們進一步在 Delethink 環境中研究了參數量高達 120B 的推理模型 。 例如 , GPT-OSS 120B(Agarwal et al. 2025)在博士水平問題、編程任務、數學競賽和填字游戲等多個領域都表現出穩健的馬爾可夫式思考能力 。
這些結果共同表明 , Delethink 能與最先進的模型兼容 , 并能隨之擴展 。
結語
馬爾可夫式思考的成功表明 , 將思考長度與上下文大小解耦原則上可以讓下一代推理模型進行數百萬 token 的思考 。 它凸顯了通常被視為固定不變的強化學習環境 , 實際上是推動進步的強大杠桿 。
這也表明 , 非二次級復雜度的序列架構可能會讓推理模型受益尤多 , 因為思考過程可以被有效地轉化為馬爾可夫式的 。

    推薦閱讀