DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費

DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費

文章圖片

DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費

文章圖片

DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費

文章圖片

DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費

文章圖片

DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費

文章圖片

DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費

文章圖片

DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費

文章圖片


機器之心報道
編輯:張倩
在最近的一檔脫口秀節目中 , 演員張俊調侃 DeepSeek 是一款非常「內耗」的 AI , 連個「1 加 1 等于幾」都要斟酌半天 。

在 AI 領域 , 這種情況被稱為「過度思考」 。 它的存在讓 AI 大模型公司非常頭疼 , 因為實在是太浪費算力了 , 那點訂閱費根本 cover 不住 。
所以 , 早在去年的 GTC 大會上 , Transformer 論文作者之一 Illia Polosukhin 就提到 , 自適應計算是接下來必須出現的事情之一 , 我們需要知道在特定問題上應該花費多少計算資源 。
今年 , 越來越多的模型廠商將這件事提上日程 ——OpenAI 給 GPT-5 裝了個「路由器」 , 確保模型可以在拿到用戶問題后 , 自動選擇合適的模型 , 像「天空為什么是藍色的」這種問題直接就丟給輕量級模型;DeepSeek 更激進 , 直接把對話和推理能力合并到了一個模型里 , 推出了單模型雙模式的 DeepSeek v3.1 。
如圖所示 , 這兩種方案在節省 token 方面都有顯著的效果 。

在內部評測中 , GPT-5(使用思考模式)能以比前代模型更少的 token 數完成任務 —— 大約少 50–80% 的輸出 token 即可達到相同甚至更好的效果 。

測試數據顯示 , 在 AIME 2025、GPQA Diamond 和 LiveCodeBench 這些基準測試中 , DeepSeek v3.1(使用思考模式)和 DeepSeek R1 得分類似 , 但消耗的 token 數量減少了 25-50% 。
未來一段時間 , 這種混合推理模式有望成為大模型領域的新常態 。 如何在成本和性能之間取得平衡正成為模型競爭力的新基準 。
在這篇文章中 , 我們將討論這種趨勢的成因、各大公司的動向以及相關的研究 , 希望對大家有所啟發 。
最好的模型永遠最受歡迎
但模型廠商怎么 cover 成本?
前段時間 , TextQL 聯合創始人兼 CEO 丁一帆(Ethan Ding)在一篇博客中深入討論了一個反直覺的現象 —— 明明 Token 的成本一直在下降 , 但各家模型公司的訂閱費卻在飛漲 。
他將這一問題的癥結歸結為:那些降價的模型大部分不是 SOTA 模型 , 而人類在認知上的貪婪決定了 , 大部分人只想要「最強大腦」 , 所以 99% 的需求會轉向 SOTA 。 而最強模型的價格始終差不多 。
更糟糕的是 , 隨著「深度研究」、Agent 等模式的出現 , AI 能完成的任務長度每 6 個月就翻一倍 。 到 2027 年 , 我們可能將擁有能連續運行 24 小時、而且不會跑題的 AI agent 。 按照這一趨勢發展下去 , 這些「最強大腦」所消耗的 token 數量將會爆炸式增長 。
換算成經濟賬 , 這意味著 , 現在一次 20 分鐘的「深度研究」調用大概花費 1 美元 , 但到了 2027 年 , 一次 Agent 調用就變成了 72 美元 / 天 / 用戶 。
所以 , 今年好多 AI 模型廠商都提高了訂閱費 , 還限制用量 。 因為原來每月 20 美元的訂閱費 , 連用戶每天進行一次 1 美元的深度調用都撐不起 。
這部分多出來的訂閱費給模型廠商提供了一些緩沖空間 , 但終究是緩兵之計 。 所以模型廠商還想了一些其他的辦法來應對成本積壓 , 包括將處理任務卸載到用戶機器上、根據負載自動切換模型等 。 我們在 GPT-5 中看到就是后面這種做法 。 DeepSeek 則更進一步 , 讓一個模型判斷問題難度 , 然后在思考 / 非思考模式之間切換 。 除此之外 , Claude、Qwen 等也是這條路線的探索者 , 同樣值得關注 。
這些大模型
都在嘗試混合推理
Anthropic 的 Claude 系列
Anthropic 今年 2 月份推出的 Claude 3.7 Sonnet 是市場上首個混合推理模型 。 它可以近乎實時地給出回應 , 也可以進行深入的、逐步展開的思考 , 并將思考過程展示給用戶 。 API 用戶還能精細控制模型的思考時長(讓 Claude 思考不超過 N 個 token) 。
在當時的博客里 , Anthropic 就解釋了他們的理念:「我們開發 Claude 3.7 Sonnet 的理念與市面上其他推理模型截然不同 。 正如人類使用單個大腦進行快速響應和深度思考一樣 , 我們認為推理應該是前沿模型的集成能力 , 而非一個完全獨立的模型 。 這種統一的方法也為用戶帶來了更流暢的體驗 。 」
在之后的 Claude 4 系列模型中 , Anthropic 延續了這種模式 。 不過 , 他們一直保留了一個「擴展思考」的開關 , 讓用戶來決定何時開啟深度思考 。

阿里的 Qwen3 系列
阿里今年 4 月份開源的 Qwen3 系列模型是混合推理模型的開源代表 , 采用單一模型框架融合了思考模式與非思考模式 。 兩種模式的切換完全由用戶控制 , 不依賴于自動檢測或其他隱式觸發 。
具體來說 , 它支持在對話中插入特殊標記 /think 或 /no_think 來動態切換 , 或者在 API 調用時設置特定參數 。
為防止推理過程過長 , Qwen 3 還提供了 thinking_budget 參數 , 用戶可以設定推理鏈最大的 token 數;若實際推理超過此預算 , 模型會截斷中間內容并直接生成最終答案 。
具體技術信息可以參見 Qwen 3 技術報告:https://arxiv.org/pdf/2505.09388
不過 , 這個系列的混合推理模型并沒有達到理想效果 , 在基準測試中表現也不夠好 。 所以在與社區溝通并深思熟慮后 , 阿里決定停用該模式 , 轉頭分別訓練 Instruct 模型和 Thinking 模型 。 新模型已經在 7 月份正式開源 , 并且相比混合推理模型實現了明顯的性能提升(尤其是 instruct 模型) 。

對于 Qwen 來說 , 這算是一個小小的挫折 。 但該團隊并沒有完全放棄這個想法 。 「我們仍在繼續研究混合思維模式 , 」該團隊寫道 , 并暗示一旦解決了質量問題 , 該功能可能會在未來的模型中重新出現 。
谷歌的 Gemini 系列
今年 4 月 , 谷歌推出了首款混合推理模型 ——Gemini 2.5 Flash 。 該模型引入了「思考預算」機制 , 允許開發人員指定在生成響應之前應分配多少計算能力用于推理復雜問題 。 模型在生成響應之前會評估多種潛在路徑和考慮因素 。 思考預算可以從 0 調整到 24576 個 token 。 使用 Gemini 2.5 Flash 時 , 輸出成本會因是否啟用推理功能相差 6 倍 。
更擅長深度思考的 Gemini 2.5 Pro 雖然在發布時沒有「思考預算」機制 , 但在 6 月份的一次重大更新時又加上了 。
它的出現則被定義為面向 B 端的實用主義創新 , 而非一個面向普通消費者的通用模型 。 因為它允許企業在生產系統中像調節水龍頭一樣精確調節 AI 的思考成本 , 這對于需要將 AI 應用大規模部署的企業和開發者來說是一個非常偉大的功能 。
在實現方式上 , 有人猜測這可能是一個「混合方案」—— 模型可能實際結合了一個擅長推理的大模型和一個用于輸出的小模型 , 兩者根據預算切換 。 不過 , 這個猜想還未被證實 。

Gemini 2.5 系列技術報告:https://arxiv.org/pdf/2507.06261
快手的 Kwai 系列
快手于今年 6 月初推出了自動思考大模型 KwaiCoder-AutoThink-preview 。 該模型融合了「思考」和「非思考」能力 , 并具備根據問題難度自動切換思考形態的能力 。
他們的核心想法是在思考之前加上一個 pre-think 的階段 , 讓模型預先判斷問題的困難度 。
簡單來說 , KwaiCoder-AutoThink-preview 模型采用了兩步式訓練方法 , 首先通過 Agentic 方法構造長短思考的 Cold Start 數據讓模型在進行思考之前先進行一個「pre-think」 , 判斷一下問題的難度 。然后再使用加上專門為 Auto Think 任務設計的帶有過程監督的 Step-SRPO 增強模型對各種任務難以程度判斷的準確性 。
今年 7 月 , 快手更進一步 , 開源了 AutoThink 大模型 KAT-V1 , 也是主打無需人類手動設置 , 模型自主判斷 。
具體細節可以參見技術報告 。
技術報告:https://arxiv.org/pdf/2507.08297
字節的豆包系列
字節今年 6 月發布的 Seed 1.6 (Adaptive CoT) 也是一個混合推理模型 , 支持 on/off/auto 三種思考模式 , 讓用戶可以根據使用場景自行選擇 , 大模型也可以自己判斷是否使用深度思考 。
據官方介紹 , 這種自適應思考能力的實現依靠一種動態思考技術來實現 , 即 Adaptive CoT , 能在保證效果的同時壓縮 CoT 長度 。
Adaptive CoT 相關論文在 5 月份就已經上線(AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning) , 它將自適應推理建模為一個帕累托優化問題:在保證模型性能的同時 , 最小化 CoT 調用帶來的成本(包括觸發頻次與計算開銷) 。 具體來說 , 研究者采用基于強化學習的方法 , 使用近端策略優化(PPO) , 通過動態調整懲罰系數來控制 CoT 觸發決策邊界 , 使模型能夠依據隱含的問題復雜度判斷是否需要 CoT 。 關鍵技術貢獻之一是「選擇性損失掩蔽」(Selective Loss Masking , SLM) , 用以防止多階段 RL 訓練中的決策邊界崩塌 , 確保觸發機制穩健且穩定 。 當時 , 這項技術首先被部署到了 doubao-1.5-thinking-pro-m-250428 版本里 。
具體細節可參見論文:https://arxiv.org/pdf/2505.11896
不過 , 字節表示 , 他們最終還是希望將(Seed1.6-Thinking 所代表的)極致推理效果和(Seed 1.6 所代表的)動態思考技術融合到一個模型里 , 為用戶提供更智能的模型 。
騰訊的混元系列
騰訊今年 6 月份發布的 Hunyuan-A13B 也是一個混合推理模型 。 為了讓模型基于任務需求動態調整推理深度 , 他們實現了一個雙模式思維鏈(Dual-Mode CoT)框架 , 讓模型在快、慢思考之間切換 。
在技術報告中 , 他們提到了這個框架的一些細節 。 在后訓練階段 , 他們采用統一的訓練結構來同時優化兩種推理模式 。 為了使模型輸出標準化 , 兩種模式的訓練樣本均采用統一結構化設計:在專用的think內容塊中 , 通過有無詳細推理步驟進行區分 。 具體而言 , 快速思維模式刻意保持think\\think為空內容塊 , 而慢速思維模式則在該區塊明確包含逐步推理過程 。 用戶可通過指定控制標簽選擇模式:使用「/no_think」啟用快速思維模式 , 「/think」啟用慢速思維模式 。 若未提供控制標簽 , 系統默認采用慢速思維模式 。
技術報告:https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf
智譜的 GLM-4.5 系列
今年 7 月份 , 智譜發布了 GLM-4.5 和 GLM-4.5-Air , 都支持混合推理模式 。 該模式的形成主要與模型的后訓練有關 。
具體來說 , 他們的后訓練分為兩個獨立的階段 。 在第一階段(專家訓練) , 他們構建了專注于三個領域的專家模型:推理、代理以及通用聊天 。 在第二階段(統一訓練) , 他們采用自蒸餾技術來整合多個專家 , 讓模型學會了為每個任務應用最有效的長上下文推理來得出準確的答案 。 特別是 , 鑒于某些領域(如閑聊)不需要冗長的思考過程 , 他們精心平衡了包含完整推理過程的訓練數據與缺乏明確思考過程的數據 。 這種方法使模型能夠在反思和即時響應模式之間切換 , 從而創建了一個混合推理模型 。
更多細節可參見技術報告 。
技術報告:https://arxiv.org/pdf/2508.06471
OpenAI 的 GPT-5
有人說 , 如果 GPT-3 到 GPT-4 的重大突破是專家混合(Mixture of Experts) , 那么 GPT-4o/o3 到 GPT-5 的重大突破可能是模型混合(Mixture of Models , 也稱為「路由」) 。
和很多將思考 / 非思考能力融合到同一個模型中的思路不同 , GPT-5 選擇的方向是在整個系統中加入一個實時路由 , 它能根據對話類型、復雜程度、工具需求和明確意圖(例如 , 如果你在提示中說「仔細思考這個問題」) , 快速決定使用哪個模型(如下表) 。

在 GPT-5 技術報告中 , 他們將快速、高通量的模型標記為 gpt-5-main 和 gpt-5-main-mini , 將思考型模型標記為 gpt-5-thinking 和 gpt-5-thinking-mini 。 API 中還提供更小更快的思考型模型 nano 版本 , ChatGPT 中還提供 gpt-5-thinking-pro 。 這些模型均由上一代模型(左邊一欄)演變而來 。
該路由通過真實信號持續進行訓練 , 包括用戶何時切換模型、對回復的偏好以及測量的正確率等 , 隨著時間推移不斷改進 。 一旦達到使用限制 , 每個模型的迷你版本將處理剩余的查詢 。
不過 , 這個模式同樣反響不佳 。 不少人在社交媒體上吐槽自己的問題被路由到了低質量模型 。 更讓人抓狂的是 , 很多時候你無法判斷該不該相信模型給出的答案 , 因為路由結果是不透明的 。 這讓 ChatGPT 在專業用戶中的口碑有所下滑 。



不過 , 對于占 ChatGPT 用戶數超 95% 的免費用戶來說 , 這個路由反而提升了體驗 。 之前 , 這部分用戶是很難用上高級思考模型的 , 但是現在有一定概率會被路由到高級模型 。

對此 , SemiAnalysis CEO Dylan Patel 分析說 , 這可能是 OpenAI 在免費用戶變現上邁出的重要一步 。 和專攻 to B 模式的 Anthropic 不同 , OpenAI 的商業重心依然集中在 C 端用戶上 , 但這部分用戶大部分是免費用戶 。 對于這種情況 , 傳統 APP 一般是通過讓免費用戶看廣告來賺錢 , 但對于 AI 應用 , 這種模式不再適用 。
路由模型存在的價值在于 , 它可以從海量免費用戶的提問中識別出商業意圖 , 比如訂機票、找律師 , 然后把這些高價值請求導向高算力模型 + 后續 Agent 服務 , OpenAI 再從成交中抽成 。 路由模式讓 OpenAI 第一次把「成本」和「商業價值」寫進模型決策邏輯 , 既省算力 , 又為下一步「AI 超級應用抽成」鋪好了路 。
不過 , 路由未必是實現這些目標的終極方式 。 OpenAI 表示 , 他們之后也打算將兩種思考模式的切換整合到單個模型里 。
DeepSeek 的 DeepSeek v3.1
DeepSeek 最近發布的 v3.1 是國內團隊在「單一模型實現思考 / 非思考模式切換」上的另一項嘗試 。 DeepSeek 官方表示 , DeepSeek-V3.1-Think 實現了與 DeepSeek-R1-0528 相當的答案質量 , 同時響應速度更快 。
對于開發者來說 , 它的思考模式和非思考模式可以由提示序列中的think和/think標記觸發 。 對于 C 端用戶 , 可以通過點擊「深度思考」按鈕切換模式 。
由于發布時間接近 , 又都有混合推理模式 , DeepSeek v3.1 和 GPT-5 難免被拿來對比 。 在性能上 , DeepSeek v3.1 雖然在一些基準上與 GPT-5 旗鼓相當 , 但綜合能力仍然不如 GPT-5 。 在價格上 , DeepSeek v3.1 則有著明顯的優勢 , 可以說為企業提供了一個高性價比的開源選擇 。

想深入了解混合推理?
這些研究方向值得關注
從以上模型可以看出 , 雖然大家的共同目標都是減少推理過程中的 token 浪費 , 但具體實現方法有所不同 , 有的借用路由將問題導向不同的模型 , 還有些在一個模型中實現快慢思考的切換 。 在切換方式上 , 有些是用戶顯式控制 , 有些是模型自動判斷 。
通過一些綜述研究 , 我們可以看到更多不同的思路 。
比如在「Towards Concise and Adaptive Thinking in Large Reasoning Models: A Survey」這篇綜述中 , 研究者將現有方法分為兩類:
一類是無需訓練的方法 , 包括提示詞引導、基于 pipeline 的方法(比如路由)、解碼操縱和模型融合等;
提示詞引導:通過精心設計的提示(例如 , 直接提示、token 預算、thinking 模式、no-thinking 指令)來利用模型遵循指令的能力 。 盡管該方法的簡單性使其能夠快速部署 , 但其有效性取決于模型對約束的遵守情況 , 而這往往并不一致 。 研究表明 , 這些方法會產生意想不到的后果 , 例如隱藏的不準確之處和輸出穩定性的降低 , 特別是在實施嚴格的 token 限制或抑制推理步驟時 。 基于 pipeline 的方法:該方法將推理工作流程模塊化 , 通過任務卸載降低大語言推理模型的計算成本 , 同時保持推理質量 。 其中 , 基于路由的方法根據輸入復雜性、模型能力或預算限制動態選擇最佳模型 / 推理模式 。 其他策略包括動態規劃和迭代優化以及效率提升技術 。 這些方法顯著縮短了推理長度 , 但引入了額外的開銷(如路由延遲) , 導致端到端延遲增加 , 因此需要在效率和延遲之間進行權衡 。 解碼操縱:通過預算強制、提前退出檢查、logit 調整或激活引導等方式 , 動態介入生成過程 。 像 DEER 和 FlashThink 這類技術 , 通過監測置信度或語義收斂來實現更短的推理鏈 , 不過頻繁的驗證步驟可能會抵消計算節省 。 并行 scaling 策略進一步提高了效率 , 但需要仔細校準以平衡冗余度和準確性 。 模型融合:即將一個思考緩慢的大語言推理模型(LRM)和一個思考快速的大語言模型(LLM)整合為一個單一模型 , 并且期望這個單一模型能夠平衡快慢思考 , 從而實現自適應思考 。 這種方法通過參數插值或基于激活的融合來綜合長推理和短推理能力 。 雖然這種方法對中等規模的模型有效 , 但在處理極端規模(小型或大型模型)時存在困難 , 并且缺乏對推理深度的精細控制 。 與此同時 , 像 Activation-Guided Consensus Merging (ACM) 這樣的最新進展凸顯了互信息分析在對齊異構模型方面的潛力 。另一類是基于訓練的方法 , 重點在于縮短推理長度 , 并通過微調(SFT/DPO)或強化學習(RL)來教導語言模型進行自適應思考 。
微調:微調可以分為五類:長思維鏈壓縮方法提高了推理效率和適應性 , 但在壓縮效果與推理保真度之間面臨權衡 , 同時還存在數據需求增加和泛化方面的挑戰;而短思維鏈選擇微調則通過促進簡潔或自我驗證的推理路徑來提高推理效率 , 但可能存在遺漏關鍵步驟的風險 , 或者需要復雜的訓練過程 , 并在簡潔性和準確性之間進行仔細權衡;隱式思維鏈微調通過潛在推理表示或知識蒸餾來實現效率提升 , 但由于推理步驟不明確而犧牲了解釋性 , 且壓縮表示與任務要求之間可能存在不一致的風險;近端策略優化(DPO)變體方法通過偏好學習實現簡潔性和準確性之間的多目標優化平衡 , 但在構建高質量偏好對以及在嚴格長度限制下保持推理深度方面面臨挑戰;其他混合方法結合了快速 / 慢速認知系統或新穎的損失函數來實現自適應推理 , 不過它們通常需要復雜的訓練流程 , 并對雙模式交互進行仔細校準 。 強化學習:強化學習方法通過五個關鍵范式來平衡簡潔性和準確性 。 帶長度懲罰的強化學習通過獎勵塑造或外部約束對冗長的輸出進行懲罰 , 從而提高效率 , 但存在將復雜任務過度簡化或過度擬合懲罰閾值的風險 。 GRPO 變體方法通過使推理模式多樣化或整合難度感知獎勵來解決「格式崩潰」問題 , 不過它們通常需要復雜的損失設計和多組件系統 。 難度感知強化學習通過顯式難度估計或隱式信號(響應長度、解決率)使響應長度適應問題的復雜性 , 但在準確的難度校準和跨領域泛化方面面臨挑戰 。 思維模式強化學習能夠在審慎(「思考」)和反應性(「不思考」)模式之間動態切換 , 但在模式選擇穩定性和探索與利用的權衡方面存在困難 。 其他強化學習創新引入了可學習的獎勵函數、混合框架或新穎的指標 , 盡管這些通常需要大量的計算資源或面臨可擴展性問題 。具體分類如下圖所示:

綜述鏈接:https://arxiv.org/pdf/2507.09662
值得注意的是 , 除了語言模型 , 多模態模型領域的混合推理探索也已經開始 , 而且出現了 R-4B 等自動化程度較高的自適應思考模型 , 我們將在后續的報道中完整呈現 。
如果你想動態追蹤這個領域的新研究 , 可以收藏以下 GitHub 項目:https://github.com/hemingkx/Awesome-Efficient-Reasoning#adaptive-thinking

下一個前沿:
讓 AI 以最低代價在恰當時刻思考
在過去幾年 , AI 領域的競爭更多集中在構建更強大的模型上 。 如今 , 混合推理模式的大規模出現標志著人工智能行業的重點從單純構建更強大的系統轉向創建實用的系統 。 正如 IBM 研究院高級項目經理 Abraham Daniels 所說 , 對于企業而言 , 這種轉變至關重要 , 因為運營復雜人工智能的成本已成為主要考慮因素 。
但是 , 這一轉變也在經歷陣痛 。 一方面 , 能夠不靠人類指示激活深度思考模式的成功模型還相對較少 。 另一方面 , 嘗試去掉顯式開關的思維轉換模式還沒有實現足夠令人滿意的效果 。 這些現象都說明 , 混合推理的下一個前沿將是更智能的自我調節 。
【DeepSeek、GPT-5帶頭轉向混合推理,一個token也不能浪費】換句話說 , 混合推理的未來競爭將不再只是「是否能思考」 , 而是「能否以最低代價在恰當時刻思考」 。 誰能在這一點上找到最優解 , 誰就能在下一輪 AI 性能與成本博弈中占據主動 。

    推薦閱讀