AI需要「像人類」那樣思考？AlphaOne揭示大模型的「思考之道」

2026-04-16 杭州機器人

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

本文共同第一作者為張均瑜與董潤沛，分別為伊利諾伊大學厄巴納-香檳分校計算機科學研究生與博士生；該研究工作在伊利諾伊大學厄巴納-香檳分校張歡教授與 Saurabh Gupta 教授，加州大學伯克利分校 Jitendra Malik 教授的指導下完成。
「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman ， Thinking ， Fast and Slow(2011)

在思維節奏這件事上，人類早已形成一種獨特而復雜的模式。
我們習慣讓 AI 模仿人類思維方式：先依賴直覺快速反應（System 1），再慢慢進入邏輯推理（System 2）；答題時先給出初步判斷，再自我反思逐步修正……模仿人類的推理節奏，已經成為語言模型推理策略的默認路徑。
最近，一項來自 UIUC 與 UC Berkeley 的新研究提出：也許模型不該再走這條「人類范式」的老路。
他們提出了一種新的測試時推理調控框架——AlphaOne ，主張讓模型反其道而行：先慢速思考，再快速推理。

論文標題： AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
項目主頁：https://alphaone-project.github.io/
論文地址：https://arxiv.org/pdf/2505.24863
代碼地址：https://github.com/ASTRAL-Group/AlphaOne

令人意外的是，這一策略不依賴任何額外訓練，僅需在測試階段引入一個全局推理調控超參數 α ，即可顯著提升模型的推理準確率，同時讓生成過程更加高效緊湊。或許，是時候重新思考：AI 真的需要「像人類」那樣思考嗎？
看似聰明的推理，其實是不懂停下來的錯覺
近年的大型推理模型（LRMs），如 OpenAI o1 和 DeepSeek-R1 ，在復雜推理任務上取得顯著進展，逐漸具備類似人類的 System-2 能力，能夠在測試階段主動慢思考，從而處理需要高階認知的難題。
這些模型通過強化學習訓練出的「慢思考」策略，讓它們在面對復雜問題時能夠自動放緩推理節奏，從而取得更好的表現。但這種自動「慢下來」的能力真的可靠嗎？
與人類不同的是，大模型在推理過程中很難像我們那樣靈活切換快慢節奏。心理學中描述的 System-1 與 System-2 轉換，是一種受控、動態的思維過程——我們先快速判斷，再在困難時激活深度思考，從而在效率與準確之間找到平衡。
相比之下，現有模型往往要么陷入過度思考（overthinking），生成冗長無用的推理鏈；要么思考不足（underthinking），在問題真正展開前就草率收場。
這背后的根源在于：模型缺乏對推理節奏的主動調控能力，無法準確找到「該慢下來」的最佳時機。
無需訓練的全局推理調控， AlphaOne 只做了一件事
AlphaOne 的核心，是引入統一的調控點 α-moment：α-moment 之前通過 Bernoulli 過程插入「慢思考」標記，之后用終止標記切換為快思考，實現無需訓練的連續推理調控。

圖 1：不同推理調控方法在推理過程中的表現對比。 α1（紅色）采用由 α 控制的「先慢后快」推理策略，相比之下， α1 的推理效率優于單調延長思考型方法 s1（黃色），并在整體表現上普遍優于單調壓縮推理型方法（紫色）。
什么是 α-moment？
目前多數現有方法要么采用固定的慢思考機制（如在末尾強制延長思考），或者采用單調壓縮推理生成策略。然而，這類設計通常缺乏對推理階段整體結構的統一建模。我們是否可以在無需訓練的前提下，統一調控整個推理過程的演進方式，并設計出更高效的「慢思考轉化策略」？
【AI需要「像人類」那樣思考？AlphaOne揭示大模型的「思考之道」】AlphaOne 對此提出了解答：通過引入 α-moment——一個統一的調控節點，即推理階段達到平均思考長度 α 倍的位置。在此之前引導深度思考，在此之后轉入快速推進。它不依賴固定閾值或啟發式規則，而是提供了一個可調、可遷移的推理控制接口。

圖 2： AlphaOne（α1）整體流程示意圖。在 α-moment 之前，模型按照用戶設定的策略，以 Bernoulli 過程插入 wait ，引導深度推理；α-moment 之后， wait 會被替換為 </think> ，以促進快思考。 α 的數值決定這一轉換的時機，例如將 α 從 1.4 降至 1.0 ，會提前結束慢思考，并加快 pwait 的衰減速度。
α-moment 前：慢思考調控機制
在 α-moment 之前， α1 通過一種概率驅動的調控策略，逐步引導模型進入深度推理狀態。
具體來說，當模型生成結構性停頓（如 \\）時，會以一定概率插入 wait——這是一種慢思考過渡標記（slow-reasoning transition token），用于顯式地觸發模型的慢思考行為。這種插入并不是固定次數，而是基于一個 Bernoulli 采樣過程，其概率 pwait 由用戶設定的調度函數 S(t) 控制。
調度函數可以是線性下降（先慢后快）、線性上升（先快后慢）、指數衰減等多種形式。 AlphaOne 默認采用線性衰減策略——在推理初期更頻繁地引導慢思考，后期逐步減少干預，避免過度拖延。

圖 3：不同調度函數的可視化
α-moment 后：快思考引導機制
但另一個挑戰隨之而來：如果持續插入 wait ，模型可能會陷入「慢思考慣性」，遲遲無法回歸高效推理。
為了解決這個問題， AlphaOne 在 α-moment 之后顯式終止慢思考：一旦生成節點超過 α-moment ，所有后續的 wait（即慢思考過渡標記）將被統一替換為 </think>——這是一個思考終止標記（end-of-thinking token），用于打斷延續中的慢思考鏈。
值得注意的是， </think> 并不代表模型立即開始作答。由于慢思考慣性，模型往往無法直接切換到答案生成階段。因此， </think> 實際上起到的是快思考觸發信號的作用，用于提醒模型當前應結束反復推理、轉向高效推進。這種機制被稱為確定性推理終止，它讓模型能夠自然地從「深度反思」切換到「快速收斂」，避免低效的推理拖延。
從數學到科學問答， AlphaOne 的策略勝在哪里？
研究團隊在六大推理任務中進行了系統實驗，涵蓋數學題解、代碼生成、科學問題理解等多種類型。
實驗總結

準確率全面領先：無論在小模型（1.5B）還是大模型（32B）上， α1 都比原始模型和現有推理調控方法（如 s1 和 CoD）更準確。
以 1.5B 模型為例， α1 提升準確率達 +6.15% 。
推理效率顯著優化：盡管采用了慢思考機制， α1 在 1.5B 模型中平均生成 token 數卻減少了 14% ，展現出高效慢思考的非直覺優勢。

表 1：α1 與基線方法在數學、代碼與科學推理任務中的系統性能比較
關鍵問題分析

哪種「慢思考調度」最有效？

對比四種調度策略（常數調度、線性遞增、線性衰減、指數衰減）后發現，線性衰減在多個任務上均取得最優表現，驗證了 α1 所采用的「先慢思、后加速」式推理調控方式在實踐中更加有效和穩定。

圖 4：不同調度策略在 AMC23 和 OlympiadBench 上的推理準確率

α-moment 能否靈活調控「思考預算」？

實驗結果表明，調節 α 值可以有效擴展或壓縮模型的「思考階段」長度。隨著 α 增大，模型插入的 wait 標記數量相應增加，平均思考 token 數也隨之增長，體現出 α-moment 對思考預算具有良好的可伸縮性（scalability）。
盡管如此，推理準確率并非隨 α 增大而持續提升，存在一個性能最優的 α 區間，而 α1 在較寬的 α 調控范圍內始終優于原模型，體現出良好的魯棒性和泛化能力。

圖 5：α 的縮放特性分析

α1 推理效率真的更高嗎？

使用 REP（Reasoning Efficiency–Performance）指標系統評估后發現， α1 在多個任務中更高效率下的更優推理準確率，優于 s1 和 CoD 等基線方法。

圖 6：基于 REP 指標的推理效率分析

圖 7：常數調度下 wait 插入頻率的縮放特性

α-moment 后的快思考引導機制是否必要？

如果在 α-moment 后沒有明確「結束慢思考」，模型容易陷入推理慣性，導致性能明顯下降。實驗證明，僅依賴前段慢思考調控是遠遠不夠的。
α1 通過 α-moment 之后的顯式終止操作，成功促使模型切換至快思考，驗證了從快到慢的雙階段調控策略對于提升推理效果的必要性。

表 2：是否啟用后 α-moment 調控機制對推理性能的影響
具體案例
為了更直觀地理解 α1 的作用，研究者展示了來自不同基準的推理案例，分別對應模型在使用 α1 后的成功與失敗。

成功案例：化學混合題（OlympiadBench）

失敗案例：多角恒等式推理（AMC23）

AlphaOne 之后，還有哪些可能？
α1 提供了一種無需訓練、即可在測試階段靈活調控推理過程的全新框架，初步驗證了「慢思考→快思考」的策略對大模型推理效果與效率的顯著提升。
但真正理解「思考」如何被更好地建模，僅僅邁出了一小步。研究者提出了幾個值得關注的方向：

更復雜的慢思考調度策略：當前只探索了簡單的「先慢后快」調控策略，未來可以設計更精細的調度函數，甚至發展出獨立的推理調控模塊。
擺脫特定標記的依賴：現階段調控往往依賴 wait 等特殊轉移標記，但不同模型對這些標記的響應不同。未來若能完全擺脫這些「外部標簽」，將極大增強泛化能力。
跨模態推理的擴展：當前工作聚焦于文本推理，而多模態大模型（如圖文、視頻大模型）正快速崛起。未來可將 α1 框架擴展至多模態場景，探索語言與感知信息的協同推理。

推薦閱讀

上一篇：芯片六巨頭，決戰手機AI芯片光明頂

下一篇：中國音數協常務副理事長兼秘書長敖然在HDC 2025內容分發論壇致辭