AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

文章圖片

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

文章圖片

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

文章圖片

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

文章圖片

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

文章圖片

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

文章圖片

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

文章圖片

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

文章圖片


本文共同第一作者為張均瑜與董潤沛 , 分別為伊利諾伊大學厄巴納-香檳分校計算機科學研究生與博士生;該研究工作在伊利諾伊大學厄巴納-香檳分校張歡教授與 Saurabh Gupta 教授 , 加州大學伯克利分校 Jitendra Malik 教授的指導下完成 。
「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman , Thinking , Fast and Slow(2011)

在思維節奏這件事上 , 人類早已形成一種獨特而復雜的模式 。
我們習慣讓 AI 模仿人類思維方式:先依賴直覺快速反應(System 1) , 再慢慢進入邏輯推理(System 2);答題時先給出初步判斷 , 再自我反思逐步修正……模仿人類的推理節奏 , 已經成為語言模型推理策略的默認路徑 。
最近 , 一項來自 UIUC 與 UC Berkeley 的新研究提出:也許模型不該再走這條「人類范式」的老路 。
他們提出了一種新的測試時推理調控框架——AlphaOne , 主張讓模型反其道而行:先慢速思考 , 再快速推理 。

  • 論文標題: AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
  • 項目主頁:https://alphaone-project.github.io/
  • 論文地址:https://arxiv.org/pdf/2505.24863
  • 代碼地址:https://github.com/ASTRAL-Group/AlphaOne
令人意外的是 , 這一策略不依賴任何額外訓練 , 僅需在測試階段引入一個全局推理調控超參數 α , 即可顯著提升模型的推理準確率 , 同時讓生成過程更加高效緊湊 。 或許 , 是時候重新思考:AI 真的需要「像人類」那樣思考嗎?
看似聰明的推理 , 其實是不懂停下來的錯覺
近年的大型推理模型(LRMs) , 如 OpenAI o1 和 DeepSeek-R1 , 在復雜推理任務上取得顯著進展 , 逐漸具備類似人類的 System-2 能力 , 能夠在測試階段主動慢思考 , 從而處理需要高階認知的難題 。
這些模型通過強化學習訓練出的「慢思考」策略 , 讓它們在面對復雜問題時能夠自動放緩推理節奏 , 從而取得更好的表現 。 但這種自動「慢下來」的能力真的可靠嗎?
與人類不同的是 , 大模型在推理過程中很難像我們那樣靈活切換快慢節奏 。 心理學中描述的 System-1 與 System-2 轉換 , 是一種受控、動態的思維過程——我們先快速判斷 , 再在困難時激活深度思考 , 從而在效率與準確之間找到平衡 。
相比之下 , 現有模型往往要么陷入過度思考(overthinking) , 生成冗長無用的推理鏈;要么思考不足(underthinking) , 在問題真正展開前就草率收場 。
這背后的根源在于:模型缺乏對推理節奏的主動調控能力 , 無法準確找到「該慢下來」的最佳時機 。
無需訓練的全局推理調控 , AlphaOne 只做了一件事
AlphaOne 的核心 , 是引入統一的調控點 α-moment:α-moment 之前通過 Bernoulli 過程插入「慢思考」標記 , 之后用終止標記切換為快思考 , 實現無需訓練的連續推理調控 。

圖 1: 不同推理調控方法在推理過程中的表現對比 。 α1(紅色)采用由 α 控制的「先慢后快」推理策略 , 相比之下 , α1 的推理效率優于單調延長思考型方法 s1(黃色) , 并在整體表現上普遍優于單調壓縮推理型方法(紫色) 。
什么是 α-moment?
目前多數現有方法要么采用固定的慢思考機制(如在末尾強制延長思考) , 或者采用單調壓縮推理生成策略 。 然而 , 這類設計通常缺乏對推理階段整體結構的統一建模 。 我們是否可以在無需訓練的前提下 , 統一調控整個推理過程的演進方式 , 并設計出更高效的「慢思考轉化策略」?
【AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」】AlphaOne 對此提出了解答:通過引入 α-moment——一個統一的調控節點 , 即推理階段達到平均思考長度 α 倍的位置 。 在此之前引導深度思考 , 在此之后轉入快速推進 。 它不依賴固定閾值或啟發式規則 , 而是提供了一個可調、可遷移的推理控制接口 。

圖 2: AlphaOne(α1)整體流程示意圖 。 在 α-moment 之前 , 模型按照用戶設定的策略 , 以 Bernoulli 過程插入 wait , 引導深度推理;α-moment 之后 , wait 會被替換為 </think> , 以促進快思考 。 α 的數值決定這一轉換的時機 , 例如將 α 從 1.4 降至 1.0 , 會提前結束慢思考 , 并加快 pwait 的衰減速度 。
α-moment 前:慢思考調控機制
在 α-moment 之前 , α1 通過一種概率驅動的調控策略 , 逐步引導模型進入深度推理狀態 。
具體來說 , 當模型生成結構性停頓(如 \\)時 , 會以一定概率插入 wait——這是一種慢思考過渡標記(slow-reasoning transition token) , 用于顯式地觸發模型的慢思考行為 。 這種插入并不是固定次數 , 而是基于一個 Bernoulli 采樣過程 , 其概率 pwait 由用戶設定的調度函數 S(t) 控制 。
調度函數可以是線性下降(先慢后快)、線性上升(先快后慢)、指數衰減等多種形式 。 AlphaOne 默認采用線性衰減策略——在推理初期更頻繁地引導慢思考 , 后期逐步減少干預 , 避免過度拖延 。

圖 3: 不同調度函數的可視化
α-moment 后:快思考引導機制
但另一個挑戰隨之而來:如果持續插入 wait , 模型可能會陷入「慢思考慣性」 , 遲遲無法回歸高效推理 。
為了解決這個問題 , AlphaOne 在 α-moment 之后顯式終止慢思考: 一旦生成節點超過 α-moment , 所有后續的 wait(即慢思考過渡標記)將被統一替換為 </think>——這是一個思考終止標記(end-of-thinking token) , 用于打斷延續中的慢思考鏈 。
值得注意的是 , </think> 并不代表模型立即開始作答 。 由于慢思考慣性 , 模型往往無法直接切換到答案生成階段 。 因此 , </think> 實際上起到的是快思考觸發信號的作用 , 用于提醒模型當前應結束反復推理、轉向高效推進 。 這種機制被稱為確定性推理終止 , 它讓模型能夠自然地從「深度反思」切換到「快速收斂」 , 避免低效的推理拖延 。
從數學到科學問答 , AlphaOne 的策略勝在哪里?
研究團隊在六大推理任務中進行了系統實驗 , 涵蓋數學題解、代碼生成、科學問題理解等多種類型 。
實驗總結
  • 準確率全面領先:無論在小模型(1.5B)還是大模型(32B)上 , α1 都比原始模型和現有推理調控方法(如 s1 和 CoD)更準確 。
  • 以 1.5B 模型為例 , α1 提升準確率達 +6.15% 。
  • 推理效率顯著優化:盡管采用了慢思考機制 , α1 在 1.5B 模型中平均生成 token 數卻減少了 14% , 展現出高效慢思考的非直覺優勢 。

表 1:α1 與基線方法在數學、代碼與科學推理任務中的系統性能比較
關鍵問題分析
  • 哪種「慢思考調度」最有效?
對比四種調度策略(常數調度、線性遞增、線性衰減、指數衰減)后發現 , 線性衰減在多個任務上均取得最優表現 , 驗證了 α1 所采用的「先慢思、后加速」式推理調控方式在實踐中更加有效和穩定 。

圖 4: 不同調度策略在 AMC23 和 OlympiadBench 上的推理準確率
  • α-moment 能否靈活調控「思考預算」?
實驗結果表明 , 調節 α 值可以有效擴展或壓縮模型的「思考階段」長度 。 隨著 α 增大 , 模型插入的 wait 標記數量相應增加 , 平均思考 token 數也隨之增長 , 體現出 α-moment 對思考預算具有良好的可伸縮性(scalability) 。
盡管如此 , 推理準確率并非隨 α 增大而持續提升 , 存在一個性能最優的 α 區間 , 而 α1 在較寬的 α 調控范圍內始終優于原模型 , 體現出良好的魯棒性和泛化能力 。

圖 5:α 的縮放特性分析
  • α1 推理效率真的更高嗎?
使用 REP(Reasoning Efficiency–Performance)指標系統評估后發現 , α1 在多個任務中更高效率下的更優推理準確率 , 優于 s1 和 CoD 等基線方法 。


圖 6: 基于 REP 指標的推理效率分析


圖 7: 常數調度下 wait 插入頻率的縮放特性
  • α-moment 后的快思考引導機制是否必要?
如果在 α-moment 后沒有明確「結束慢思考」 , 模型容易陷入推理慣性 , 導致性能明顯下降 。 實驗證明 , 僅依賴前段慢思考調控是遠遠不夠的 。
α1 通過 α-moment 之后的顯式終止操作 , 成功促使模型切換至快思考 , 驗證了從快到慢的雙階段調控策略對于提升推理效果的必要性 。

表 2: 是否啟用后 α-moment 調控機制對推理性能的影響
具體案例
為了更直觀地理解 α1 的作用 , 研究者展示了來自不同基準的推理案例 , 分別對應模型在使用 α1 后的成功與失敗 。
  • 成功案例:化學混合題(OlympiadBench)

  • 失敗案例:多角恒等式推理(AMC23)

AlphaOne 之后 , 還有哪些可能?
α1 提供了一種無需訓練、即可在測試階段靈活調控推理過程的全新框架 , 初步驗證了「慢思考→快思考」的策略對大模型推理效果與效率的顯著提升 。
但真正理解「思考」如何被更好地建模 , 僅僅邁出了一小步 。 研究者提出了幾個值得關注的方向:
  • 更復雜的慢思考調度策略:當前只探索了簡單的「先慢后快」調控策略 , 未來可以設計更精細的調度函數 , 甚至發展出獨立的推理調控模塊 。
  • 擺脫特定標記的依賴:現階段調控往往依賴 wait 等特殊轉移標記 , 但不同模型對這些標記的響應不同 。 未來若能完全擺脫這些「外部標簽」 , 將極大增強泛化能力 。
  • 跨模態推理的擴展:當前工作聚焦于文本推理 , 而多模態大模型(如圖文、視頻大模型)正快速崛起 。 未來可將 α1 框架擴展至多模態場景 , 探索語言與感知信息的協同推理 。

    推薦閱讀