大模型的「aha moment」不是裝腔作勢，內部信息量暴增數倍！ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

劉勇，中國人民大學，長聘副教授，博士生導師，國家級高層次青年人才。長期從事機器學習基礎理論研究，共發表論文 100 余篇，其中以第一作者/通訊作者發表頂級期刊和會議論文近 50 篇，涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。

【大模型的「aha moment」不是裝腔作勢，內部信息量暴增數倍！】你肯定見過大模型在解題時「裝模作樣」地輸出：「Hmm…」、「Wait let me think」、「Therefore…」這些看似「人類化」的思考詞。

但一個靈魂拷問始終存在：這些詞真的代表模型在「思考」，還是僅僅為了「表演」更像人類而添加的語言裝飾？是模型的「頓悟時刻」，還是純粹的「煙霧彈」？

現在，實錘來了！來自中國人民大學高瓴人工智能學院、上海人工智能實驗室、倫敦大學學院（UCL）和大連理工大學的聯合研究團隊，在最新論文中首次利用信息論這把「手術刀」，精準解剖了大模型內部的推理動態，給出了令人信服的答案：

當這些「思考詞」出現的瞬間，模型大腦（隱空間）中關于正確答案的信息量，會突然飆升數倍！

這絕非偶然裝飾，而是真正的「信息高峰」與「決策拐點」！更酷的是，基于這一發現，研究者提出了無需額外訓練就能顯著提升模型推理性能的簡單方法，代碼已開源！

論文題目：Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning
論文鏈接：https://arxiv.org/abs/2506.02867
代碼鏈接：https://github.com/ChnQ/MI-Peaks

核心發現一：揭秘大模型推理軌跡中的「信息高峰」現象

研究者們追蹤了像 DeepSeek-R1 系列蒸餾模型、QwQ 這類擅長推理的大模型在解題時的「腦電波」（隱空間表征）。他們測量每一步的「腦電波」與最終正確答案的互信息（Mutual Information MI），并觀察這些互信息如何演繹變化。

驚人現象出現了：模型推理并非勻速「爬坡」，而是存在劇烈的「信息脈沖」！在特定步驟，互信息值會突然、顯著地飆升，形成顯著的「互信息峰值」（MI Peaks）現象。這些峰值點稀疏但關鍵，如同黑暗推理路徑上突然點亮的強光路標！

這意味著什么？直覺上，這些互信息峰值點處的表征，模型大腦中那一刻的狀態，蘊含了更多指向正確答案的最關鍵信息！

進一步地，研究者通過理論分析證明（定理 1 & 2），推理過程中積累的互信息越高，模型最終回答錯誤概率的上界和下界就越緊，換言之，回答正確的概率就越高！

既然互信息峰值的現象較為普遍地出現在推理模型（LRMs）中，那么非推理模型（non-reasoning LLMs）上也會表現出類似的現象嗎？

為了探索這一問題，研究者選取了 DeepSeek-R1-Distill 系列模型和其對應的非推理模型進行實驗。如上圖橙色線所示，在非推理模型的推理過程中，互信息往往表現出更小的波動，體現出明顯更弱的互信息峰值現象，且互信息的數值整體上更小。

這表明在經過推理能力強化訓練后，推理模型一方面似乎整體在表征中編碼了更多關于正確答案的信息，另一方面催生了互信息峰值現象的出現！

核心發現二：「思考詞匯」=「信息高峰」的語言化身

那么，這些互信息峰值點處的表征，到底蘊含著怎樣的語義信息？

神奇的是，當研究者把這些「信息高峰」時刻的「腦電波」翻譯回人能看懂的語言（解碼到詞匯空間）時，發現它們最常對應的，恰恰是那些標志性的「思考詞」：

反思/停頓型：「Hmm」、「Wait」…
邏輯/過渡型：「Therefore」、「So」…
行動型：「Let」、「First」…

例如，研究者隨機摘取了一些模型輸出：「Wait let me think differently. Let’s denote...」「Hmm so I must have made a mistake somewhere. Let me double-check my calculations. First ...」

研究團隊將這些在互信息峰值點頻繁出現、承載關鍵信息并在語言上推動模型思考的詞匯命名為「思考詞匯」（thinking tokens）。它們不是可有可無的裝飾，而是信息高峰在語言層面的「顯靈」，可能在模型推理路徑上扮演著關鍵路標或決策點的角色！

為了證明這些 tokens 的關鍵性，研究者進行了干預實驗，即在模型推理時抑制這些思考詞匯的生成。

實錘驗證：實驗結果顯示，抑制思考詞匯的生成會顯著影響模型在數學推理數據集（如 GSM8K、MATH、AIME24）上的性能；相比之下，隨機屏蔽相同數量的其他普通詞匯，對性能影響甚微。這表明這些存在于互信息峰值點處的思考詞匯，確實對模型有效推理具有至關重要的作用！

啟發應用：無需訓練，巧用「信息高峰」提升推理性能

理解了「信息高峰」和「思考詞匯」的奧秘，研究者提出了兩種無需額外訓練即可提升現有 LRMs 推理性能的實用方法。

應用一：表征循環（Representation Recycling - RR）

啟發：既然 MI 峰值點的表征蘊含豐富信息，何不讓模型「多咀嚼消化」一下？

方法：在模型推理過程中，當檢測到生成了思考詞匯時，不急于讓其立刻輸出，而是將其對應的表征重新輸入到模型中進行額外一輪計算，讓模型充分挖掘利用表征中的豐富信息。

效果：在多個數學推理基準（GSM8K、MATH500、AIME24）上， RR 方法一致地提升了 LRMs 的推理性能。例如，在極具挑戰性的 AIME24 上， DeepSeek-R1-Distill-LLaMA-8B 的準確率相對提升了 20%！這表明讓模型更充分地利用這些高信息量的「頓悟」表征，能有效解鎖其推理潛力。

應用二：基于思考詞匯的測試時擴展（Thinking Token based Test-time Scaling - TTTS）

啟發：在推理時如果允許模型生成更多 token（增加計算預算），如何引導模型進行更有效的「深度思考」，而不是漫無目的地延伸？

方法：受啟發于前人工作，作者在模型完成初始推理輸出后，如果還有 token 預算，則強制模型以「思考詞匯」開頭（如「Therefore」、「So」、「Wait」、「Hmm」等）繼續生成后續內容，引導模型在額外計算資源下進行更深入的推理。

效果：當 token 預算增加時， TTTS 能持續穩定地提升模型的推理性能。如圖所示，在 GSM8K 和 MATH500 數據集上，在相同的 Token 預算下， TTTS 持續優于原始模型。在 AIME24 數據集上，盡管原始模型的性能在早期提升得較快，但當 token 預算達到 4096 后，模型性能就到達了瓶頸期；而 TTTS 引導下的模型，其性能隨著 Token 預算的增加而持續提升，并在預算達到 6144 后超越了原始模型。

小結

這項研究首次揭示了 LRMs 推理過程中的動態機制：通過互信息動態追蹤，首次清晰觀測到 LRMs 推理過程中的互信息峰值（MI Peaks）現象，為理解模型「黑箱」推理提供了創新視角和實證基礎。

進一步地，研究者發現這些互信息峰值處的 token 對應的是表達思考、反思等的「思考詞匯」（Thinking Tokens），并通過干預實驗驗證了這些 token 對模型推理性能具有至關重要的影響。

最后，受啟發于對上述現象的理解和分析，研究者提出了兩種簡單有效且無需訓練的方法來提升 LRMs 的推理性能，即表征循環（Representation Recycling - RR）和基于思考詞匯的測試時擴展（Thinking Token based Test-time Scaling - TTTS）。

研究者希望這篇工作可以為深入理解 LRMs 的推理機制提供新的視角，并進一步提出可行的方案來進一步推升模型的推理能力。