大模型「愛你在心口難開」?深度隱藏認知讓推理更可靠

大模型「愛你在心口難開」?深度隱藏認知讓推理更可靠

文章圖片

大模型「愛你在心口難開」?深度隱藏認知讓推理更可靠

文章圖片

大模型「愛你在心口難開」?深度隱藏認知讓推理更可靠

文章圖片

大模型「愛你在心口難開」?深度隱藏認知讓推理更可靠



近年來 , 大語言模型在算術、邏輯、多模態理解等任務上之所以取得顯著進展 , 很大程度上依賴于思維鏈(CoT)技術 。 所謂 CoT , 就是讓模型在給出最終答案前 , 先生成一系列類似「解題步驟」的中間推理 。這種方式可以顯著提高模型在復雜推理類任務上的表現 , 已成為當前最主流的推理增強方法 。

但從實際使用和研究結果來看 , CoT 的表現并非始終穩定 。 一些任務中可以明顯觀察到:

不同推理路徑之間質量差異很大 。 模型即使在訓練或提示方式保持一致的情況下 , 生成的中間步驟仍可能出現偏差 。 推理鏈內部的正確性并不總能通過表面概率反映出來 。
那么問題來了:大模型有沒有可能「意識到自己正在犯錯」?在 Token 概率不可靠的情況下 , 是否有其他信號可以指導更可靠的生成?

在這一背景下 , 合肥工業大學的研究團隊提出了一個觀點:大模型的內部其實存在一種「隱藏的真偽認知」 。 這種狀態可以形象地理解為「愛你在心口難開」——模型在內部激活中已隱含對推理正確性的判斷 , 但這種判斷卻在基于 Token 概率的生成過程中被錯誤地表達 。 因此 , 模型即便「口頭說錯」 , 其內部表征中仍保留著對糾錯的可能 。

這篇論文的核心 , 就是讓模型學會用這種隱藏認知來給自己的每一步推理「打分」 , 進而過濾掉錯誤的推理鏈 , 讓 CoT 更可靠 。 該工作已被 AAAI 2026 錄用為 Oral 論文 。



論文標題:Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning 論文鏈接:https://arxiv.org/abs/2507.10007 GitHub 開源代碼鏈接:https://github.com/hfutml/cog-cot
研究背景與問題
隨著大語言模型在數學推理、邏輯推理與多模態問答等領域的應用不斷擴大 , 人們越來越關注一個核心能力:模型是否能夠在生成過程中保持穩定且可靠的推理質量 。 在實際使用中 , 模型往往需要連續推導多個中間步驟才能得到最終答案 , 這使得推理鏈的質量對整體表現具有決定性影響 。

然而 , 推理鏈本身是通過生成式過程逐步展開的 , 其可靠性受到多種因素影響 , 例如:模型對問題理解的細微偏差、局部步驟的表達噪聲、長鏈推理中的累積誤差等 。 即便模型整體能力足夠強 , 這些因素仍可能導致某些推理步驟偏離正確方向 , 影響最終回答的準確度 。

因此 , 一個自然且重要的問題是:

在推理過程中 , 是否存在某種可以反映當前步驟可靠性的內部信號 , 從而幫助我們判斷哪些推理路徑值得繼續擴展?

大語言模型在生成每一步推理時都會產生豐富的內部激活 , 這些表示承載了模型對輸入、上下文以及當前推理狀態的理解 。如果這些激活中包含區分「合理推理」與「錯誤推理」的信息 , 那么我們就有可能在生成階段實時利用這些內部線索 , 從而提升推理鏈的整體質量 。

基于這一動機 , 這項研究聚焦于兩個關鍵問題:

模型的內部激活是否蘊含對推理步驟真偽的有效區分信息? 如果存在 , 能否構建一個利用這些信息的機制 , 幫助模型在推理過程中選擇更可靠的路徑?
論文提出的方案正是在回答這兩個問題 , 并嘗試讓推理過程在模型原有能力基礎上變得更穩健、更具判斷力 。

方法與創新
論文提出的框架 , 核心思想是:雖然模型表面生成的推理步驟可能不夠可靠 , 但其內部激活在很大程度上「知道」哪些步驟是正確的 。 為此 , 作者設計了以下創新方法:

從多層注意力頭中探測「真偽敏感性」

對模型生成的推理步驟進行真偽標注(True/False) , 然后在模型各層的內部表示上訓練簡單探針(Linear Probe) , 測試哪些層對推理正確性最敏感 。

結果表明:中間層的特定注意力頭能區分「正確步驟」和「錯誤步驟」 , 準確率可達 80% 以上 。 這說明模型的內部確實蘊含潛在的認知信號 。

構建置信度預測器(Confidence Predictor)

作者選取最敏感的幾個注意力頭 , 將其激活拼接 , 作為輸入訓練一個輕量預測器 , 輸出對每一步推理的可信度評分 。 該評分不基于 Token 概率 , 而基于模型內部的深層表示 , 更能反映推理質量 。

基于置信度的推理路徑搜索(Confidence-Guided Search)

結合模型生成概率與可信度 , 設計新的推理擴展策略:




通過此評分篩選最可信的推理路徑 , 使生成過程能夠:

主動避開不可靠的步驟; 優先擴展有潛力的推理方向;
從而提高整個 CoT 推理鏈的穩定性 。



實驗結果
論文從兩個層面系統評估了所提出方法的有效性:(A)可信度預測器本身是否可靠?(B)將預測器用于推理路徑選擇后 , 整體推理是否更準確?

下面分兩部分介紹 。

A. 置信度預測器的評估

作者首先評估模型內部激活是否真的攜帶「推理真偽」的可判別信號 , 以及預測器能否有效地從激活中提取這種信號 。 核心實驗包括:

真偽區分能力
通過在模型不同層、不同注意力頭上訓練線性探針 , 研究者獲得了以下發現:

中間層的部分注意力頭對推理真偽高度敏感; 特定激活向量可實現 80%–85% 的真偽區分準確率; 早期層和后期層的判別能力相對較弱 。
這一結果表明:模型在內部表征中「隱含地知道」某一步推理是否正確 。 預測器正是利用這些「高敏感」注意力頭 , 因此具有良好的理論基礎 。

可信度預測的校準效果
論文進一步引入 ECE-Loss 進行校準 , 使預測的可信度分數更可解釋、更穩定 。 實驗顯示置信度預測器得到的可信度分數校準性更佳 , 即得到的置信度分數更貼近真實的真偽概率值 , 作者用 ECE、Brier 和 AUC 這三個校準指標以及多種置信度量化方法來評估 , 如下表:



這證明預測器不僅能區分真偽 , 還能提供更具校準性、可用于決策的連續置信度評分 , 適合作為搜索策略的依據 。

B. 基于預測器引導的推理性能

論文將可信度預測器應用于推理路徑選擇 , 并在多個 Benchmark 上進行驗證 , 既包括純文本推理任務(單模態) , 也包括視覺–語言混合的多模態推理任務 。 評估數據集覆蓋數學、邏輯以及常識推理 。

單模態推理任務:包括 GSM8K、SVAMP、StrategyQA、BoolQ 和 Boolean 。 多模態推理任務:包括 ScienceQA、RealWorldQA、CLEVR-Math 和 MMStar 。 Baseline:Few-Shot CoT、Self-Consistency、Self Evaluation Guided Beam Search、Process Reward Models Search 。


結果表明 , 方法在每種設置下均取得了優異性能 。 與相同設置下的少樣本思維鏈(Few-Shot CoT)相比 , 該方法在大多數測試中均展現出顯著提升 。例如 , 在單模態任務的 SVAMP 數據集上 , 該方法相較于少樣本思維鏈提升了 5 個百分點(48.3 對 43.3);在多模態任務的 RealWorldQA 數據集上 , 實現了 10.7 個百分點的提升 。

總體而言 , 無論是在數學與符號推理、常識推理任務中 , 還是在單模態與多模態任務中 , 該方法在大多數情況下都優于基線模型少樣本思維鏈以及其他 Baseline 。 這充分表明 , 從模型內部狀態中提取的置信度能夠有效引導生成更可靠的推理鏈 。

消融實驗表明:可信度預測器對推理提升至關重要 。 如下圖所示:



若將候選推理步驟「隨機選擇」而非依據可信度 , 本方法性能顯著下降 。 隨機策略在若干任務上甚至低于 Few-Shot CoT Baseline 。

作者信息
一作:陳紫軍 , 合肥工業大學博士生 , 主要研究方向為大模型概率可靠性 , 曾在 AAAI、COLING 等頂級會議上發表論文 。

【大模型「愛你在心口難開」?深度隱藏認知讓推理更可靠】通訊作者:胡文波 , 合肥工業大學計算機與信息學院副教授 , 黃山青年學者 。 主要研究方向為機器學習 , 包括貝葉斯概率機器學習、人工智能安全以及科學人工智能 。

    推薦閱讀