大模型「愛你在心口難開」？深度隱藏認知讓推理更可靠_電信|創投圈

文章圖片

文章圖片

文章圖片

近年來，大語言模型在算術、邏輯、多模態理解等任務上之所以取得顯著進展，很大程度上依賴于思維鏈（CoT）技術。所謂 CoT ，就是讓模型在給出最終答案前，先生成一系列類似「解題步驟」的中間推理。這種方式可以顯著提高模型在復雜推理類任務上的表現，已成為當前最主流的推理增強方法。

但從實際使用和研究結果來看， CoT 的表現并非始終穩定。一些任務中可以明顯觀察到：

不同推理路徑之間質量差異很大。模型即使在訓練或提示方式保持一致的情況下，生成的中間步驟仍可能出現偏差。推理鏈內部的正確性并不總能通過表面概率反映出來。
那么問題來了：大模型有沒有可能「意識到自己正在犯錯」？在 Token 概率不可靠的情況下，是否有其他信號可以指導更可靠的生成？

在這一背景下，合肥工業大學的研究團隊提出了一個觀點：大模型的內部其實存在一種「隱藏的真偽認知」。這種狀態可以形象地理解為「愛你在心口難開」——模型在內部激活中已隱含對推理正確性的判斷，但這種判斷卻在基于 Token 概率的生成過程中被錯誤地表達。因此，模型即便「口頭說錯」，其內部表征中仍保留著對糾錯的可能。

這篇論文的核心，就是讓模型學會用這種隱藏認知來給自己的每一步推理「打分」，進而過濾掉錯誤的推理鏈，讓 CoT 更可靠。該工作已被 AAAI 2026 錄用為 Oral 論文。

論文標題：Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning 論文鏈接：https://arxiv.org/abs/2507.10007 GitHub 開源代碼鏈接：https://github.com/hfutml/cog-cot
研究背景與問題
隨著大語言模型在數學推理、邏輯推理與多模態問答等領域的應用不斷擴大，人們越來越關注一個核心能力：模型是否能夠在生成過程中保持穩定且可靠的推理質量。在實際使用中，模型往往需要連續推導多個中間步驟才能得到最終答案，這使得推理鏈的質量對整體表現具有決定性影響。

然而，推理鏈本身是通過生成式過程逐步展開的，其可靠性受到多種因素影響，例如：模型對問題理解的細微偏差、局部步驟的表達噪聲、長鏈推理中的累積誤差等。即便模型整體能力足夠強，這些因素仍可能導致某些推理步驟偏離正確方向，影響最終回答的準確度。

因此，一個自然且重要的問題是：

在推理過程中，是否存在某種可以反映當前步驟可靠性的內部信號，從而幫助我們判斷哪些推理路徑值得繼續擴展？

大語言模型在生成每一步推理時都會產生豐富的內部激活，這些表示承載了模型對輸入、上下文以及當前推理狀態的理解。如果這些激活中包含區分「合理推理」與「錯誤推理」的信息，那么我們就有可能在生成階段實時利用這些內部線索，從而提升推理鏈的整體質量。

基于這一動機，這項研究聚焦于兩個關鍵問題：

模型的內部激活是否蘊含對推理步驟真偽的有效區分信息？如果存在，能否構建一個利用這些信息的機制，幫助模型在推理過程中選擇更可靠的路徑？
論文提出的方案正是在回答這兩個問題，并嘗試讓推理過程在模型原有能力基礎上變得更穩健、更具判斷力。

方法與創新
論文提出的框架，核心思想是：雖然模型表面生成的推理步驟可能不夠可靠，但其內部激活在很大程度上「知道」哪些步驟是正確的。為此，作者設計了以下創新方法：

從多層注意力頭中探測「真偽敏感性」

對模型生成的推理步驟進行真偽標注（True/False），然后在模型各層的內部表示上訓練簡單探針（Linear Probe），測試哪些層對推理正確性最敏感。

結果表明：中間層的特定注意力頭能區分「正確步驟」和「錯誤步驟」，準確率可達 80% 以上。這說明模型的內部確實蘊含潛在的認知信號。

構建置信度預測器（Confidence Predictor）

作者選取最敏感的幾個注意力頭，將其激活拼接，作為輸入訓練一個輕量預測器，輸出對每一步推理的可信度評分。該評分不基于 Token 概率，而基于模型內部的深層表示，更能反映推理質量。

基于置信度的推理路徑搜索（Confidence-Guided Search）

結合模型生成概率與可信度，設計新的推理擴展策略：

通過此評分篩選最可信的推理路徑，使生成過程能夠：

主動避開不可靠的步驟；優先擴展有潛力的推理方向；
從而提高整個 CoT 推理鏈的穩定性。

實驗結果
論文從兩個層面系統評估了所提出方法的有效性：（A）可信度預測器本身是否可靠？（B）將預測器用于推理路徑選擇后，整體推理是否更準確？

下面分兩部分介紹。

A. 置信度預測器的評估

作者首先評估模型內部激活是否真的攜帶「推理真偽」的可判別信號，以及預測器能否有效地從激活中提取這種信號。核心實驗包括：

真偽區分能力
通過在模型不同層、不同注意力頭上訓練線性探針，研究者獲得了以下發現：

中間層的部分注意力頭對推理真偽高度敏感；特定激活向量可實現 80%–85% 的真偽區分準確率；早期層和后期層的判別能力相對較弱。
這一結果表明：模型在內部表征中「隱含地知道」某一步推理是否正確。預測器正是利用這些「高敏感」注意力頭，因此具有良好的理論基礎。

可信度預測的校準效果
論文進一步引入 ECE-Loss 進行校準，使預測的可信度分數更可解釋、更穩定。實驗顯示置信度預測器得到的可信度分數校準性更佳，即得到的置信度分數更貼近真實的真偽概率值，作者用 ECE、Brier 和 AUC 這三個校準指標以及多種置信度量化方法來評估，如下表：

這證明預測器不僅能區分真偽，還能提供更具校準性、可用于決策的連續置信度評分，適合作為搜索策略的依據。

B. 基于預測器引導的推理性能

論文將可信度預測器應用于推理路徑選擇，并在多個 Benchmark 上進行驗證，既包括純文本推理任務（單模態），也包括視覺–語言混合的多模態推理任務。評估數據集覆蓋數學、邏輯以及常識推理。

單模態推理任務：包括 GSM8K、SVAMP、StrategyQA、BoolQ 和 Boolean 。多模態推理任務：包括 ScienceQA、RealWorldQA、CLEVR-Math 和 MMStar 。 Baseline：Few-Shot CoT、Self-Consistency、Self Evaluation Guided Beam Search、Process Reward Models Search 。

結果表明，方法在每種設置下均取得了優異性能。與相同設置下的少樣本思維鏈（Few-Shot CoT）相比，該方法在大多數測試中均展現出顯著提升。例如，在單模態任務的 SVAMP 數據集上，該方法相較于少樣本思維鏈提升了 5 個百分點（48.3 對 43.3）；在多模態任務的 RealWorldQA 數據集上，實現了 10.7 個百分點的提升。

總體而言，無論是在數學與符號推理、常識推理任務中，還是在單模態與多模態任務中，該方法在大多數情況下都優于基線模型少樣本思維鏈以及其他 Baseline 。這充分表明，從模型內部狀態中提取的置信度能夠有效引導生成更可靠的推理鏈。

消融實驗表明：可信度預測器對推理提升至關重要。如下圖所示：

若將候選推理步驟「隨機選擇」而非依據可信度，本方法性能顯著下降。隨機策略在若干任務上甚至低于 Few-Shot CoT Baseline 。

作者信息
一作：陳紫軍，合肥工業大學博士生，主要研究方向為大模型概率可靠性，曾在 AAAI、COLING 等頂級會議上發表論文。

【大模型「愛你在心口難開」？深度隱藏認知讓推理更可靠】通訊作者：胡文波，合肥工業大學計算機與信息學院副教授，黃山青年學者。主要研究方向為機器學習，包括貝葉斯概率機器學習、人工智能安全以及科學人工智能。

大模型「愛你在心口難開」？深度隱藏認知讓推理更可靠

推薦閱讀

衣服防盜扣怎么拆下來

使用UT100三個月的感受

空調選什么樣的省電什么空調性價比高又省電耐用

奧奇傳說手游水系最強陣容推薦奧奇傳說手游水系最強陣容怎么搭配

消防車怎么畫

蘋果雙卡怎么切換打電話

熊貓tv狼人殺播出時間？

我國歷史上最早的農業著作是什么我國歷史上最早的農業科學著作是哪本書

關于跳拉丁舞的日記【精選7篇】

小池殘暑退高樹早涼歸描寫的是什么季節小池殘暑退高樹早涼歸的意思

鞠婧祎為什么不上大學,鞠婧祎沒有讀過大學嗎

孫宏斌投的錢在哪里,孫宏斌又喊樂視還錢了

大熊貓的生活習性是啥啊

什么餌料屬于開口料，乳豬料和開口料和教槽料有區別嗎

什么軟件通過手機號能查出個人信息通過手機號查個人信息的軟件

紫藤盆景怎么養