4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

文章圖片

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法

作者吳嘉赟 , 卡耐基梅隆大學(CMU)機器學習系博士生 , 研究大語言模型的評測與后訓練 , 包括模型推理、模型幻覺、主動評測等 。
大語言模型(LLM)的幻覺問題一直是阻礙其在關鍵領域部署的核心難題 。 近日 , 研究人員提出了一種名為行為校準強化學習(Behaviorally Calibrated Reinforcement Learning)的新方法 , 通過重新設計獎勵函數 , 讓模型學會「知之為知之 , 不知為不知」 。

論文鏈接:https://arxiv.org/abs/2512.19920
一個僅 40 億參數的模型在接受該方法訓練后 , 其幻覺抑制能力竟然超越了 GPT-5 等前沿大模型 。

圖1:模型在回答數學問題時輸出的置信度標注示例 。 每個聲明都附帶置信度分數和理由說明 。
核心問題:為什么 LLM 會產生幻覺?
研究團隊指出 , 當前主流的大模型后訓練范式 —— 基于可驗證獎勵的強化學習(RLVR)—— 存在一個根本性的獎勵錯位問題 。 在標準 RLVR 中 , 獎勵函數通常是二元的:回答正確得 + 1 分 , 回答錯誤得 - 1 分 。 在這種機制下 , 只要正確概率大于零 , 一個追求效用最大化的智能體會被激勵生成可能錯誤的答案 。 這就造成了對「拒絕回答」行為的懲罰 , 迫使模型抑制不確定性的表達 , 將猜測偽裝成事實 。 模型被訓練成了「優秀的應試者」—— 為了最大化預期分數而猜測 , 而不是成為「誠實的溝通者」—— 在置信不足時選擇放棄 。
解決方案:行為校準強化學習

為了實現這一目標 , 研究團隊設計了兩種策略:
策略一:言語化置信度(Verbalized Confidence)

【4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準強化學習新方法】


策略二:Critic 價值函數(Critic Value)
作為顯示生成置信度的替代方案 , 該策略使用 PPO 算法中 Critic 網絡的價值函數作為隱式置信度估計器 。 理論上 , Critic 網絡通過最小化預測值與策略回報之間的 Brier 分數進行訓練 , 其價值函數會收斂到成功概率 。
聲明級行為校準:細粒度的「不確定」標注
研究團隊進一步將行為校準從響應級別擴展到聲明級別 , 使模型能夠精確標注答案中單個不確定的推理步驟 , 而非簡單地拒絕整個回答 。 這一擴展面臨三大挑戰:
挑戰一:連貫性問題 。 直接將不確定的聲明替換為 < IDK > 可能破壞推理的連貫性 —— 例如在數學問題中 , 后續步驟往往依賴于前面的結論 。 研究團隊選擇讓模型輸出完整響應 , 同時用 HTML 標簽可視化高亮不確定的聲明 。
挑戰二:中間步驟的歧義性 。 在思維鏈(CoT)推理中 , 中間步驟的正確性和置信度存在天然歧義:一個步驟可能正確識別了前面聲明中的錯誤 。 為此 , 研究團隊忽略中間推理過程 , 僅在最終的結構化步驟上進行校準 。
挑戰三:缺乏細粒度標簽 。 聲明級的正確性標注難以獲取 。 研究團隊設計了基于弱監督的學習目標:將聲明級置信度聚合成響應級置信度 , 再使用 Brier 分數獎勵進行訓練 。

實驗發現 , 最小值聚合在聲明級評估中表現更優 , 因為它能更有效地激勵模型識別推理鏈中的薄弱環節 。 而乘積聚合雖然更適合響應級校準 , 但可能導致單個聲明的置信度過于樂觀 。
實驗結果
研究團隊在多個基準測試上評估了該方法 , 包括字節跳動 Seed 團隊發布的極具挑戰性的數學推理基準 BeyondAIME , 以及 AIME-2024/2025 和 SimpleQA(跨領域事實問答基準) 。
核心評估指標

Confidence AUC:使用模型的置信度分數對正確和錯誤回答進行排序 , 計算 ROC 曲線下面積 。 AUC 越接近 1 , 說明模型越能準確地將高置信度分配給正確回答 , 將低置信度分配給錯誤回答 。 這是一個純衡量模型「自知之明」的指標 , 不受模型本身能力強弱的影響 。
響應級評估:超越 GPT-5
在 BeyondAIME 上的響應級評估結果顯示(表 1) , 研究提出的方法顯著優于 Qwen3-max , Kimi-K2 , Gemini-2.5-Pro 和 GPT-5 等模型 。 其中 , 采用言語化置信度(Verbalized Confidence)、置信度乘積聚合(Qwen3-4B-Instruct-confidence-prod)的 40 億參數模型取得了 0.806 的 SNR 增益 , 大幅超越 GPT-5 的 0.207 。 采用 Critic 價值函數(Qwen3-4B-Instruct-ppo-value)也取得了相當好的效果 。

表1:BeyondAIME 響應級評估結果 。 SNR Gain 和 Conf AUC 是衡量幻覺抑制效果的關鍵指標 , 數值越高表示模型越能有效抑制幻覺 。
聲明級評估:超越 Gemini-2.5-Pro
研究團隊還將行為校準從響應級別擴展到聲明級別 , 讓模型能夠精確標注單個不確定的推理步驟 。 在 BeyondAIME 的聲明級評估中(表 2) , 置信度最小聚合方法取得了 0.301 的 SNR 增益 , 顯著優于 Gemini-2.5-Pro 的 0.019 。

表2:BeyondAIME 聲明級評估結果 。 最小值聚合方法在 SNR Gain 和 Conf AUC 兩個核心指標上均大幅領先前沿模型 。
置信度校準圖:多數前沿模型缺少「自知之明」


圖2:前沿模型在BeyondAIME上的響應級置信度校準圖 。 可以觀察到 , 很多模型的準確率是一條水平線 , 與其聲明的置信度幾乎沒有相關性 。

圖3:本研究模型在BeyondAIME上的置信度校準圖 。 經過行為校準訓練后 , 模型的準確率與其聲明的置信度呈現強烈的正相關關系 。 其中Base和Base-ppo是基準 。
行為校準的四個目標

圖4:在不同風險閾值下的準確率、拒絕率和幻覺率變化曲線 。 綠色區域代表準確率 , 黃色區域代表拒絕率 , 紅色區域代表幻覺率 。 隨著風險閾值t的增加 , 模型逐漸從「應試者模式」過渡到「完全誠實模式」 。
研究團隊設計的系統滿足行為校準的四個目標:





圖5:行為校準的True Positive(實線)和False Negative(虛線) 。 TP曲線應位于對角線上方 , FN曲線應位于對角線下方 。 Base和Base-ppo是基線
跨領域泛化:元技能的可遷移性
為了驗證該方法訓練出的元認知能力是否具有可遷移性 , 研究團隊將在數學數據上訓練的模型直接在 SimpleQA(具有挑戰性的長尾事實知識基準)上進行零樣本評估 。
結果顯示 , 方法的 SNR 顯著優于基礎指令模型 , 超越了大多數評估的前沿模型 , 與包括 Claude-Sonnet-4.5 和 GPT-5 在內的最強前沿模型相當 。 由于零樣本評估的設定 , 在模型缺乏基礎知識的全新領域上 , 行為校準被有效遷移 , 這說明行為校準是一種與預測準確率解耦的技能 。
研究啟示:
幻覺緩解與準確率是兩個獨立的能力
該研究還帶來了一些理論洞察:
1. 幻覺緩解與事實準確率是兩種不同的能力 。 研究團隊觀察到 , 對于某些前沿模型而言 , 準確率與幻覺率或置信度校準之間并沒有正相關關系 。 GPT 系列模型的優勢更多體現在控制幻覺的能力上 , 而不僅是準確率的優勢 。
2. 小模型也能實現與大模型相當的置信度校準 。 實現有效「校準」所需的計算資源遠低于追求絕對準確率所需的資源 。 反過來說 , 某些大模型的言語化置信度并不能準確反映其實際表現 。
3. 行為校準是一種可學習的屬性 , 可以通過訓練得到改善 。 這與此前認為幻覺是 LLM 不可避免的內置特性的觀點形成了對比 。

    推薦閱讀