4B模型幻覺抑制能力超越GPT-5，CMU等提出行為校準強化學習新方法

2026-04-07 數學 gpt5

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

作者吳嘉赟，卡耐基梅隆大學（CMU）機器學習系博士生，研究大語言模型的評測與后訓練，包括模型推理、模型幻覺、主動評測等。
大語言模型（LLM）的幻覺問題一直是阻礙其在關鍵領域部署的核心難題。近日，研究人員提出了一種名為行為校準強化學習（Behaviorally Calibrated Reinforcement Learning）的新方法，通過重新設計獎勵函數，讓模型學會「知之為知之，不知為不知」。

論文鏈接：https://arxiv.org/abs/2512.19920
一個僅 40 億參數的模型在接受該方法訓練后，其幻覺抑制能力竟然超越了 GPT-5 等前沿大模型。

圖1：模型在回答數學問題時輸出的置信度標注示例。每個聲明都附帶置信度分數和理由說明。
核心問題：為什么 LLM 會產生幻覺？
研究團隊指出，當前主流的大模型后訓練范式 —— 基于可驗證獎勵的強化學習（RLVR）—— 存在一個根本性的獎勵錯位問題。在標準 RLVR 中，獎勵函數通常是二元的：回答正確得 + 1 分，回答錯誤得 - 1 分。在這種機制下，只要正確概率大于零，一個追求效用最大化的智能體會被激勵生成可能錯誤的答案。這就造成了對「拒絕回答」行為的懲罰，迫使模型抑制不確定性的表達，將猜測偽裝成事實。模型被訓練成了「優秀的應試者」—— 為了最大化預期分數而猜測，而不是成為「誠實的溝通者」—— 在置信不足時選擇放棄。
解決方案：行為校準強化學習

為了實現這一目標，研究團隊設計了兩種策略：
策略一：言語化置信度（Verbalized Confidence）

【4B模型幻覺抑制能力超越GPT-5，CMU等提出行為校準強化學習新方法】

策略二：Critic 價值函數（Critic Value）
作為顯示生成置信度的替代方案，該策略使用 PPO 算法中 Critic 網絡的價值函數作為隱式置信度估計器。理論上， Critic 網絡通過最小化預測值與策略回報之間的 Brier 分數進行訓練，其價值函數會收斂到成功概率。
聲明級行為校準：細粒度的「不確定」標注
研究團隊進一步將行為校準從響應級別擴展到聲明級別，使模型能夠精確標注答案中單個不確定的推理步驟，而非簡單地拒絕整個回答。這一擴展面臨三大挑戰：
挑戰一：連貫性問題。直接將不確定的聲明替換為 < IDK > 可能破壞推理的連貫性 —— 例如在數學問題中，后續步驟往往依賴于前面的結論。研究團隊選擇讓模型輸出完整響應，同時用 HTML 標簽可視化高亮不確定的聲明。
挑戰二：中間步驟的歧義性。在思維鏈（CoT）推理中，中間步驟的正確性和置信度存在天然歧義：一個步驟可能正確識別了前面聲明中的錯誤。為此，研究團隊忽略中間推理過程，僅在最終的結構化步驟上進行校準。
挑戰三：缺乏細粒度標簽。聲明級的正確性標注難以獲取。研究團隊設計了基于弱監督的學習目標：將聲明級置信度聚合成響應級置信度，再使用 Brier 分數獎勵進行訓練。

實驗發現，最小值聚合在聲明級評估中表現更優，因為它能更有效地激勵模型識別推理鏈中的薄弱環節。而乘積聚合雖然更適合響應級校準，但可能導致單個聲明的置信度過于樂觀。
實驗結果
研究團隊在多個基準測試上評估了該方法，包括字節跳動 Seed 團隊發布的極具挑戰性的數學推理基準 BeyondAIME ，以及 AIME-2024/2025 和 SimpleQA（跨領域事實問答基準）。
核心評估指標

Confidence AUC：使用模型的置信度分數對正確和錯誤回答進行排序，計算 ROC 曲線下面積。 AUC 越接近 1 ，說明模型越能準確地將高置信度分配給正確回答，將低置信度分配給錯誤回答。這是一個純衡量模型「自知之明」的指標，不受模型本身能力強弱的影響。
響應級評估：超越 GPT-5
在 BeyondAIME 上的響應級評估結果顯示（表 1），研究提出的方法顯著優于 Qwen3-max ， Kimi-K2 ， Gemini-2.5-Pro 和 GPT-5 等模型。其中，采用言語化置信度（Verbalized Confidence）、置信度乘積聚合（Qwen3-4B-Instruct-confidence-prod）的 40 億參數模型取得了 0.806 的 SNR 增益，大幅超越 GPT-5 的 0.207 。采用 Critic 價值函數（Qwen3-4B-Instruct-ppo-value）也取得了相當好的效果。

表1：BeyondAIME 響應級評估結果。 SNR Gain 和 Conf AUC 是衡量幻覺抑制效果的關鍵指標，數值越高表示模型越能有效抑制幻覺。
聲明級評估：超越 Gemini-2.5-Pro
研究團隊還將行為校準從響應級別擴展到聲明級別，讓模型能夠精確標注單個不確定的推理步驟。在 BeyondAIME 的聲明級評估中（表 2），置信度最小聚合方法取得了 0.301 的 SNR 增益，顯著優于 Gemini-2.5-Pro 的 0.019 。

表2：BeyondAIME 聲明級評估結果。最小值聚合方法在 SNR Gain 和 Conf AUC 兩個核心指標上均大幅領先前沿模型。
置信度校準圖：多數前沿模型缺少「自知之明」

圖2：前沿模型在BeyondAIME上的響應級置信度校準圖。可以觀察到，很多模型的準確率是一條水平線，與其聲明的置信度幾乎沒有相關性。

圖3：本研究模型在BeyondAIME上的置信度校準圖。經過行為校準訓練后，模型的準確率與其聲明的置信度呈現強烈的正相關關系。其中Base和Base-ppo是基準。
行為校準的四個目標

圖4：在不同風險閾值下的準確率、拒絕率和幻覺率變化曲線。綠色區域代表準確率，黃色區域代表拒絕率，紅色區域代表幻覺率。隨著風險閾值t的增加，模型逐漸從「應試者模式」過渡到「完全誠實模式」。
研究團隊設計的系統滿足行為校準的四個目標：

圖5：行為校準的True Positive（實線）和False Negative（虛線) 。 TP曲線應位于對角線上方， FN曲線應位于對角線下方。 Base和Base-ppo是基線
跨領域泛化：元技能的可遷移性
為了驗證該方法訓練出的元認知能力是否具有可遷移性，研究團隊將在數學數據上訓練的模型直接在 SimpleQA（具有挑戰性的長尾事實知識基準）上進行零樣本評估。
結果顯示，方法的 SNR 顯著優于基礎指令模型，超越了大多數評估的前沿模型，與包括 Claude-Sonnet-4.5 和 GPT-5 在內的最強前沿模型相當。由于零樣本評估的設定，在模型缺乏基礎知識的全新領域上，行為校準被有效遷移，這說明行為校準是一種與預測準確率解耦的技能。
研究啟示：
幻覺緩解與準確率是兩個獨立的能力
該研究還帶來了一些理論洞察：
1. 幻覺緩解與事實準確率是兩種不同的能力。研究團隊觀察到，對于某些前沿模型而言，準確率與幻覺率或置信度校準之間并沒有正相關關系。 GPT 系列模型的優勢更多體現在控制幻覺的能力上，而不僅是準確率的優勢。
2. 小模型也能實現與大模型相當的置信度校準。實現有效「校準」所需的計算資源遠低于追求絕對準確率所需的資源。反過來說，某些大模型的言語化置信度并不能準確反映其實際表現。
3. 行為校準是一種可學習的屬性，可以通過訓練得到改善。這與此前認為幻覺是 LLM 不可避免的內置特性的觀點形成了對比。

推薦閱讀

上一篇：蘋果50周年前夕庫克發公開信：致敬每一個“瘋狂到想要改變世界”的人

下一篇：一加15T核心配置曝光：搭載6.32英寸165Hz高刷屏+50MP潛望長焦