蘋果再發論文:精準定位LLM幻覺,GPT-5、o3都辦不到

蘋果再發論文:精準定位LLM幻覺,GPT-5、o3都辦不到

文章圖片

蘋果再發論文:精準定位LLM幻覺,GPT-5、o3都辦不到

文章圖片

蘋果再發論文:精準定位LLM幻覺,GPT-5、o3都辦不到

文章圖片

蘋果再發論文:精準定位LLM幻覺,GPT-5、o3都辦不到

文章圖片

蘋果再發論文:精準定位LLM幻覺,GPT-5、o3都辦不到

文章圖片

蘋果再發論文:精準定位LLM幻覺,GPT-5、o3都辦不到

機器之心報道
機器之心編輯部
蘋果這幾天真是進入了論文高產期 , 時不時就有新的研究發布出來 。
就在近日 , 蘋果又發布了一篇引發學界與業界關注的重磅論文 。
這篇論文非常有意思 , 它用強化學習訓練模型 , 讓模型能夠準確標出答案中哪些部分是幻覺(hallucinated) 。
其核心突破在于:模型不再只是籠統地提示有錯誤 , 而是能直接指出具體哪一段文字是錯誤的 。 這對于需要修改輸出或進行事實審查的用戶來說 , 大大節省了時間 。
論文提出的方法名為 RL4HS , 它使用了片段級獎勵(span-level rewards)和類別感知的 GRPO(Class-Aware Group Relative Policy Optimization) , 從而避免模型偷懶、只輸出無錯誤預測 。
該方法在片段級幻覺檢測任務上 , 甚至超過了 GPT-5 和 o3 。
總體而言 , 片段級獎勵 + 類別平衡機制讓模型真正學會了核查依據并精確指出錯誤內容 , 這是讓大語言模型更可靠、更可審計的重要一步 。

來源:https://x.com/rohanpaul_ai/status/1974652007068967315
接下來我們看看論文內容 。
論文摘要部分 , 作者表示大語言模型常常會生成幻覺內容 , 即與事實不符、缺乏支持的信息 , 這會削弱模型輸出的可靠性 。 以往的大多數研究都將幻覺檢測視為一個二分類任務(即判斷是否存在幻覺) , 但在許多實際應用中 , 人們需要識別具體的幻覺片段(hallucinated spans) , 這實際上是一個多步驟決策過程 。
這自然引出了一個關鍵問題:顯式推理是否能幫助完成幻覺片段檢測這一復雜任務?
為了解答這個問題 , 來自蘋果等機構的研究者首先對有無思維鏈推理的預訓練模型進行了評估 , 結果表明:具備 CoT 推理的模型在多次采樣時 , 往往能至少生成一個正確答案 。
受到這一發現的啟發 , 研究者提出了一個新的框架 RL4HS(Reinforcement Learning for Hallucination Span detection) 。
該框架通過強化學習機制 , 利用片段級(span-level)獎勵函數來激勵模型進行推理 。 RL4HS 基于組相對策略優化(GRPO)方法構建 , 并引入了類別感知策略優化 , 以緩解獎勵不平衡問題 。
在 RAGTruth 基準測試集(涵蓋摘要生成、問答、數據到文本等任務)上的實驗結果顯示:
RL4HS 的表現優于預訓練的推理模型與傳統監督微調方法; 這表明 , 對于幻覺片段檢測任務 , 基于片段級獎勵的強化學習機制是必要且有效的 。
論文地址:https://arxiv.org/pdf/2510.02173 論文標題:Learning to Reason for Hallucination Span DetectionRL4HS 框架
本研究的核心問題之一是:顯式推理是否有助于識別幻覺片段 。
作為初步實驗 , 研究者選取了 Qwen2.5-7B 和 Qwen3-8B 兩種模型 , 在是否啟用思維鏈兩種模式下進行評估 。 研究者讓大模型(Qwen 系列)分別在先推理后判斷和直接判斷兩種模式下工作 。
針對每個輸入 , 本文對模型進行 K 次采樣 , 并根據 Span-F1 指標選擇最佳預測結果 。 相應的 Span-F1@K 結果如圖 1 所示 。

結果顯示 , 當 K=1 時 , 思維鏈推理對 Qwen2.5-7B 模型沒有帶來性能提升 , 對 Qwen3-8B 模型的提升也較為有限 。 然而隨著 K 值增大 , Span-F1@K 指標的差距顯著擴大 , 這證明思維鏈推理在多次采樣時至少能產生一次準確預測的潛力 。 這些結果為采用強化學習方法來激發大語言模型在幻覺片段檢測方面的推理能力提供了明確依據 。 本文在 Qwen2.5-14B 和 Qwen3-14B 模型上也進行了相同實驗 , 觀察到了類似現象 。
此外 , 本文還采用了 GRPO , 其學習目標定義如下:

盡管 GRPO 在組內對優勢值進行了標準化處理 , 但本文發現預測類型會顯著影響優勢值的大小 , 如圖 3 所示 。

這種偏差源于獎勵函數 r_span 固有的不對稱性 。 在非幻覺類別中 , 模型只需預測一個空片段列表即可獲得高獎勵;而在幻覺類別中 , 模型必須精確定位并輸出正確的片段范圍 。 后者是更困難的目標 , 細微誤差就會導致基于 F1 的獎勵大幅降低 。 因此 , GRPO 會過度激勵模型做出非幻覺預測 , 最終形成高精確率但召回率被抑制的偏差行為 。
為了解決這種不平衡問題 , 本文提出了類別感知策略優化(Class-Aware Policy Optimization , 簡稱 CAPO) 。 該方法為非幻覺類別的樣本引入一個縮放因子 α , 用于調整其對應的優勢值 , 從而緩解獎勵偏差 。 本實驗中使用 α = 0.5 。

實驗
實驗數據集如下所示:

實驗主要采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為基礎模型 。
作為對比 , 本文還評估了以下幾類模型:
預訓練推理模型:Qwen3-8B、Qwen3-14B 和 QwQ-32B; 商用推理模型:GPT-5、o3、GPT-4o-mini 以及 GPT-5-mini 。表 1 報告了 RAGTruth 在摘要、問答和數據轉文本等任務中的幻覺檢測結果 。

預訓練指令微調模型: Qwen2.5-7B/14B-Instruct(無論是否使用 CoT)在任務中的表現都較差 , F1 分數低于 30 , 這表明僅依靠提示并不足以實現精確的片段級定位 。 預訓練推理模型:具備推理能力的模型(如 QwQ-32B、Qwen3-8B、Qwen3-14B)在幻覺檢測任務中能夠遷移部分推理能力 。 例如 , Qwen3-14B 在摘要任務上的 F1 提升至 35.8 , 而 Qwen2.5-14B-Instruct 僅為 32.9 。 然而 , 這些模型的表現仍落后于微調模型 , 這說明僅具備一般推理能力還不足以勝任片段級幻覺檢測任務 。 微調基線模型:監督微調顯著提升了性能 , 在 14B 規模下 F1 達到 55.4 。 RL4HS 模型:RL4HS 在所有基線模型之上表現出一致的優勢 , 包括專有模型 GPT-4o/5-mini、GPT-5 和 o3 。 RL4HS-7B 在三個任務上的平均 F1 達到 55.9 , 顯著優于 SFT 的 50.1 。 在 14B 規模下 , RL4HS-14B 在摘要、問答和數據到文本任務上分別取得 57.6、54.8 和 62.6 的成績 , 超越了 Qwen3 系列以及表現最強的 GPT-5 和 o3 模型 。下圖表明 CAPO 有效地解決了優勢分布分析中揭示的不平衡問題 。


為了更好地理解 RL4HS 所學習到的推理行為 , 本文在 RAGTruth 數據集上進行了定性結果分析(見表 3) 。 這一示例聚焦于一個具體的不一致問題 。
預訓練模型 。 在微調之前 , 預訓練模型未能識別這一不一致 。 雖然它檢查了結構化的營業時間和用戶評價 , 但忽略了一個關鍵事實:結構化數據中并沒有任何與餐飲服務相關的屬性 。 因此 , 模型未標注出任何幻覺片段 。
RL4HS 。 相比之下 , RL4HS 成功識別出了提供餐飲服務這一聲明是幻覺內容 。 其推理過程與人工設計的啟發式檢測流程高度一致
這一案例表明 , RL4HS 的推理不僅停留在表面解釋層面 。 不同于生成籠統或無關的說明 , 它能夠執行系統化的、一致性檢驗式的推理 , 與傳統幻覺檢測流程中使用的啟發式規則高度契合 。 這說明在片段級獎勵機制下 , RL4HS 所學到的推理行為是真實的、可靠的 。

【蘋果再發論文:精準定位LLM幻覺,GPT-5、o3都辦不到】了解更多內容 , 請參考原論文 。

    推薦閱讀