突破后訓練瓶頸?Meta超級智能實驗室力作:CaT解決RL監督難題

突破后訓練瓶頸?Meta超級智能實驗室力作:CaT解決RL監督難題

文章圖片

突破后訓練瓶頸?Meta超級智能實驗室力作:CaT解決RL監督難題

文章圖片

突破后訓練瓶頸?Meta超級智能實驗室力作:CaT解決RL監督難題

文章圖片

突破后訓練瓶頸?Meta超級智能實驗室力作:CaT解決RL監督難題

文章圖片

突破后訓練瓶頸?Meta超級智能實驗室力作:CaT解決RL監督難題

文章圖片

突破后訓練瓶頸?Meta超級智能實驗室力作:CaT解決RL監督難題

文章圖片


機器之心報道
機器之心編輯部
在 AI 領域 , 大家通常采取后訓練方式來讓模型獲取專項技能 。 然而后訓練一般依賴帶有標注參考的監督微調 , 或通過可驗證的程序化檢查器提供獎勵 。
這就帶來一些問題 , 目前許多有價值的任務可能同時缺乏這兩種資源 。 例如在不可驗證的場景中(臨床、自由對話和創意寫作) , 可能存在多個有效答案 , 確定性規則檢查難以實施 。
在這種情況下 , 實踐者往往只能依賴(i)繁瑣的標注流程 , 或(ii)通過另一個 LLM 對自由形式輸出進行粗略獎勵 。
然而 , 當后訓練缺乏真實標注時 , 學習信號從何而來?
為了回答這一問題 , 來自牛津大學、Meta 超級智能實驗室等機構的研究者提出設想:
推理計算是否可以替代缺失的監督?
本文認為答案是肯定的 , 他們提出了一種名為 CaT(Compute as Teacher)的方法 , 核心思想是把推理時的額外計算當作教師信號 , 在缺乏人工標注或可驗證答案時 , 也能為大模型提供監督信號 。
結果顯示 , 推理時直接應用 CaT顯著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能 , 即使在不可驗證領域(MATH-500 最高提升 27%;HealthBench 提升 12%) 。 結合強化學習的CaT(CaT-RL)可進一步獲得增益(最高提升 33% 和 30%) , 訓練后的策略甚至能超越初始教師信號 。

論文地址:https://arxiv.org/pdf/2509.14234 論文標題:Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision有意思的是 , 這篇論文作者全部都在 Meta 超級智能實驗室做過研究(?Work done at Meta Superintelligence Labs) 。 我們不得不感嘆 , 近期 , 他們發文的頻率真是太快了 。
在論文上線的同時 , 這項研究也引起了大家廣泛討論 , 有人表示:CaT 解決了 RL 中缺少監督的難題 , 這是一種優雅的解決方案 。

還有人認為:CaT 的這項研究意義重大 , 它將計算本身轉化為監督 。 如果將其規?;?, 可能會改寫我們在健康和安全等不可驗證領域的強化學習方法 。

「對于在驗證成本高昂或無法驗證的領域來說 , 這可能是重要的一步 。 」

方法介紹
CaT 流程如下:
探索階段:針對每個輸入提示 , 當前策略生成一組并行推演結果(parallel rollouts); 合成階段:一個凍結的錨點模型(frozen anchor)(即初始策略 , 僅作為估計器使用)以這組推演結果為條件 , 通過整合遺漏、矛盾和不完整的解決方案 , 合成一個單一的估計參考答案; 角色分離設計:當前策略負責探索 , 生成多樣化的推演;錨點模型作為穩定的估計器 , 將額外的推理計算轉化為完全源于模型行為的教學信號; 計算效率:CaT 復用了強化學習中常見的組推演計算預算(如 GRPO) , 除已有采樣計算外幾乎不引入額外開銷 。這種方法的核心優勢在于:無需人工標注或外部驗證器 , 僅通過模型自身的推理過程就能生成高質量的監督信號 , 適用于數學推理、醫療咨詢、創意寫作等缺乏標準答案的任務 。



此外 , 本文還通過提供獎勵函數來優化模型 , 使其接近預估參考值 , 稱之為 CaT-RL 。
對于數學等可驗證領域 , 這很容易 。 只需檢查預估參考答案是否與策略部署的答案相同即可 。 如果相同 , 則獎勵 +1!
對于自由聊天等不可驗證領域 , 這要困難得多!因為有很多有效答案…… 所以本文做了一些不同的事情 。
方法是模型再次查看預估參考值 , 并生成一個標準列表(一個評估標準) , 以二進制是 / 否檢查表的形式對其進行描述 。 然后 , 讓 GPT-4o 判斷每個策略部署是否滿足評估標準 , 并給予獎勵 。

實驗
本文評估了 Compute as Teacher 的兩種模式:CaT 和 CaT-RL , 實驗涵蓋三個模型系列:Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 。
結果 1:CaT-RL 不僅超越了初始策略 , 其表現也優于 CaT 方法(圖 4) 。

結果 2:自擬評分標準(Self-proposed rubrics)在不可驗證領域可以作為有效獎勵 。 圖 5(左)顯示 , 自擬評分標準的表現優于模型評判 , 并可與人類專家注釋相媲美 。

結果 3:基于自擬評分標準的強化學習(CaT-RL)優于監督微調(SFT) 。 盡管在處理不可驗證輸出時 , SFT 是事實上的默認方法 , 但在圖 5(右)中顯示:當獎勵來自自擬評分標準時 , RL 效果更佳 。
結果 4:CaT 比單樣本和選擇基線模型能產生更好的參考估計 。 圖 6 為在推理時間與其他方案進行了比較 , 結果表明 CaT 產生的參考估計最強 , 并且用途最廣泛 。

結果 5:CaT 會隨著 rollout 數量 G 的增加而擴展 。 圖 7(左)顯示 , 在 MATH-500 上 , 擴展是單調的 , 而在 HealthBench 上 , CaT 在大約 4 次 rollout 后達到平臺期 。

【突破后訓練瓶頸?Meta超級智能實驗室力作:CaT解決RL監督難題】了解更多內容 , 請參考原論文 。

    推薦閱讀