突破后訓練瓶頸？Meta超級智能實驗室力作：CaT解決RL監督難題

2026-04-26 ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部
在 AI 領域，大家通常采取后訓練方式來讓模型獲取專項技能。然而后訓練一般依賴帶有標注參考的監督微調，或通過可驗證的程序化檢查器提供獎勵。
這就帶來一些問題，目前許多有價值的任務可能同時缺乏這兩種資源。例如在不可驗證的場景中（臨床、自由對話和創意寫作），可能存在多個有效答案，確定性規則檢查難以實施。
在這種情況下，實踐者往往只能依賴（i）繁瑣的標注流程，或（ii）通過另一個 LLM 對自由形式輸出進行粗略獎勵。
然而，當后訓練缺乏真實標注時，學習信號從何而來？
為了回答這一問題，來自牛津大學、Meta 超級智能實驗室等機構的研究者提出設想：
推理計算是否可以替代缺失的監督？
本文認為答案是肯定的，他們提出了一種名為 CaT（Compute as Teacher）的方法，核心思想是把推理時的額外計算當作教師信號，在缺乏人工標注或可驗證答案時，也能為大模型提供監督信號。
結果顯示，推理時直接應用 CaT顯著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能，即使在不可驗證領域（MATH-500 最高提升 27%；HealthBench 提升 12%）。結合強化學習的CaT（CaT-RL）可進一步獲得增益（最高提升 33% 和 30%），訓練后的策略甚至能超越初始教師信號。

論文地址：https://arxiv.org/pdf/2509.14234 論文標題：Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision有意思的是，這篇論文作者全部都在 Meta 超級智能實驗室做過研究（?Work done at Meta Superintelligence Labs）。我們不得不感嘆，近期，他們發文的頻率真是太快了。
在論文上線的同時，這項研究也引起了大家廣泛討論，有人表示：CaT 解決了 RL 中缺少監督的難題，這是一種優雅的解決方案。

還有人認為：CaT 的這項研究意義重大，它將計算本身轉化為監督。如果將其規?；?，可能會改寫我們在健康和安全等不可驗證領域的強化學習方法。

「對于在驗證成本高昂或無法驗證的領域來說，這可能是重要的一步。」

方法介紹
CaT 流程如下：
探索階段：針對每個輸入提示，當前策略生成一組并行推演結果（parallel rollouts）；合成階段：一個凍結的錨點模型（frozen anchor）（即初始策略，僅作為估計器使用）以這組推演結果為條件，通過整合遺漏、矛盾和不完整的解決方案，合成一個單一的估計參考答案；角色分離設計：當前策略負責探索，生成多樣化的推演；錨點模型作為穩定的估計器，將額外的推理計算轉化為完全源于模型行為的教學信號；計算效率：CaT 復用了強化學習中常見的組推演計算預算（如 GRPO），除已有采樣計算外幾乎不引入額外開銷。這種方法的核心優勢在于：無需人工標注或外部驗證器，僅通過模型自身的推理過程就能生成高質量的監督信號，適用于數學推理、醫療咨詢、創意寫作等缺乏標準答案的任務。

此外，本文還通過提供獎勵函數來優化模型，使其接近預估參考值，稱之為 CaT-RL 。
對于數學等可驗證領域，這很容易。只需檢查預估參考答案是否與策略部署的答案相同即可。如果相同，則獎勵 +1！
對于自由聊天等不可驗證領域，這要困難得多！因為有很多有效答案…… 所以本文做了一些不同的事情。
方法是模型再次查看預估參考值，并生成一個標準列表（一個評估標準），以二進制是 / 否檢查表的形式對其進行描述。然后，讓 GPT-4o 判斷每個策略部署是否滿足評估標準，并給予獎勵。

實驗
本文評估了 Compute as Teacher 的兩種模式：CaT 和 CaT-RL ，實驗涵蓋三個模型系列：Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 。
結果 1：CaT-RL 不僅超越了初始策略，其表現也優于 CaT 方法（圖 4）。

結果 2：自擬評分標準（Self-proposed rubrics）在不可驗證領域可以作為有效獎勵。圖 5（左）顯示，自擬評分標準的表現優于模型評判，并可與人類專家注釋相媲美。

結果 3：基于自擬評分標準的強化學習（CaT-RL）優于監督微調（SFT）。盡管在處理不可驗證輸出時， SFT 是事實上的默認方法，但在圖 5（右）中顯示：當獎勵來自自擬評分標準時， RL 效果更佳。
結果 4：CaT 比單樣本和選擇基線模型能產生更好的參考估計。圖 6 為在推理時間與其他方案進行了比較，結果表明 CaT 產生的參考估計最強，并且用途最廣泛。

結果 5：CaT 會隨著 rollout 數量 G 的增加而擴展。圖 7（左）顯示，在 MATH-500 上，擴展是單調的，而在 HealthBench 上， CaT 在大約 4 次 rollout 后達到平臺期。

【突破后訓練瓶頸？Meta超級智能實驗室力作：CaT解決RL監督難題】了解更多內容，請參考原論文。

推薦閱讀

上一篇：第四代 WOLED 顯示器：從亮度到色彩的全面革新，玩家的終極歸宿

下一篇：兩步生成企業級Agent，華為云Versatile平臺打通智能體落地最后一公里