改變強化學習范式,Meta新作呼應Sutton「經驗時代」預言

改變強化學習范式,Meta新作呼應Sutton「經驗時代」預言

文章圖片

改變強化學習范式,Meta新作呼應Sutton「經驗時代」預言

文章圖片

改變強化學習范式,Meta新作呼應Sutton「經驗時代」預言

文章圖片

改變強化學習范式,Meta新作呼應Sutton「經驗時代」預言

機器之心報道
編輯:張倩、澤南
從數據時代到經驗時代 , 怎么平滑過渡?Meta提出了新見解 。
前段時間 , 圖靈獎得主 Richard Sutton 與谷歌 RL 大佬 David Silver 合作撰寫的《Welcome to the Era of Experience(歡迎來到經驗時代)》引發了廣泛關注 。 他們在文中指出 , 人類數據已接近極限 , AI 智能體若想突破天花板 , 必須像人類和動物一樣 , 通過與環境持續互動生成「經驗流」 , 并通過強化學習實現自主提升 。 也就是說 , AI 智能體將迎來「經驗時代」 , 這是重大的范式轉變 。
然而 , 在許多環境中 , 基于經驗數據使用強化學習來訓練智能體仍然面臨挑戰 。 一方面 , 這些環境往往缺乏可驗證或密集的獎勵信號 —— 尤其是在開放式場景中(例如網頁環境通常不會返回明確的任務反?。 渙硪環矯?, 智能體可能需要在長時間跨度內進行低效的探索與泛化 , 例如跨多輪的工具使用或復雜交互流程 。
目前大多數語言智能體采用監督微調(SFT)從專家示范中學習 , 以避免依賴獎勵信號 。 雖然這種方法訓練高效 , 但缺乏環境交互 , 無法從失敗中學習或主動探索 , 同時對高質量專家數據依賴強、成本高、泛化性有限 。 因此 , 一個關鍵問題浮出水面:如何讓智能體在沒有外部獎勵的情況下 , 從自身經驗中學習成長?
上周末 , 一篇來自 META 超級智能實驗室(MSL)、FAIR、俄亥俄州立大學的研究為該問題提供了一種解法 。
他們創新性地嘗試使用一種介于模仿學習與強化學習之間的中間范式來解決上述問題 , 它被稱為「早期經驗」:智能體不僅從人工整理的數據中學習 , 還從自身在環境中執行動作后產生的未來狀態中學習 。 這些未來狀態代表著智能體的「自身經驗」 , 可以被轉化為監督信號 , 使其能夠直接從行動后果中成長 , 而無需依賴外部獎勵 。
在這個范式中 , 研究人員探索了兩種使用此類數據的策略:
隱式的世界建模 , 它使用收集到的狀態作為環境動態策略的基?。 ? 自我反思 , 智能體從其次優行為中學習 , 以改進推理和決策 ?;谶@一方法 , Meta 成功地將智能體完成任務的成功率提升了 9.6% , 分布外泛化能力提升了 9.4% 。 這為后續 RL 繼續突破人類天花板鋪了一條快速通道 。

論文標題:Agent Learning via Early Experience 論文鏈接:https://arxiv.org/abs/2510.08558方法概覽
為了幫助大家理解早期經驗范式 , 研究者在論文中給出了一個例子:想象一個語言智能體要學習如何在網頁上預訂航班 。 在傳統的模仿學習中 , 它只能看到專家成功預訂的示范過程 。 而在「早期經驗范式」中 , 智能體還會探索當它點擊不同的按鈕或錯誤填寫表單時會發生什么 , 觀察錯誤提示、頁面跳轉以及其他結果 。 這些觀察會成為無需顯式獎勵的學習信號 。 從專家軌跡出發 , 智能體在每一個訪問到的狀態下都會嘗試提出自己的行動 , 通過探索來收集額外的環境反饋 。

下圖 2 展示了兩種「早期經驗」方法:
隱式世界建模(左圖)通過為專家軌跡添加替代動作及其預測的下一個狀態 , 使策略在部署前就能夠內化環境的轉移動態 。 自我反思(右圖)則在專家動作的基礎上加入智能體自生成的解釋 c_1 , 讓策略學會推理并修正自身決策 。這兩種方法都使用由初始策略(LLM)提出的替代動作 。 替代動作的數量(K)是一個超參數;為簡潔起見 , 圖中僅展示了一個示例 。

隱式世界建模
作者將世界建模表述為一項輔助預測任務 , 它能幫助智能體從自身早期經驗中內化環境動態 。 在本文的設定中 , 狀態完全以自然語言來表示 , 這使作者能夠將下一狀態預測建模為標準的下一個 token 預測目標 。 受先前關于將 LLM 訓練為世界模型的研究的啟發 , 他們使用從 rollout 數據集 D_rollout 中獲得的下一個狀態 , 作為語言智能體策略 π_θ 的直接訓練信號 。
例如 , 在網上預訂航班時 , 模型可能會預測輸入無效日期后的頁面狀態 , 并從文本錯誤信息中學習 , 將其作為下一狀態的自然語言表示 。 這種設計無需單獨的模塊 , 并且自然地融入了大型語言模型的微調范式 。
這一訓練目標鼓勵模型去捕捉環境行為中的規律 , 包括常見的狀態轉移、附帶效應以及無效動作的結果 。 不同于推理時用于規劃的顯式世界模型 , 本文中的隱式建模方式將預測信號直接整合進策略學習中 , 作為監督學習或后續優化前的輕量級「預熱」階段 。
這種方法讓智能體能夠接觸到多樣的、非專家的行為數據 , 從而提升對分布變化的魯棒性 , 并減少對脆弱的專家軌跡的依賴 。 實踐中 , rollout 數據的規模通常比專家數據集 D_expert 大一個數量級 。 作者采用兩階段訓練流程:首先利用 L_IWM(隱式世界建模)來學習環境的粗略動態 , 然后在 D_expert 上進行微調(即 L_IL 階段) 。
自我反思
作者將「自我反思」形式化為一種機制 , 使智能體能夠從自身的探索結果中學習 。 與僅依賴專家的狀態 — 動作對不同 , 智能體在每個狀態下會將專家動作與從自身策略中采樣得到的替代動作進行比較 , 并根據它們產生的后續狀態 , 用自然語言生成解釋 , 說明為何專家的選擇更優 。 這些解釋比單純的專家動作提供了更豐富、可遷移的監督信號 , 借助大語言模型在語言處理方面的優勢 , 使智能體能夠內化可在不同任務間泛化的決策原則 。
在實踐中 , 作者將自我反思數據集 D_refl 與專家數據集 D_expert 混合 , 并使用標準的「下一個 token 預測」損失進行訓練 。 在自我反思訓練數據上會生成鏈式思維鏈推理 , 而在 D_expert 中 , 只要專家軌跡自帶推理過程 , 作者就保留原有的思維鏈思維文本 。這種聯合訓練方式在示范數據帶來的扎實決策信號與探索數據帶來的對比性洞見之間實現了平衡 。
從這兩類數據中同時學習 , 有助于模型超越機械模仿 , 發展出更具泛化性的決策準則 。 例如 , 在 WebShop 環境中 , 專家動作是「點擊 15 美元的藍色襯衫」 , 而替代動作可能是「點擊 30 美元的紅色襯衫」 。 模型生成的反思可能是:「雖然紅色襯衫符合顏色偏好 , 但它超出了查詢中指定的 20 美元預算限制;藍色襯衫同時滿足了風格要求和預算約束 。 」這樣的訓練教會模型在決策中優先考慮約束條件 , 這種經驗可以泛化到其他任務和情境中 。
下圖展示了作者在不同環境中使用的提示模板 。

隱式世界建模與自我反思遵循相同的核心原則:都將智能體自身的動作及其導致的未來狀態轉化為可擴展的監督信號 , 從而訓練出更具泛化能力的語言智能體策略 。
實驗結果
Meta 列出了基準測試的結果 , 所有數值均為成功率(%) 。 Prompt 表示指令調優模型的性能表現 。 IWM 和 SR 分別代表隱式世界建模與自我反思 。

可見 , 在幾乎所有場景和兩種模型規模下 , 早期經驗的提升效果都優于模仿學習 。 隱式世界建模(IWM)在結構化模擬器和交易類網站中表現穩定 , 自我反思(SR)則在需要多步驟推理和約束滿足的任務中進步最大 。

分布外評估結果(%) 。 綠色部分顯示了相較于模仿學習的改進情況 。 Prompt 表示指令模型的性能表現 。 IWM 和 SR 分別指隱性世界建模和自我反思 。
在分布外(OOD)數據集環境中 , 盡管所有任務上的分數均有所下降 , 但早期經驗方法始終可以顯著減小差距 。 這表明將自身訓練結果轉化為監督信息 , 能有效幫助策略適應演示數據未覆蓋的場景 。

綜上所述 , 從早期經驗開始訓練始終能獲得更高的后強化學習上限 。 而且在某些場景中 , 這種性能差距會隨著訓練而持續擴大 。
Meta 認為 , 早期經驗在人類數據時代與經驗時代之間起到了中期訓練橋梁的作用 。 它產生的策略即使沒有獎勵也能表現出色 , 并放大了后續強化學習的益處 。 在相同的強化學習方案下 , 早期經驗開始時就能實現更高的最終性能 。 這些結果表明 , 一旦 RL 基礎設施在新環境中可用 , 早期的經驗可以立即解鎖進一步的收益 , 而無需從頭開始重新訓練 。
【改變強化學習范式,Meta新作呼應Sutton「經驗時代」預言】更多內容請參閱論文原文 。

    推薦閱讀