騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

文章圖片

騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

文章圖片

騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

文章圖片

騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

文章圖片

騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o



本論文的主要作者來自騰訊混元 AI 數字人團隊 (Tencent Hunyuan AI Digital Human) 。 該團隊致力于打造「有智商、有情商、有溫度的數字人」 , 旨在為用戶提供高度擬人、可信賴的數字伙伴 , 進而實現富有溫度與信任的情感交互 。

自主智能體(Agents)正朝著能夠處理復雜長程任務(Long-Horizon Tasks)的通用智能(AGI)邁進 , 但許多研究者發現了一個尷尬的現實:很多智能體雖然能完成任務 , 卻像個「只會蒙答案的學生」 , 其成功往往依賴于運氣和低效的試錯 , 而非真正高效、可泛化的推理能力 。 一旦環境稍作改變 , 它們便漏洞百出 。

這種「結果正確 , 但過程混亂」的現象 , 是當前長程智能體(Long-Horizon Agents)強化學習(RL)范式的一大瓶頸 。 智能體在探索中 , 只因最終能完成任務便獲得獎勵 , 而其間大量的冗余操作、無效探索 , 甚至錯誤的推理路徑 , 都被無意中 「強化」 和固化 。 這導致了兩個核心難題:

1.低效探索難題:智能體容易陷入「無效內卷」 , 反復嘗試無意義的動作 , 訓練成本高 , 推理效率低下 。

2.泛化脆弱難題:靠「蒙對」學會的策略缺乏邏輯基礎 , 在新任務面前不堪一擊 , 難以實現真正的魯棒性 。

如何讓智能體不僅「知其然」 , 更能「知其所以然」?

面對這些難題 , 騰訊混元 AI 數字人團隊提出了 RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards) 框架 。 這項工作開創性地將認知科學中的「元認知」(即 「思考自己的思考」)理論引入 RL , 通過獎勵「好的思考過程」而非僅僅獎勵「好的結果」 , 首次實現了對智能體推理過程的端到端強化學習 , 成功解決了長程任務中的低效探索與泛化難題 。



論文地址: [2507.22844
RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents 項目代碼: digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub
RLVMR:如何教會智能體「思考」 , 而不僅是「做事」?

傳統方法要么依賴僵化的專家數據(SFT) , 要么依賴稀疏的結果獎勵(RL) , 都無法有效塑造智能體高質量的「思維習慣」 。 RLVMR 的破局點在于:為智能體的「思考過程」本身 , 設計一套可驗證、可優化的獎勵機制 。



1. 智能體學會「三思而后行」:引入元推理狀態

RLVMR 賦予智能體「自我意識」的能力 。 在行動前 , 智能體需要先思考并給自己貼上一個「元推理標簽」 , 明確自己當前處于哪個認知階段:

規劃(Planning): 我準備做什么?計劃是什么? 探索(Exploring):我正在執行計劃 , 探索方案 。反思(Reflecting):計劃出錯了?我需要糾正什么?這套機制讓智能體的「內心戲」變得明確、可追蹤 , 為獎勵其「優質思考」提供了抓手 。

2. 獎勵「好思路」 , 懲罰「壞習慣」:可驗證的過程獎勵

光有標簽還不夠 , RLVMR 設計了一套輕量級的驗證規則 , 實時評估智能體的思考質量 , 并給予即時獎勵:

獎勵高效思考:當智能體在「反思」后成功糾錯 , 或制定出有效「規劃」時 , 給予正向獎勵 。 懲罰低效行為:當智能體陷入無意義的動作循環或重復犯錯時 , 給予負向獎勵 。
這種「過程獎勵」機制 , 像一位貼身教練 , 不斷引導智能體優化其思考與決策路徑 , 從根本上杜絕「瞎蒙」行為 。

3. 從「結果導向」到「過程與結果并重」

RLVMR 將「過程獎勵」與最終的「任務成功獎勵」相結合 , 通過策略梯度方法進行端到端優化 。 這使得智能體在追求最終目標的同時 , 必須學會如何更聰明、更高效地達成目標 。
【騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o】
核心實驗成果:7B 模型比肩「巨頭旗艦」

在極具挑戰性的 ALFWorld 和 ScienceWorld 兩大長程任務基準上 , RLVMR 展現了統治級的性能 。 經過 RLVMR 訓練的 7B 模型 , 在難度最高、從未見過的任務(L2 泛化等級)上 , 成功率高達 83.6% , 不僅遠超此前所有 SOTA 模型 , 更證明了其強大的泛化能力 。



此外 , 我們的方法訓練出的智能體更「聰明」 , 解決任務的路徑更直接 , 在 ALFWorld 和 ScienceWorld 的 L2 復雜環境中 , 所需動作數最高減少 28.1% 。 此外 , 訓練過程本身也告別了「反復橫跳」式的低效學習 , 收斂速度更快、策略更穩定 , 顯著緩解了無效探索問題 。





超越分數:RLVMR 實驗中的深度洞察

洞察一:智能體學會「反思」 , 告別「無效內卷」

傳統 RL 智能體像一個埋頭刷題但從不復盤的學生 , 容易在錯誤路徑上反復掙扎 。 RLVMR 的核心貢獻在于教會了智能體「反思」(Reflecting) 。



實驗數據顯示 , 引入「反思」機制后 , 智能體在遇到困難時 , 不再是盲目重試 , 而是能夠主動識別問題、調整策略 。 這正是其重復動作率大幅降低、任務成功率飆升的根本原因 。 它揭示了一個關鍵點:對于復雜任務 , 教會智能體如何從失敗中學習 , 比單純「喂」給它成功的經驗更重要 。

洞察二:好的推理習慣 , 是泛化能力的基石

為什么 RLVMR 在未見任務上表現如此出色?



我們發現 , 通過獎勵「好的思考過程」 , RLVMR 幫助智能體建立了一套通用的、不依賴于特定任務的「元問題解決框架」(如何規劃、如何探索、如何反思) 。 當面對新環境(L2)時 , 智能體調用的不再是某個僵化的「解題模板」 , 而是這套靈活的「思維方法論」 。

這證實了一個重要猜想:真正的泛化能力 , 源自于對問題解決過程的深刻理解 , 而非對問題答案的機械記憶 。RLVMR 正是通往這條道路的有效路徑 。

洞察三:先 「冷啟動」 再 「強化」—— 智能體的成長階梯設計

RLVMR 采用了「冷啟動 SFT + 強化學習 RL」的兩階段訓練流程 。 這并非簡單的流程拼接 , 而是一種符合認知規律的「成長曲線」設計 。

冷啟動階段(SFT): 如同基礎教育 , 讓智能體先通過模仿學習 , 快速掌握「規劃」「反思」等元推理概念的基本表達方式 。 強化學習階段(RL): 如同進入社會實踐 , 讓智能體在真實環境中自由探索 , 通過「過程獎勵」的不斷反饋 , 將學到的概念內化為真正的能力 。


這一策略啟示我們:在訓練高級智能體時 , 「先教會它如何思考 , 再放手讓它去犯錯成長」 , 可能是比單一訓練范式更高效的路徑 。

總結與展望

RLVMR 的提出 , 為智能體訓練帶來了從「結果導向」到「過程導向」的范式革新 。 它證明了 , 通過對智能體「思考過程」的直接建模與獎勵 , 我們能夠有效破解長程任務中的「低效探索」與「泛化脆弱」兩大難題 。

我們對 AGI 的終極期待 , 是一個能夠獨立思考、理性決策的伙伴 , 而不是一個只會尋找捷徑的「做題家」 。 RLVMR 的工作 , 正是鼓勵大模型從偶然涌現的能力 , 走向特定思維模式的強化 , 為構建更魯棒、更高效、更可解釋的通用智能體邁出了堅實的一步 。

這項研究不僅為長程智能體訓練提供了新思路 , 也為我們探索能真正理解世界、應對未知的下一代 AI 帶來了新的曙光 。

    推薦閱讀