阿里高德提出Tree-GRPO,高效破解智能體RL難題

阿里高德提出Tree-GRPO,高效破解智能體RL難題

文章圖片

阿里高德提出Tree-GRPO,高效破解智能體RL難題

文章圖片

阿里高德提出Tree-GRPO,高效破解智能體RL難題

文章圖片

阿里高德提出Tree-GRPO,高效破解智能體RL難題

文章圖片

阿里高德提出Tree-GRPO,高效破解智能體RL難題

文章圖片

阿里高德提出Tree-GRPO,高效破解智能體RL難題

文章圖片

阿里高德提出Tree-GRPO,高效破解智能體RL難題

文章圖片




對于大模型的強化學習已在數學推理、代碼生成等靜態任務中展現出不俗實力 , 而在需要與開放世界交互的智能體任務中 , 仍面臨「兩朵烏云」:高昂的 Rollout 預算(成千上萬的 Token 與高成本的工具調用)和極其稀疏的「只看結果」的獎勵信號 。

來自阿里高德的一篇最新研究論文提出了面向 Agent RL 的 Tree-GRPO 方法 , 將獨立的鏈式采樣改造為智能體步驟級的樹搜索 。 該方法通過共享前綴、一次擴展多個分支 , 在相同預算下獲得更豐富的有效軌跡;更重要的是 , 僅憑最終獎勵即可沿樹結構回溯出過程中的偏好信號 , 等價于隱式的步驟級偏好學習 。

在 11 個知識密集型、網絡搜索問答任務數據集中 , Tree-GRPO 在多種模型規模上更省預算、更高表現 , 顯著優于鏈式 RL 方法 , 甚至能在 1/4 預算的情況下超越 GRPO 基線 , 為 Agentic RL 的高效訓練提供了新的解決思路 。



論文標題:Tree Search for LLM Agent Reinforcement Learning 論文地址:https://arxiv.org/abs/2509.21240 代碼鏈接:https://github.com/AMAP-ML/Tree-GRPO

樹方法相較鏈方法的區別與優勢

Agentic RL 的痛點

(左)鏈采樣 , (中)token/sentence-level 樹采樣 , (右)agent-level 樹采樣

在 Agentic RL 中 , LLM 不再是被動的文本生成器 , 而是一個在動態環境中的自主決策智能體 。 在 ReAct 視角下 , LLM Agent 的決策軌跡由一段連續的多步行動構成 , 在每一步中 , 智能體都會進行思考(Think)、行動(Action)、觀察(Observation)三個行為 。

這樣的開放式多輪軌跡在 RL 中面臨兩點關鍵瓶頸:

Rollout 采樣成本高:多回合交互的軌跡中包含成千上萬 Token 和多次 tool-calls 。 現有鏈式采樣為同一任務反復生成多跳獨立軌跡 , 采樣冗余高 , 訓練時間幾乎被 rollout 吞噬 , 且外部工具(如搜索 API)費用不菲;
多輪長軌跡的監督稀疏:絕大多數方法僅能依賴最終獎勵評估整條軌跡好壞 , 難以定位「哪一步/哪一次行動」貢獻了成敗 , 導致在預算增長時有效訓練信號并未同比增加 , 學習過程失衡甚至出現訓練崩潰 。
Tree-GRPO: 以「智能體步驟」為節點進行樹搜索

Tree-GRPO 訓練總覽 , 左上為采樣流程 , 右上為兩個主要優勢 , 下方為訓練流程

已有的樹搜索 RL 方法通常在 Token 級或句式級別上進行 , 對于有明確步驟級語義結構的智能體來說并不適合 。 該團隊提出以「智能體步驟」為樹節點單位的樹搜索 , 即每個樹節點對應一個完整的思考、行動、觀察步驟 。 為適配現有 LLM 并行推理框架 , 我們采用「先初始化—后擴張」的策略:

初始化 M 條獨立軌跡; 每條軌跡隨機采樣 N 個節點 , 以根節點到采樣節點作為完整上下文進行擴張;
通過重復步驟 2 L 次 , 最終獲得分散在 M 棵樹的反應軌跡 。 這樣的樹搜索能夠在一定的 rollout 預算下獲得更多的 Agent 軌跡 。



基于樹的優勢計算
通過樹結構的樣本軌跡 , 該方法還能夠在僅憑結果獎勵下構造出 step-level 的偏好目標 , 形式與離線構造 DPO 數據優化目標一致 。

對每棵樹而言 , 在每個分支節點 , 從葉節點回溯得到的獎勵差值天然形成一個偏好優化目標 , 而兄弟子樹的深度決定了該過程信號的粒度 。



為進一步提升 RL 訓練中優勢估計的穩定性 , 避免因單棵樹軌跡數量過少導致的偏差或方差 , Tree-GRPO 還對所有樹間的軌跡優勢進行歸一化 , 并將歸一化結果與原始優勢相加 , 作為最終的優勢估計 。



最終的優化目標為:



值得注意的是 , 這樣的樹內 GRPO 在梯度形式上和 step-level DPO 的優化目標保持一致



實驗結果: 11 個 Agent 問答任務評測
本文在包括 Llama3.2 和 Qwen2.5 系列的多個參數規模模型上進行了評測 。 實驗結果表明 , Tree-GRPO 在所有任務上均穩定優于鏈式 RL 方法 , 其中多跳問答(QA)性能提升尤為顯著:在較小模型 Qwen2.5-1.5b 上有 69% 相對提升 , 在 Qwen2.5-3b 上取得了 36.8 的平均 EM 得分 。



在 Web-Agent QA 實驗設定中 , Tree-GRPO 在各項指標上也均有穩定提升 , 在 GAIA 中有相對 28% 性能提升 。



進一步分析: 樹搜索 RL 的更多優勢
由于 Rollout 預算是 Agentic RL 中一個重要限制 , 本文在不同預算設定下進行了實驗 , 結果表明 Tree-based 方法在各種設定中均穩定優于 Chain-based 方法 , 尤其是在預算極其受限情況下(每個 prompt 僅 2 條完整軌跡) , Tree-GRPO 相較 Chain-based 方法有 112% 提升;另外 , 該方法能夠在 1/4 預算情況下獲得更優性能(36.8 vs 33.9) 。



除了性能上的提升 , 團隊還發現 Tree-based 方法能夠激發模型學習到更多輪的交互次數 , 這對于更加復雜的 Agent 任務有重要意義 。



總結與未來展望
團隊提出的 Tree-GRPO 算法給 Agentic RL 帶來了全新思路 , 解決了現有方法中 rollout 預算大、監督信號稀疏的兩大問題 。 通過樹結構的采樣和優勢估計方法 , Tree-GRPO 能夠在多輪 Agent 任務中實現更高效、穩定的 RL 訓練 。
【阿里高德提出Tree-GRPO,高效破解智能體RL難題】
團隊表示 , 樹搜索方法是一種探索與利用的權衡 , 如何動態地調整 RL 訓練中彼此的權重是優化學習效果的重要因素 。

    推薦閱讀