阿里高德提出Tree-GRPO，高效破解智能體RL難題

2026-02-15 龍崗人工智能 ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

對于大模型的強化學習已在數學推理、代碼生成等靜態任務中展現出不俗實力，而在需要與開放世界交互的智能體任務中，仍面臨「兩朵烏云」：高昂的 Rollout 預算（成千上萬的 Token 與高成本的工具調用）和極其稀疏的「只看結果」的獎勵信號。

來自阿里高德的一篇最新研究論文提出了面向 Agent RL 的 Tree-GRPO 方法，將獨立的鏈式采樣改造為智能體步驟級的樹搜索。該方法通過共享前綴、一次擴展多個分支，在相同預算下獲得更豐富的有效軌跡；更重要的是，僅憑最終獎勵即可沿樹結構回溯出過程中的偏好信號，等價于隱式的步驟級偏好學習。

在 11 個知識密集型、網絡搜索問答任務數據集中， Tree-GRPO 在多種模型規模上更省預算、更高表現，顯著優于鏈式 RL 方法，甚至能在 1/4 預算的情況下超越 GRPO 基線，為 Agentic RL 的高效訓練提供了新的解決思路。

論文標題：Tree Search for LLM Agent Reinforcement Learning 論文地址：https://arxiv.org/abs/2509.21240 代碼鏈接：https://github.com/AMAP-ML/Tree-GRPO

樹方法相較鏈方法的區別與優勢

Agentic RL 的痛點

（左）鏈采樣，（中）token/sentence-level 樹采樣，（右）agent-level 樹采樣

在 Agentic RL 中， LLM 不再是被動的文本生成器，而是一個在動態環境中的自主決策智能體。在 ReAct 視角下， LLM Agent 的決策軌跡由一段連續的多步行動構成，在每一步中，智能體都會進行思考（Think）、行動（Action）、觀察（Observation）三個行為。

這樣的開放式多輪軌跡在 RL 中面臨兩點關鍵瓶頸：

Rollout 采樣成本高：多回合交互的軌跡中包含成千上萬 Token 和多次 tool-calls 。現有鏈式采樣為同一任務反復生成多跳獨立軌跡，采樣冗余高，訓練時間幾乎被 rollout 吞噬，且外部工具（如搜索 API）費用不菲；
多輪長軌跡的監督稀疏：絕大多數方法僅能依賴最終獎勵評估整條軌跡好壞，難以定位「哪一步/哪一次行動」貢獻了成敗，導致在預算增長時有效訓練信號并未同比增加，學習過程失衡甚至出現訓練崩潰。
Tree-GRPO：以「智能體步驟」為節點進行樹搜索

Tree-GRPO 訓練總覽，左上為采樣流程，右上為兩個主要優勢，下方為訓練流程

已有的樹搜索 RL 方法通常在 Token 級或句式級別上進行，對于有明確步驟級語義結構的智能體來說并不適合。該團隊提出以「智能體步驟」為樹節點單位的樹搜索，即每個樹節點對應一個完整的思考、行動、觀察步驟。為適配現有 LLM 并行推理框架，我們采用「先初始化—后擴張」的策略：

初始化 M 條獨立軌跡；每條軌跡隨機采樣 N 個節點，以根節點到采樣節點作為完整上下文進行擴張；
通過重復步驟 2 L 次，最終獲得分散在 M 棵樹的反應軌跡。這樣的樹搜索能夠在一定的 rollout 預算下獲得更多的 Agent 軌跡。

基于樹的優勢計算
通過樹結構的樣本軌跡，該方法還能夠在僅憑結果獎勵下構造出 step-level 的偏好目標，形式與離線構造 DPO 數據優化目標一致。

對每棵樹而言，在每個分支節點，從葉節點回溯得到的獎勵差值天然形成一個偏好優化目標，而兄弟子樹的深度決定了該過程信號的粒度。

為進一步提升 RL 訓練中優勢估計的穩定性，避免因單棵樹軌跡數量過少導致的偏差或方差， Tree-GRPO 還對所有樹間的軌跡優勢進行歸一化，并將歸一化結果與原始優勢相加，作為最終的優勢估計。

最終的優化目標為：

值得注意的是，這樣的樹內 GRPO 在梯度形式上和 step-level DPO 的優化目標保持一致

實驗結果： 11 個 Agent 問答任務評測
本文在包括 Llama3.2 和 Qwen2.5 系列的多個參數規模模型上進行了評測。實驗結果表明， Tree-GRPO 在所有任務上均穩定優于鏈式 RL 方法，其中多跳問答（QA）性能提升尤為顯著：在較小模型 Qwen2.5-1.5b 上有 69% 相對提升，在 Qwen2.5-3b 上取得了 36.8 的平均 EM 得分。

在 Web-Agent QA 實驗設定中， Tree-GRPO 在各項指標上也均有穩定提升，在 GAIA 中有相對 28% 性能提升。

進一步分析：樹搜索 RL 的更多優勢
由于 Rollout 預算是 Agentic RL 中一個重要限制，本文在不同預算設定下進行了實驗，結果表明 Tree-based 方法在各種設定中均穩定優于 Chain-based 方法，尤其是在預算極其受限情況下（每個 prompt 僅 2 條完整軌跡）， Tree-GRPO 相較 Chain-based 方法有 112% 提升；另外，該方法能夠在 1/4 預算情況下獲得更優性能（36.8 vs 33.9）。

除了性能上的提升，團隊還發現 Tree-based 方法能夠激發模型學習到更多輪的交互次數，這對于更加復雜的 Agent 任務有重要意義。

總結與未來展望
團隊提出的 Tree-GRPO 算法給 Agentic RL 帶來了全新思路，解決了現有方法中 rollout 預算大、監督信號稀疏的兩大問題。通過樹結構的采樣和優勢估計方法， Tree-GRPO 能夠在多輪 Agent 任務中實現更高效、穩定的 RL 訓練。
【阿里高德提出Tree-GRPO，高效破解智能體RL難題】
團隊表示，樹搜索方法是一種探索與利用的權衡，如何動態地調整 RL 訓練中彼此的權重是優化學習效果的重要因素。

推薦閱讀

上一篇：2億像素+長焦增距鏡！vivo剛發布的小屏旗艦，影像太猛了

下一篇：蘋果發布 iOS 26.1 beta3 測試版，有新變化