騰訊發布超低成本AI訓練法！120元效果秒殺70000元微調方案

2025-11-22 人工智能數學 deepseek 騰訊 ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

時令發自凹非寺
量子位 | 公眾號 QbitAI
只花120元，效果吊打70000元微調！
騰訊提出一種升級大模型智能體的新方法——無訓練組相對策略優化Training-Free GRPO 。
無需調整任何參數，只要在提示詞中學習簡短經驗，即可實現高性價比提升模型性能。

實驗表明，在數學推理和網頁搜索任務上，利用無訓練GRPO的DeepSeek-V3.1-Terminus模型展現出顯著的跨領域性能提升。
與微調32B模型相比，該方法在671B大型模型上所需訓練數據更少、成本更低。

網友不禁表示：
也太劃算了吧！

下面具體來看。
將經驗知識作為token先驗如今，大語言模型正逐漸成為強大的通用智能體，在復雜問題解決、網頁研究等通用任務中表現出色。
然而，在需外部工具（如計算器、API）和特定提示策略的專業場景中， LLM往往會因對領域需求和工具不熟悉，而導致性能欠佳。
為了彌補上述差距，基于GRPO的強化學習通過參數空間調整實現對模型行為的定向優化。盡管這些方法能有效提升特定任務的能力，但其對LLM參數調優的依賴仍存在多方面挑戰：
算力成本高；跨領域泛化能力弱；數據稀缺；收益遞減。參數調優中的這些局限引發了一個根本性問題：在參數空間中應用強化學習是否是唯一可行的方法？能否以非參數化的方式提升LLM智能體的性能，同時降低數據和計算成本？
為此，騰訊優圖團隊提出了無訓練組相對策略優化，通過輕量級的token先驗在上下文中學習經驗知識，無需修改模型參數即可提升LLM智能體性能。

Training-Free GRPO重新利用了傳統GRPO基于組間相對評估的核心邏輯，但將其轉化為非參數化的推理階段過程。
該方法保持參數θ永久凍結，轉而維護一個外部經驗知識庫（初始為空集），通過動態更新知識庫而非模型參數來實現性能優化。
隨后， Training-Free GRPO生成自然語言形式的組相對語義優勢。

具體流程如下所示：
1、對于每個輸出，免訓練GRPO首先讓同一個大語言模型M生成對應分析摘要。

2、基于摘要集和當前經驗，由M說明每個輸出相對成功或失敗的原因，然后提取出簡明的自然語言經驗。

之后，傳統GRPO會通過對單個批次中所有優勢計算得到的目標函數進行梯度上升，從而更新模型參數θ 。
而在Training-Free GRPO中，該方法通過使用當前批次中的所有語義優勢A_text來更新經驗庫，每條操作可能包括：
Add（添加）：將A_text中描述的經驗直接追加到經驗庫中。 Delete（刪除）：根據A_text ，從經驗庫中移除低質量經驗。 Modify（修改）：根據A_text提供的見解，優化或改進經驗庫中已有的經驗。 Keep（保留）：經驗庫保持不變。在更新經驗庫后，條件策略會在隨后的批次或訓練輪次中生成偏移后的輸出分布。
可以說， Training-Free GRPO是通過改變上下文而非模型參數本身，將模型引向高獎勵輸出。
其中，被凍結的基礎模型起到了強先驗（strong prior）的作用，不僅保證輸出的連貫性，還提供了類似于GRPO中KL散度約束的內在穩定性，防止策略過度偏離參考模型。
實驗結果為評估免訓練GRPO方法的性能，團隊在數學推理和網絡搜索兩大基準測試上開展了多維度對比實驗。
在實驗中，研究主要關注的是現實應用中難以微調且成本高昂的大型高性能LLM ，例如DeepSeek-V3.1-Terminus 。

實驗結果顯示， Training-Free GRPO在數學推理任務中取得了顯著提升，無論是否使用工具，均表現出明顯優勢。
基線模型DeepSeek-V3.1-Terminus+ReAct在AIME24和AIME25上的得分分別為80.0%和 67.9% ，而應用Training Free GRPO后，凍結模型的表現顯著提升至82.7%和73.3% ，分別帶來2.7%和5.4%的絕對增益。
值得注意的是，這一提升僅使用了100個跨域訓練樣本，并且無需任何梯度更新。相比之下，傳統強化學習方法如ReTool和AFM在32B LLM上通常需要數千個訓練樣本，成本超過10000美元，而Training Free GRPO僅需約18美元。

在AIME24和AIME25實驗中，隨著每一步學習，模型表現持續提升，這表明僅從100個問題中學到的經驗能夠有效泛化，同時也凸顯了多步學習的必要性。
此外，在訓練過程以及跨域評估中，模型的平均工具調用次數都有所下降。這表明Training-Free GRPO不僅促使模型做出正確的推理和決策，還能教會智能體更高效、更謹慎地使用工具。
學習到的經驗知識幫助智能體發現一些捷徑，避免錯誤或冗余的工具調用，從而驗證了基于語義優勢優化方法的有效性。
在網絡搜索任務中，團隊選擇在WebWalkerQA基準上評估免訓練GRPO方法的有效性。

可以看出，該方法在使用DeepSeek-V3.1-Terminus模型時實現了67.8%的Pass@1得分，較基線63.2%有顯著提升。
此外，研究還對來自WebWalkerQA的51個實例進行分層隨機抽樣，以開展消融實驗。

由上圖可知，直接使用生成的經驗會略微降低ReAct的性能（Pass@1 為64.7% ，相比原來的66.7%），這說明僅靠上下文示例而沒有經過優化，難以帶來性能提升。
不使用真實答案的Training-Free GRPO在Pass@1上與ReAct保持一致（66.7%），但在Pass@3上提升到78.4% ，表明即使沒有真實答案，通過相對獎勵評估也能提高輸出的一致性。
完整的Training-Free GRPO則取得了最佳表現（Pass@1為68.6% ， Pass@3為78.4%），凸顯了結合真實答案指導、語義優勢和經驗優化的重要性。
此外，研究還驗證了模型能力是基于經驗優化能否有效的前提條件。
實驗將Training-Free GRPO應用于QwQ-32B時， Pass@1僅為25.5% ，遠低于DeepSeek-V3.1-Terminus的66.7% ，甚至低于其自身的ReAct基線（27.5%）。這表明該方法的有效性依賴于基礎模型在復雜工具使用場景中的推理和工具使用能力。
論文鏈接：https://arxiv.org/abs/2510.08191參考鏈接：https://x.com/rohanpaul_ai/status/1978048482003890625Github鏈接：https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO
— 完 —
量子位 QbitAI · 頭條號簽約
【騰訊發布超低成本AI訓練法！120元效果秒殺70000元微調方案】關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：京東零售的AI野心：為每個商家打造自己的“AI戰隊”

下一篇：小米新品官宣：10月15日，全面開售