開源框架教AI在MCP中玩轉工具解決任務，實測效果超越GPT！

2026-04-28 人工智能 ai

文章圖片

文章圖片

文章圖片

henry 發自凹非寺
量子位 | 公眾號 QbitAI
強化學習+任意一張牌，往往就是王炸。
專注于LLM+RL的科技公司OpenPipe提出全新開源強化學習框架——MCP·RL 。
只需一個MCP Server的地址， agent就能自動發現工具、生成任務，通過強化學習在閉環反饋中摸索出最優調用策略。
在實測中， MCP·RL更是在2/3的benchmark上達到或超過SOTA性能，效果直接拉滿。

不套公式，在“做中學” ，這就是專屬RL的power！

MCP·RL的做中學想明白MCP·RL怎么個“做中學”法，咱們有必要簡單過一下傳統MCP的流程：
舉個例子，假如你想讓agent幫自己讀郵件、分類、寫回復，那么你就得提前設置好整個工作流：
準備郵件數據、注冊工具、寫prompt規劃執行順序。
此外，你還得設置回退邏輯，以防中途崩掉。
而這只是一個發郵件的例子，功能一多，配置量指數級上升。
最關鍵的是——你得知道怎么拆任務、調工具、寫邏輯。
換句話說， agent就是在做你給他出的完形填空。
而你，我的朋友，要填除了空以外的所有東西。
MCP·RL的提出就是為了解決這一問題。
你只需提供MCP Server地址，不用配置工具、不用寫prompt、不用人工標注。
模型就能自己發現工具、自己設計任務、自己實戰訓練，邊跑邊學。

簡單來說， MCP·RL的訓練流程分四步：
發現工具：自動連接MCP Server ，獲取所有可用工具和參數。生成任務：根據工具信息自己“腦補”出一批使用場景，作為訓練任務（數據）。實戰訓練：通過跑任務直接從經驗中學習，搭配RULER評估策略，調參優化。測試泛化：用新任務檢驗策略泛化性，讓agent越用越順手 ?？偨Y下來就是：任務場景是什么？AI找；工具怎么用？AI學；流程怎么拆？AI想；效果好不好？AI試。
一位網友精辟的點出了這一轉變：
我們曾借助MCP讓AI調用工具，而現在是AI反過來利用MCP 。

那么，它的效果如何呢？
正如我們開頭提到的， MCP·RL在2/3的基準測試中達到SOTA 。

而在具體的部署層面， MCP·RL無需標注數據，適用于任何Server ，無需定制MCP接口，開箱即用。
One more thingMCP·RL是科技公司OpenPipe基于強化學習的智能體訓練系統(Agent Reinforcement Trainer ， ART)的最新項目。
ART是一個開源強化學習框架，其核心思想是讓LLM從經驗中學習，從而提高agent的可靠性， ART可以將GRPO集成到任何Python應用中。
在此前的實測中， ART（Agent Reinforcement Trainer）對Qwen 2.5-14B進行強化訓練，其在一項電子郵件檢索任務中表現優于o3 ，實現了SOTA（state-of-the-art）。

參考鏈接：[1
https://x.com/corbtt/status/1953171838382817625[2
https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks

— 完 —
量子位 QbitAI · 頭條號簽約
關注我們，第一時間獲知前沿科技動態
【開源框架教AI在MCP中玩轉工具解決任務，實測效果超越GPT！】

推薦閱讀

上一篇：微信的送禮功能，逐漸成了抽象樂子人的天堂

下一篇：達摩院開源具身智能“三大件”，機器人上下文協議首次開源