上海交大開源端側Agent全棧工具鏈,真實場景性能超GPT-5!

上海交大開源端側Agent全棧工具鏈,真實場景性能超GPT-5!

文章圖片

上海交大開源端側Agent全棧工具鏈,真實場景性能超GPT-5!

文章圖片

上海交大開源端側Agent全棧工具鏈,真實場景性能超GPT-5!

文章圖片

上海交大開源端側Agent全棧工具鏈,真實場景性能超GPT-5!

文章圖片

上海交大開源端側Agent全棧工具鏈,真實場景性能超GPT-5!



打開手機 , 讓 AI Agent 自動幫你完成訂外賣、訂酒店、網上購物的瑣碎任務 , 這正成為智能手機交互的新范式 。

一個能自主處理大部分日常任務的個人專屬智能體 , 正在從科幻走進現實 。

然而 , 通往 “解放雙手” 的最后一公里卻并不好走 。 如何高效地訓練和在手機端部署 Agent 模型 , 長期以來似乎都是少數大廠的 “自留地” 。 從高質量操作數據的獲取 , 到模型的訓練與適配 , 再到移動端 APP 的優化 , 重重門檻將絕大多數開發者和普通用戶擋在門外 , 也極大地限制了移動端 Agent 的生態發展 。

就在剛剛 , 這一局面迎來了新的破局者 。

來自上海交通大學 IPADS 實驗室的團隊 , 正式開源了一套名為 MobiAgent 的移動端智能體 “全家桶” 。



論文地址: https://arxiv.org/abs/2509.00531 AgentRR 論文:https://arxiv.org/abs/2505.17716 項目倉庫: https://github.com/IPADS-SAI/MobiAgent 模型:https://huggingface.co/IPADS-SAI/collections APP:https://github.com/IPADS-SAI/MobiAgent/releases/download/v1.0/Mobiagent.apk
這套框架 , 首次將從 0 到 1 構建手機 Agent 的全流程完整地向所有用戶開放 。 這意味著 , 從收集手機操作軌跡數據開始 , 到訓練出一個能聽懂自然語言指令、幫你處理日常事務的專屬 Agent , 再到最終將它部署在自己的手機上 , 現在 , 人人都能上手 DIY 。

當然 , 光能 “煉” 還不夠 , 性能必須能打 。 為了驗證 MobiAgent 的真實能力 , 研究團隊直接在國內 Top 20 的 App 上進行了實測 。 結果顯示 , 7B 規模的 MobiAgent 模型 , 在任務平均完成分上 , 不僅超越了 GPT-5、Gemini 2.5 Pro 等一眾頂級閉源大模型 , 也優于目前最強的同規模開源 GUI Agent 模型 。

除了 Agent 能力之外 , 團隊還為 Agent 設計了一個獨特的 “潛記憶加速器” 。 面對點外賣、查地圖這類高頻重復操作 , MobiAgent 能夠 “舉一反三” , 通過學習歷史操作來簡化決策 , 靠 “肌肉記憶” 完成 Agent 任務 , 最終將端到端的任務性能提升了 2-3 倍 。 這樣一套集 “數據捕獲、模型訓練、推理加速、自動評測” 于一體的四位一體框架 , 可以說 , 徹底打通了移動智能體從開發到落地的 “最后一公里” 。

這 , 或許才是普通人真正想要的 Agent 。 那么 , MobiAgent 究竟是如何做到的?

Agent 養成全攻略:三步走

要讓 AI 學會玩手機 , 首先得讓它看懂人是怎么操作的 。 MobiAgent 的第一大核心 , 就是貢獻了一套 AI 輔助的敏捷數據收集 “流水線” 。

過去 , 給 AI 準備 “教材”(標注數據)又貴又慢 。 現在 , MobiAgent 用一個輕量級小工具 , 就能記錄下人類在手機上的所有點擊、滑動、輸入等操作軌跡 。 對于一些簡單的任務 , 這一錄制過程甚至可以完全交給大模型完成 , 進一步提高了數據收集的效率 。


MobiAgent數據收集與自進化流程

但只有操作還不夠 , AI 得理解 “為什么” 這么做 。 于是 , 團隊使用通用的 VLM 模型(例如 gemini-2.5-pro) , 讓它對著操作記錄 , “腦補” 出每一步的思考過程和邏輯 , 自動生成高質量的 “帶思路” 的訓練數據 。 最后 , 也是最重要的一步 , 這些數據會經過一個自動化 “精煉流水線” , 調整數據的難易平衡比例、輸入任務描述、歷史信息長度等等 , 讓訓練出的 Agent 模型具有更強的泛化能力 。

有了高質量的教材 , 下一步就是訓練 。 MobiAgent 的 \"大腦\"MobiMind , 被設計成了一個分工明確的 “三人小組”:

Planner(規劃師): 負責理解復雜任務 , 進行拆解 。 Decider(決策者): 看著當前手機屏幕 , 決定下一步干啥 。 Grounder(執行者): 負責把 “點搜索按鈕” 這種指令 , 精準定位到屏幕上的坐標并點擊 。這種 “各司其職” 的架構 , 讓模型訓練起來更高效 , 能力也更強 。

讓 Agent 擁有 “肌肉記憶” , 速度飆升 3 倍

光聰明還不夠 , 反應慢也是硬傷 。 你肯定不想讓 Agent 幫你買杯咖啡 , 結果思考了半分鐘 。 為此 , MobiAgent 團隊祭出了第二個大殺器:AgentRR(Agent RecordReplay)加速框架 。 這個框架的核心思想 , 就跟我們人類的 “肌肉記憶” 一樣:對于重復做過的事 , 直接憑經驗搞定 , 不用再過一遍大腦 。


AgentRR系統架構

AgentRR 會把智能體執行過的任務軌跡 , 通過樹的形式記錄在一個叫 ActTree 的結構里 。 當接到一個新任務時 , 一個超輕量的 “潛意識”(Latent Memory Model)會迅速判斷:

這個任務我是不是做過類似的?前幾步是不是可以照搬?

比如 , 無論是 “搜附近的火鍋店” 還是 “搜附近的電影院” , 點開地圖 App、點搜索框這兩步都是完全一樣的 。 AgentRR 就能直接 “復用” 這段操作 , 跳過大模型的思考過程 , 從而大幅提升效率 。 效果有多好?在模擬真實用戶使用習慣(80% 請求集中在 20% 任務)的測試中 , 動作復用率高達 60%-85% 。 反映在實際任務上 , 就是 2 到 3 倍的性能提升 。


不同請求分布下 , AgentRR 的動作復用率

真實場景大比拼:誰是 「手機操作之王」?

是騾子是馬 , 拉出來遛遛 。 為了公平地評判各大模型的真實能力 , 團隊還專門打造一個更貼近現實的移動端智能體評測基準:MobiFlow 。 這個基準會基于任務的一個個關鍵節點 , 也就是 “里程碑” , 對在動態 GUI 環境中執行任務的 Agent 進行精確打分 , 避免了 “不是滿分 , 就是零分” 的單一評判標準 , 并且覆蓋了社交、影音、購物、旅行、外賣等多個領域的國產主流 App 。


MobiFlow智能體評測基準

最終的評測結果 , MobiAgent(MobiMind-Decider-7B + MobiMind-Grounder-3B 的組合)在絕大多數 App 上都取得了最高分 , 尤其是在購物、外賣這類復雜任務上 , 優勢非常明顯 。 相比之下 , 像 GPT 和 Gemini 這樣的大模型 , 雖然也能完成一些任務 , 但有時會 “走捷徑” , 比如把所有要求一股腦全塞進搜索框 , 依賴 App 自身的 AI 搜索能力 。 這種 “偷懶” 的做法一旦遇到不支持 AI 搜索的 App , 完成率就大幅下降 。 更重要的是 , MobiAgent 在所有測試中都能正確終止任務 , 而 GPT-5 在 11 個 App 上都出現了 “無限循環” 卡住的問題 。





總結

MobiAgent 的出現 , 不僅在性能上樹立了新的標桿 , 更重要的是 , 它通過開源整個技術棧 , 極大地降低了定制化、私有化移動智能體的門檻 。 從日常應用的 Agent 開發 , 到每個人的個性化專屬助理 , 想象空間被徹底打開 。

或許 , 那個 “能動口就不動手” 的智能移動時代 , 就快到來了 。

項目成員介紹
【上海交大開源端側Agent全棧工具鏈,真實場景性能超GPT-5!】MobiAgent核心開發團隊主要由上海交通大學IPADS實驗室(并行與分布式系統研究所)的端側智能體研究小組的本科生和碩士生 , 以及John班的實習生組成 。 主要指導教師為上海交通大學人工智能學院助理教授馮二虎 。

    推薦閱讀