你敢信?GPT-5的電腦操作水平只比人類低2%了

你敢信?GPT-5的電腦操作水平只比人類低2%了

文章圖片

你敢信?GPT-5的電腦操作水平只比人類低2%了

文章圖片

你敢信?GPT-5的電腦操作水平只比人類低2%了

文章圖片

你敢信?GPT-5的電腦操作水平只比人類低2%了

文章圖片

你敢信?GPT-5的電腦操作水平只比人類低2%了

文章圖片

你敢信?GPT-5的電腦操作水平只比人類低2%了

文章圖片


機器之心報道
機器之心編輯部
Agent(智能體)是最近一段時間的人工智能熱點之一 , 將大語言模型的能力與工具調用、環境交互和自主規劃結合起來 , 使其能夠像虛擬助理一樣完成復雜任務 。
其中「計算機使用智能體」(computer-use agent , CUA)是一種能夠直接在電腦環境中代替人類執行操作的智能體 。 它和傳統的對話式 AI 不同 , 不只是回答問題 , 而是模擬人類使用鼠標、鍵盤和操作軟件來完成任務 。 在該領域 , Simular Research 推出的框架 Agent S 是典型代表之一 。
一年前 , Agent S 在 CUA 基準測試「OSWorld 」上取得了 20.6% 的成績 。 此后能力繼續擴展 , Agent S2 將業界水平提升到了 48.8% 。 就在昨日 , Agent S3 又刷新了自身記錄 , 將性能拉升到了 69.9% , 超出先前的 SOTA 10% , 接近人類水平的 72% 。

加州大學圣巴巴拉分校助理教授、Simular 研究負責人 Xin Eric Wang表示 , 「接下來是超越人類的計算機使用」 。
在技術層面 , Agent S3 直接在 Agent S2 的基礎之上構建 , 通過簡化框架并引入原生的代碼智能體 , 將 OSWorld 上的性能提升至 62.6% , 實現了新的 SOTA 。
不僅如此 , Agent S3 還首次引入了并行擴展的 CUA 框架 ——Behavior Best-of-N (bBoN) , 它不再依賴單次智能體運行 , 而是從多次 rollout(執行過程)中挑選最佳結果 。 這種方法解鎖了可擴展的性能提升 , 使準確率從 62.6% 提高到 69.9% , 并展示了智能體框架如何僅憑借擴展多樣化運行次數 , 就能獲得持續改進 。

目前 , Agent S3 已經放出了相關論文 , 并且完全開源 。

論文標題:The Unreasonable Effectiveness of Scaling Agents for Computer Use arXiv 地址:https://arxiv.org/pdf/2510.02250 代碼地址:https://github.com/simular-ai/Agent-S接下來看 Agent S3 的技術和實驗細節 。
方法改進
計算機使用智能體(CUA)描繪了這樣一個未來:軟件自己運行 , 幫你訂票、填寫表格、操作應用 , 而你無需親自動手 。
但在當下 , 即便是最強的 CUA , 在任務變得冗長復雜時也常常出錯 。 一次誤點、一次延遲響應 , 或者一個意外的彈窗 , 都可能讓整個執行過程偏離軌道 。 小錯誤會不斷疊加 , 本該順暢的自動化最終變成了挫敗感 。
這正是 CUA 面臨的核心瓶頸:高方差(即高波動性) 。 同一個智能體 , 可能這一次順利完成任務 , 而下一次卻完全失敗 。 這種不一致性讓 CUA 難以預測 , 也凸顯了在復雜、日常工作流中實現可靠性的巨大挑戰 。

緩解這種脆弱性的一個自然方法是并行擴展(Wide Scaling):與其簡單地接受單個智能體的一次執行結果 , 不如擴大智能體數量 , 讓它們并行生成多個執行過程 , 再從中選擇最佳結果 。
這種并行擴展的思路利用了一個事實:盡管單個智能體往往不夠理想 , 但它們通常會在不同的任務子集上互補成功 。 不過 , 對 CUA 進行規模擴展也帶來了獨特的挑戰 。
長時間跨度的執行軌跡信息密度極高 , 且包含多模態細節 , 其中大多數與任務成功無關 , 這使得軌跡的表示、理解和比較變得困難 。 同時 , 評估本身也并非易事:許多計算機使用任務本身存在多種有效解法 , 而自動化評估往往難以判斷某條軌跡是否真正正確 。
因此 , 要實現對 CUA 的有效并行擴展 , 需要全新的應對方法:
在緊湊編碼長軌跡的同時 , 保留與任務相關的語義; 可靠地評估多樣化的解題路徑 , 從而識別出成功的執行結果 。針對此 , Agent S3 引入了 Behavior Best-of-N (bBoN) 來實現 CUA 的并行擴展 , 包括以下兩個關鍵組件:
(1) 行為敘事生成(Behavior Narrative Generation)
本文的方法從生成事實開始 。 原始的智能體運行包含大量逐步的細節 , 其中許多無關緊要或冗余 。 通過生成「事實」 , 將這些嘈雜的運行過程轉化為簡潔的陳述 , 只關注那些與任務成功直接相關的信息 。 而將這些事實串聯起來 , 就形成了一個「行為敘事」 , 它清晰地總結了智能體在每一步的操作 , 使其運行過程更加可解釋 , 也更易于比較 。
(2) 行為最佳選擇評判(Behavior Best-of-N Judge)
在得到行為敘事后 , 進一步應用評判機制來決定哪一次運行最能完成任務 。 與直接比較原始輸出不同 , 評判過程基于每個行為敘事中的事實進行決策 。 通過跨運行引用這些事實 , 評判者可以進行對比推理 , 從而判斷哪一次嘗試最為有效 , 并最終選出最佳執行結果 。

另外 , 上個版本 Agent S2 采用了管理者 — 工作者(manager–worker)分層結構 。 但是隨著基礎模型的增強 , 這種層級反而成了不必要的開銷 。
因此 , Agent S3 對框架進行了精簡 , 移除了這一層級結構 , 并引入了一個原生代碼智能體 , 能夠直接生成和執行代碼 。 這樣不僅讓解決方案更加多樣 , 既能處理代碼任務 , 也能覆蓋圖形界面(GUI)任務 , 同時可靠性也得到了提升 。
這些改進共同帶來了約 13% 的性能提升 , 使 Agent S3 在單次運行上的表現達到 62.6% , 刷新當前 SOTA 。
實驗結果
在改進基線的基礎上 , 本文的核心貢獻 Behavior Best-of-N (bBoN) , 在 GPT-5 上實現了 69.9% 的成功率(SR) , 相比 Agent S3 的單次運行提升了 7.3 個百分點;在 GPT-5 Mini 上實現了 60.2% 的成功率 , 提升幅度為 10.4 個百分點 。
考慮到人類的表現大約為 72% , 這些結果凸顯了 bBoN 不僅大幅超越了現有方法 , 而且已經接近人類水平的能力 。

此外 , 本文還在單次運行設定(不使用擴展)下 , 將 Agent S3 與 Agent S2 進行了對比 。 結果顯示 , Behavior Best-of-N 帶來了 13.8% 的成功率提升 , 使每個任務的 LLM 調用次數減少了 52.3% , 平均任務完成時間縮短了 62.4% 。 因此 , Agent S3 不僅能力更強 , 而且效率更高 。

增加智能體運行次數實現擴展
在 OSWorld 上 , 本文發現隨著智能體運行次數的增加 , 性能會逐步提升 。 當并行運行 10 次智能體時 , 性能達到最高:GPT-5 的表現為 69.9% , GPT-5 Mini 的表現為 60.2% 。

如何選擇混合模型集成?
bBoN 可以在不同模型之間擴展 。 下表展示了 bBoN 在使用不同混合模型組合時的成功率和任務覆蓋率 。 任務覆蓋率的計算方式是:只要在某個任務中至少有一條軌跡正確 , 就認為該任務成功 , 即 Pass@N 。
觀察結果如下:
GPT-5 + Gemini 2.5 Pro 的組合實現了 66.7% 的最高成功率和 78.0% 的任務覆蓋率 , 這表明選擇由能力互補且多樣化的模型構成的混合模型集成 , 可以獲得最佳性能 , 并將上限提升到最高 。 最具多樣性的混合(All) 相比任何單模型組合 , 取得了更高的任務覆蓋率(75.4%) , 這證明了多樣性是提升成功率上限的關鍵 。 再次強調 , GPT-5 + Gemini 2.5 Pro 的混合組合不僅實現了最高的成功率(66.7%) , 任務覆蓋率也達到了 78.0% , 說明模型的多樣性選擇能夠帶來最優表現和最高上限 。
行為敘事與其他軌跡表示的對比
本文對行為敘事表示進行了消融實驗 。 對比對象包括:
僅截圖基線 簡單描述基線(即對每張截圖單獨生成描述)結果表明 , 行為敘事在 bBoN 中是一種更有效的表示方式 , 相比最佳基線提升了 3.4% 。 這說明僅依靠截圖難以充分理解任務過程 , 而有必要在狀態轉變之間生成事實 , 而不是僅僅描述單一狀態 。

評判器對比
本文對 bBoN Judge 和 WebJudge 進行了對比 。 其中對 WebJudge 進行了修改 , 使其能夠在多個軌跡中進行選擇 , 方法是對軌跡進行獨立排序 , 并選出排名最高的 。
總體而言 , bBoN Judge 的表現優于 WebJudge;而 WebJudge 相比單純的多次運行平均性能 , 只帶來了有限的提升 。 另外 , 隨著運行次數的增加 , bBoN Judge 的擴展性表現更好 。

評判器與人類的一致性
本文考察了評判器可能提升性能的任務(占 OSWorld 的 44%) , 結果發現評判器在 78.4% 的任務上做出了正確選擇 。 進一步復核后發現:評判器實際上在 92.8% 的任務上是正確的 , 這意味著 OSWorld 的真實性能更接近 76.3% 。
這一結果表明 , 評判器與人類偏好具有較高的一致性 , 使其成為評估 CUA 任務的一個頗具前景的工具 。

【你敢信?GPT-5的電腦操作水平只比人類低2%了】更多實驗結果請參閱原論文 。

    推薦閱讀