你敢信？GPT-5的電腦操作水平只比人類低2%了

2025-10-06 01:50 武漢人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部
Agent（智能體）是最近一段時間的人工智能熱點之一，將大語言模型的能力與工具調用、環境交互和自主規劃結合起來，使其能夠像虛擬助理一樣完成復雜任務。
其中「計算機使用智能體」（computer-use agent ， CUA）是一種能夠直接在電腦環境中代替人類執行操作的智能體。它和傳統的對話式 AI 不同，不只是回答問題，而是模擬人類使用鼠標、鍵盤和操作軟件來完成任務。在該領域， Simular Research 推出的框架 Agent S 是典型代表之一。
一年前， Agent S 在 CUA 基準測試「OSWorld 」上取得了 20.6% 的成績。此后能力繼續擴展， Agent S2 將業界水平提升到了 48.8% 。就在昨日， Agent S3 又刷新了自身記錄，將性能拉升到了 69.9% ，超出先前的 SOTA 10% ，接近人類水平的 72% 。

加州大學圣巴巴拉分校助理教授、Simular 研究負責人 Xin Eric Wang表示，「接下來是超越人類的計算機使用」。
在技術層面， Agent S3 直接在 Agent S2 的基礎之上構建，通過簡化框架并引入原生的代碼智能體，將 OSWorld 上的性能提升至 62.6% ，實現了新的 SOTA 。
不僅如此， Agent S3 還首次引入了并行擴展的 CUA 框架 ——Behavior Best-of-N (bBoN) ，它不再依賴單次智能體運行，而是從多次 rollout（執行過程）中挑選最佳結果。這種方法解鎖了可擴展的性能提升，使準確率從 62.6% 提高到 69.9% ，并展示了智能體框架如何僅憑借擴展多樣化運行次數，就能獲得持續改進。

目前， Agent S3 已經放出了相關論文，并且完全開源。

論文標題：The Unreasonable Effectiveness of Scaling Agents for Computer Use arXiv 地址：https://arxiv.org/pdf/2510.02250 代碼地址：https://github.com/simular-ai/Agent-S接下來看 Agent S3 的技術和實驗細節。
方法改進
計算機使用智能體（CUA）描繪了這樣一個未來：軟件自己運行，幫你訂票、填寫表格、操作應用，而你無需親自動手。
但在當下，即便是最強的 CUA ，在任務變得冗長復雜時也常常出錯。一次誤點、一次延遲響應，或者一個意外的彈窗，都可能讓整個執行過程偏離軌道。小錯誤會不斷疊加，本該順暢的自動化最終變成了挫敗感。
這正是 CUA 面臨的核心瓶頸：高方差（即高波動性）。同一個智能體，可能這一次順利完成任務，而下一次卻完全失敗。這種不一致性讓 CUA 難以預測，也凸顯了在復雜、日常工作流中實現可靠性的巨大挑戰。

緩解這種脆弱性的一個自然方法是并行擴展（Wide Scaling）：與其簡單地接受單個智能體的一次執行結果，不如擴大智能體數量，讓它們并行生成多個執行過程，再從中選擇最佳結果。
這種并行擴展的思路利用了一個事實：盡管單個智能體往往不夠理想，但它們通常會在不同的任務子集上互補成功。不過，對 CUA 進行規模擴展也帶來了獨特的挑戰。
長時間跨度的執行軌跡信息密度極高，且包含多模態細節，其中大多數與任務成功無關，這使得軌跡的表示、理解和比較變得困難。同時，評估本身也并非易事：許多計算機使用任務本身存在多種有效解法，而自動化評估往往難以判斷某條軌跡是否真正正確。
因此，要實現對 CUA 的有效并行擴展，需要全新的應對方法：
在緊湊編碼長軌跡的同時，保留與任務相關的語義；可靠地評估多樣化的解題路徑，從而識別出成功的執行結果。針對此， Agent S3 引入了 Behavior Best-of-N (bBoN) 來實現 CUA 的并行擴展，包括以下兩個關鍵組件：
(1) 行為敘事生成（Behavior Narrative Generation）
本文的方法從生成事實開始。原始的智能體運行包含大量逐步的細節，其中許多無關緊要或冗余。通過生成「事實」，將這些嘈雜的運行過程轉化為簡潔的陳述，只關注那些與任務成功直接相關的信息。而將這些事實串聯起來，就形成了一個「行為敘事」，它清晰地總結了智能體在每一步的操作，使其運行過程更加可解釋，也更易于比較。
(2) 行為最佳選擇評判（Behavior Best-of-N Judge）
在得到行為敘事后，進一步應用評判機制來決定哪一次運行最能完成任務。與直接比較原始輸出不同，評判過程基于每個行為敘事中的事實進行決策。通過跨運行引用這些事實，評判者可以進行對比推理，從而判斷哪一次嘗試最為有效，并最終選出最佳執行結果。

另外，上個版本 Agent S2 采用了管理者 — 工作者（manager–worker）分層結構。但是隨著基礎模型的增強，這種層級反而成了不必要的開銷。
因此， Agent S3 對框架進行了精簡，移除了這一層級結構，并引入了一個原生代碼智能體，能夠直接生成和執行代碼。這樣不僅讓解決方案更加多樣，既能處理代碼任務，也能覆蓋圖形界面（GUI）任務，同時可靠性也得到了提升。
這些改進共同帶來了約 13% 的性能提升，使 Agent S3 在單次運行上的表現達到 62.6% ，刷新當前 SOTA 。
實驗結果
在改進基線的基礎上，本文的核心貢獻 Behavior Best-of-N (bBoN) ，在 GPT-5 上實現了 69.9% 的成功率（SR），相比 Agent S3 的單次運行提升了 7.3 個百分點；在 GPT-5 Mini 上實現了 60.2% 的成功率，提升幅度為 10.4 個百分點。
考慮到人類的表現大約為 72% ，這些結果凸顯了 bBoN 不僅大幅超越了現有方法，而且已經接近人類水平的能力。

此外，本文還在單次運行設定（不使用擴展）下，將 Agent S3 與 Agent S2 進行了對比。結果顯示， Behavior Best-of-N 帶來了 13.8% 的成功率提升，使每個任務的 LLM 調用次數減少了 52.3% ，平均任務完成時間縮短了 62.4% 。因此， Agent S3 不僅能力更強，而且效率更高。

增加智能體運行次數實現擴展
在 OSWorld 上，本文發現隨著智能體運行次數的增加，性能會逐步提升。當并行運行 10 次智能體時，性能達到最高：GPT-5 的表現為 69.9% ， GPT-5 Mini 的表現為 60.2% 。

如何選擇混合模型集成？
bBoN 可以在不同模型之間擴展。下表展示了 bBoN 在使用不同混合模型組合時的成功率和任務覆蓋率。任務覆蓋率的計算方式是：只要在某個任務中至少有一條軌跡正確，就認為該任務成功，即 Pass@N 。
觀察結果如下：
GPT-5 + Gemini 2.5 Pro 的組合實現了 66.7% 的最高成功率和 78.0% 的任務覆蓋率，這表明選擇由能力互補且多樣化的模型構成的混合模型集成，可以獲得最佳性能，并將上限提升到最高。最具多樣性的混合（All）相比任何單模型組合，取得了更高的任務覆蓋率（75.4%），這證明了多樣性是提升成功率上限的關鍵。再次強調， GPT-5 + Gemini 2.5 Pro 的混合組合不僅實現了最高的成功率（66.7%），任務覆蓋率也達到了 78.0% ，說明模型的多樣性選擇能夠帶來最優表現和最高上限。
行為敘事與其他軌跡表示的對比
本文對行為敘事表示進行了消融實驗。對比對象包括：
僅截圖基線簡單描述基線（即對每張截圖單獨生成描述）結果表明，行為敘事在 bBoN 中是一種更有效的表示方式，相比最佳基線提升了 3.4% 。這說明僅依靠截圖難以充分理解任務過程，而有必要在狀態轉變之間生成事實，而不是僅僅描述單一狀態。

評判器對比
本文對 bBoN Judge 和 WebJudge 進行了對比。其中對 WebJudge 進行了修改，使其能夠在多個軌跡中進行選擇，方法是對軌跡進行獨立排序，并選出排名最高的。
總體而言， bBoN Judge 的表現優于 WebJudge；而 WebJudge 相比單純的多次運行平均性能，只帶來了有限的提升。另外，隨著運行次數的增加， bBoN Judge 的擴展性表現更好。

評判器與人類的一致性
本文考察了評判器可能提升性能的任務（占 OSWorld 的 44%），結果發現評判器在 78.4% 的任務上做出了正確選擇。進一步復核后發現：評判器實際上在 92.8% 的任務上是正確的，這意味著 OSWorld 的真實性能更接近 76.3% 。
這一結果表明，評判器與人類偏好具有較高的一致性，使其成為評估 CUA 任務的一個頗具前景的工具。

【你敢信？GPT-5的電腦操作水平只比人類低2%了】更多實驗結果請參閱原論文。

推薦閱讀

上一篇：摩托羅拉Moto Edge 70宣傳物料曝光，月底上市

下一篇：iPhone17系列和小米17系列首銷數據同時出爐！國人還是更愛蘋果