字節多模態Agent又進化！多項性能超OpenAI，玩游戲趕上人類水平_沙盒|字節跳動

文章圖片

文章圖片

智東西
編譯 | 程茜
編輯 | 云鵬
智東西9月5日消息， 9月4日，字節Seed發布了原生GUI智能體UI-TARS-2 ，其可以自主操作電腦、手機完成搜索、創建網頁、搜集新聞、創建查詢工具、玩小游戲等諸多任務，相關論文在9月2日發表于arXiv預印本平臺。
在GUI基準測試中， UI-TARS-2多項測試中超過了OpenAI和Claude Agent ，同時其玩15款小游戲的水平已經達到人類水平的60% 。
字節跳動放出的Demo中， UI-TARS-2一口子完成了搜索字節跳動Seed 1.6新聞并部署網頁的任務。這一提示詞是“搜索關于字節跳動Seed1.6模型的新聞，然后以現代風格編寫一個網頁并部署” 。
UI-TARS-2會先分解這一需求，包括搜索模型相關新聞、便攜現代風格網頁、部署網頁三個任務。首先其通過LinkReader搜索了新聞，了解模型的核心特征，然后為網頁創建項目目錄、選擇合適的設計方法、規劃網頁結構，創建成功后還會自主檢查各項功能是否可以運行。
在技術報告中，研究人員提到針對GUI智能體在數據可擴展性、多輪強化學習（RL）、僅GUI操作的局限性以及環境穩定性方面的挑戰，其提出了系統化訓練方法：包含用于可擴展數據生成的數據飛輪、穩定的多輪RL框架、集成文件系統和終端的混合GUI環境、用于大規模部署的統一沙盒平臺。
論文地址：https://arxiv.org/abs/2509.02544
Demo地址：https://seed-tars.com/showcase/ui-tars-2/

一、拆解需求、使用搜索、創建網頁，都能一氣呵成字節放出的幾個Demo中，包含了UI-TARS-2創建重量單位轉換查詢工具、創建字符計數工具、為音樂老師創建演示網頁、比較數字大小等任務。
首先是實現重量單位轉換查詢。
提示詞：編寫一個能夠將重量從一種單位轉換為另一種單位的函數。若原始單位是千克、目標單位是克，且待轉換的數值為瑪蒂爾德·塞尼耶（Mathilde Seigner）獲得凱撒獎（César Award）提名的次數加1 ，那么最終結果會是多少？
同樣， UI-TARS-2會先分解需求，找到瑪蒂爾德·塞尼耶獲得凱撒獎提名的次數，其通過多渠道驗證確認有3次，然后開始創建包含用于轉換重量單位函數的Python文件。
其次是Hugging Face數據集字符字數。
提示詞：請在Hugging Face上搜索熱門數據集，下載排名第一的數據集，并計算整個數據集中的字符總數。
拆解完任務后， UI-TARS-2會打開谷歌瀏覽器，然后搜索查找熱門數據集。
第三個提示詞是“我是一名高中音樂理論教師，正在準備一門關于基礎音樂理論的課程，用于解釋音樂名稱、音階名稱、大調音階、八度分布和物理頻率等知識。請幫助我收集足夠的信息，設計出充實且權威的課程內容，并配上演示動畫，最后將它們輸出為網頁” 。
UI-TARS-2會使用搜索工具查找這些需要解釋的知識，然后為網頁規劃目錄、創建。
第四個是使用Jupyter比較數字。
提示詞：使用Jupyter計算9.11和9.9哪個更大？
拆解任務后， UI-TARS-2會創建用于比較兩個數字的Python腳本，然后使用Jupyter來運行它，最后給出了9.9比9.11大的正確答案。

二、玩游戲水平達到人類60% ，多項測試超OpenAI、Claude實證評估表明， UI-TARS-2相較于其上一代智能體UI-TARS-1.5 ，在基于GUI的交互和游戲環境中均表現出色。
在GUI基準測試中，該模型在真實網站上進行通用Web智能體的在線推理與評估測試集Online-Mind2Web上達到88.2分，在真實計算機環境中對多模態智能體進行開放式任務評測的可擴展基準平臺OSWorld上達到47.5分，在面向Windows的可復現、可擴展的多模態計算機智能體基準平臺WindowsAgentArena上達到50.6分，在面向移動設備的可擴展、可復現的自主智能體評測基準AndroidWorld上達到73.3分，并在多項測試中超越了Claude和OpenAI Agent等。
在游戲環境中， UI-TARS-2在15款游戲套件中的平均歸一化得分為59.8分，約相當于人類水平的60% ，分別比OpenAI CUA和Claude Computer Use等智能體高出2.4倍和2.8倍。
在開源游戲基準LMGame-Bench上， UI-TARS-2展現了其在長時程游戲推理方面的魯棒性。
此外，研究人員通過GUI-SDK擴展了智能體功能，使其能夠與終端和外部工具等系統級資源集成。
通過這一擴展， UI-TARS-2在長時程信息搜索基準測試中表現出色，并在軟件工程任務Terminal Bench上達到45.3分。
這些結果表明，研究人員為GUI Agent開發的訓練方法，包括多輪強化學習優化和可擴展的rollout基礎設施，能夠有效地遷移到其他交互領域，從而擴展Agent的適用性。

三、針對GUI智能體痛點，提出四大支柱系統方法論GUI智能體的傳統方法通常采用模塊化管道，分別設計感知、規劃、記憶和行動等組件，但其嚴重依賴專家啟發式方法和任務特定規則，導致系統脆弱且難以擴展。
在此基礎上，字節Seed團隊提出了一種基于四大支柱的系統方法論：
首先，為緩解數據稀缺問題，研究人員設計了一個可擴展的數據飛輪，通過持續預訓練、監督微調、拒絕采樣和多輪強化學習協同進化模型及其訓練語料庫。該框架提供持續流入的多樣化、高質量軌跡，并確保模型和數據在自我強化的循環中迭代改進。
其次，為克服可擴展多輪強化學習的困難，研究人員設計了一個訓練框架，在長時程環境下穩定優化，這包括具有狀態環境的狀態異步展開以保留上下文、流式更新以避免長尾軌跡造成的瓶頸，以及增強型近端策略優化，結合獎勵塑形、自適應優勢估計和值預訓練。
第三，為了超越純GUI交互的限制，研究人員構建了一個以GUI為中心的混合環境，通過增加屏幕操作與文件系統、終端和其他外部工具等互補資源的訪問，使智能體能夠解決更廣泛的實際工作流程。
第四，為了支持大規模訓練和評估，研究人員建立了一個統一的沙盒平臺，從用于GUI交互的云虛擬機到基于瀏覽器的游戲沙盒能夠協調異構環境，使其在一致的API下運行。該平臺經過設計以確保可重復性、穩定性和高吞吐量，使其能夠可靠地運行數百萬次交互式部署。

結語：UI-TARS-2實現多場景均衡性能UI-TARS-2通過結合多輪強化學習、監督微調、拒絕采樣和持續預訓練的迭代流程進行訓練，從而實現在異構領域持續改進。研究人員在論文中提到，他們的實驗表明，雖然領域特定的變體可以在單個基準測試中取得峰值分數，但UI-TARS-2在單一統一系統中實現了跨GUI、瀏覽器、移動和游戲任務的平衡且具有競爭力的性能。
【字節多模態Agent又進化！多項性能超OpenAI，玩游戲趕上人類水平】除了基準測試結果外，他們還針對訓練動態和交互擴展進行了分析，為多輪智能體強化學習提供思路，證明模型在多樣化環境中進行訓練能夠促進參數共享和能力遷移，從而產生融合圖形交互與更復雜推理和決策能力的混合技能。他們認為， UI-TARS-2代表了對更強大、可靠和多功能計算機使用Agent的邁進。

字節多模態Agent又進化！多項性能超OpenAI，玩游戲趕上人類水平

推薦閱讀

梔子花有什么顏色

宮保雞丁怎么炒

金屬氧化性順序表金屬離子氧化性順序表

廣東廣西的廣是指廣東廣西的廣是指什么

爐石傳說擎旗奔行者怎么樣爐石擎旗奔行者效果一覽

沖雞是好是壞

夢見女鬼對我笑夢見女鬼對我笑是什么意思

過了三伏適合游泳嗎

席地而坐簡筆畫步驟席地而坐簡筆畫畫法

陳醋雞腳的正確方法

榆次御?Z房價,太原榆次房價漲了還是跌了

外媒評測iPhone,iphone xs評測

牛肉怎么醬出來的

長沙民政職業技術學院官網，了解長沙航空職業技術學院請進

讀《濫竽充數》有感濫竽充數讀后感

breadnbutter,面包黃油是什么顏色