
文章圖片

文章圖片

智東西
編譯 | 程茜
編輯 | 云鵬
智東西9月5日消息 , 9月4日 , 字節Seed發布了原生GUI智能體UI-TARS-2 , 其可以自主操作電腦、手機完成搜索、創建網頁、搜集新聞、創建查詢工具、玩小游戲等諸多任務 , 相關論文在9月2日發表于arXiv預印本平臺 。
在GUI基準測試中 , UI-TARS-2多項測試中超過了OpenAI和Claude Agent , 同時其玩15款小游戲的水平已經達到人類水平的60% 。
字節跳動放出的Demo中 , UI-TARS-2一口子完成了搜索字節跳動Seed 1.6新聞并部署網頁的任務 。 這一提示詞是“搜索關于字節跳動Seed1.6模型的新聞 , 然后以現代風格編寫一個網頁并部署” 。
UI-TARS-2會先分解這一需求 , 包括搜索模型相關新聞、便攜現代風格網頁、部署網頁三個任務 。 首先其通過LinkReader搜索了新聞 , 了解模型的核心特征 , 然后為網頁創建項目目錄、選擇合適的設計方法、規劃網頁結構 , 創建成功后還會自主檢查各項功能是否可以運行 。
在技術報告中 , 研究人員提到針對GUI智能體在數據可擴展性、多輪強化學習(RL)、僅GUI操作的局限性以及環境穩定性方面的挑戰 , 其提出了系統化訓練方法:包含用于可擴展數據生成的數據飛輪、穩定的多輪RL框架、集成文件系統和終端的混合GUI環境、用于大規模部署的統一沙盒平臺 。
論文地址:https://arxiv.org/abs/2509.02544
Demo地址:https://seed-tars.com/showcase/ui-tars-2/
一、拆解需求、使用搜索、創建網頁 , 都能一氣呵成字節放出的幾個Demo中 , 包含了UI-TARS-2創建重量單位轉換查詢工具、創建字符計數工具、為音樂老師創建演示網頁、比較數字大小等任務 。
首先是實現重量單位轉換查詢 。
提示詞:編寫一個能夠將重量從一種單位轉換為另一種單位的函數 。 若原始單位是千克、目標單位是克 , 且待轉換的數值為瑪蒂爾德·塞尼耶(Mathilde Seigner)獲得凱撒獎(César Award)提名的次數加1 , 那么最終結果會是多少?
同樣 , UI-TARS-2會先分解需求 , 找到瑪蒂爾德·塞尼耶獲得凱撒獎提名的次數 , 其通過多渠道驗證確認有3次 , 然后開始創建包含用于轉換重量單位函數的Python文件 。
其次是Hugging Face數據集字符字數 。
提示詞:請在Hugging Face上搜索熱門數據集 , 下載排名第一的數據集 , 并計算整個數據集中的字符總數 。
拆解完任務后 , UI-TARS-2會打開谷歌瀏覽器 , 然后搜索查找熱門數據集 。
第三個提示詞是“我是一名高中音樂理論教師 , 正在準備一門關于基礎音樂理論的課程 , 用于解釋音樂名稱、音階名稱、大調音階、八度分布和物理頻率等知識 。 請幫助我收集足夠的信息 , 設計出充實且權威的課程內容 , 并配上演示動畫 , 最后將它們輸出為網頁” 。
UI-TARS-2會使用搜索工具查找這些需要解釋的知識 , 然后為網頁規劃目錄、創建 。
第四個是使用Jupyter比較數字 。
提示詞:使用Jupyter計算9.11和9.9哪個更大?
拆解任務后 , UI-TARS-2會創建用于比較兩個數字的Python腳本 , 然后使用Jupyter來運行它 , 最后給出了9.9比9.11大的正確答案 。
二、玩游戲水平達到人類60% , 多項測試超OpenAI、Claude實證評估表明 , UI-TARS-2相較于其上一代智能體UI-TARS-1.5 , 在基于GUI的交互和游戲環境中均表現出色 。
在GUI基準測試中 , 該模型在真實網站上進行通用Web智能體的在線推理與評估測試集Online-Mind2Web上達到88.2分 , 在真實計算機環境中對多模態智能體進行開放式任務評測的可擴展基準平臺OSWorld上達到47.5分 , 在面向Windows的可復現、可擴展的多模態計算機智能體基準平臺WindowsAgentArena上達到50.6分 , 在面向移動設備的可擴展、可復現的自主智能體評測基準AndroidWorld上達到73.3分 , 并在多項測試中超越了Claude和OpenAI Agent等 。
在游戲環境中 , UI-TARS-2在15款游戲套件中的平均歸一化得分為59.8分 , 約相當于人類水平的60% , 分別比OpenAI CUA和Claude Computer Use等智能體高出2.4倍和2.8倍 。
在開源游戲基準LMGame-Bench上 , UI-TARS-2展現了其在長時程游戲推理方面的魯棒性 。
此外 , 研究人員通過GUI-SDK擴展了智能體功能 , 使其能夠與終端和外部工具等系統級資源集成 。
通過這一擴展 , UI-TARS-2在長時程信息搜索基準測試中表現出色 , 并在軟件工程任務Terminal Bench上達到45.3分 。
這些結果表明 , 研究人員為GUI Agent開發的訓練方法 , 包括多輪強化學習優化和可擴展的rollout基礎設施 , 能夠有效地遷移到其他交互領域 , 從而擴展Agent的適用性 。
三、針對GUI智能體痛點 , 提出四大支柱系統方法論GUI智能體的傳統方法通常采用模塊化管道 , 分別設計感知、規劃、記憶和行動等組件 , 但其嚴重依賴專家啟發式方法和任務特定規則 , 導致系統脆弱且難以擴展 。
在此基礎上 , 字節Seed團隊提出了一種基于四大支柱的系統方法論:
首先 , 為緩解數據稀缺問題 , 研究人員設計了一個可擴展的數據飛輪 , 通過持續預訓練、監督微調、拒絕采樣和多輪強化學習協同進化模型及其訓練語料庫 。 該框架提供持續流入的多樣化、高質量軌跡 , 并確保模型和數據在自我強化的循環中迭代改進 。
其次 , 為克服可擴展多輪強化學習的困難 , 研究人員設計了一個訓練框架 , 在長時程環境下穩定優化 , 這包括具有狀態環境的狀態異步展開以保留上下文、流式更新以避免長尾軌跡造成的瓶頸 , 以及增強型近端策略優化 , 結合獎勵塑形、自適應優勢估計和值預訓練 。
第三 , 為了超越純GUI交互的限制 , 研究人員構建了一個以GUI為中心的混合環境 , 通過增加屏幕操作與文件系統、終端和其他外部工具等互補資源的訪問 , 使智能體能夠解決更廣泛的實際工作流程 。
第四 , 為了支持大規模訓練和評估 , 研究人員建立了一個統一的沙盒平臺 , 從用于GUI交互的云虛擬機到基于瀏覽器的游戲沙盒能夠協調異構環境 , 使其在一致的API下運行 。 該平臺經過設計以確保可重復性、穩定性和高吞吐量 , 使其能夠可靠地運行數百萬次交互式部署 。
結語:UI-TARS-2實現多場景均衡性能UI-TARS-2通過結合多輪強化學習、監督微調、拒絕采樣和持續預訓練的迭代流程進行訓練 , 從而實現在異構領域持續改進 。 研究人員在論文中提到 , 他們的實驗表明 , 雖然領域特定的變體可以在單個基準測試中取得峰值分數 , 但UI-TARS-2在單一統一系統中實現了跨GUI、瀏覽器、移動和游戲任務的平衡且具有競爭力的性能 。
【字節多模態Agent又進化!多項性能超OpenAI,玩游戲趕上人類水平】除了基準測試結果外 , 他們還針對訓練動態和交互擴展進行了分析 , 為多輪智能體強化學習提供思路 , 證明模型在多樣化環境中進行訓練能夠促進參數共享和能力遷移 , 從而產生融合圖形交互與更復雜推理和決策能力的混合技能 。 他們認為 , UI-TARS-2代表了對更強大、可靠和多功能計算機使用Agent的邁進 。
推薦閱讀
- 千人芯片團隊轉至新加坡子公司?字節跳動回應
- 視頻理解新標桿,快手多模態推理模型開源
- 會「思考」!字節跳動發布OmniHuman-1.5,讓虛擬人擁有邏輯靈魂
- 2025天生會畫數字創作大賽將于9月19日開啟:新增設逐幀動畫組別
- 字節跳動回應切割芯片業務:謠言,業務主體一直沒有變化
- 諾基亞推出面向下一代數字化鐵路的商用5G服務
- 又一國產多模態大模型開源,復雜聲音一耳朵分辨,多測試SOTA,還能聊哲學
- 完全意想不到!三星三折疊手機折疊方式曝光:不是Z、G字型
- AI智能體是否能預測未來?字節跳動seed發布FutureX動態評測基準
- 年輕人生活方式④|“AI搭子”不請假 年輕人有了“數字隊友”
