一手實測 | 智譜AutoGLM開源: AI手機的「安卓時刻」正式到來

一手實測 | 智譜AutoGLM開源: AI手機的「安卓時刻」正式到來

文章圖片

一手實測 | 智譜AutoGLM開源: AI手機的「安卓時刻」正式到來

文章圖片

一手實測 | 智譜AutoGLM開源: AI手機的「安卓時刻」正式到來

文章圖片

一手實測 | 智譜AutoGLM開源: AI手機的「安卓時刻」正式到來

文章圖片

一手實測 | 智譜AutoGLM開源: AI手機的「安卓時刻」正式到來

機器之心報道
編輯:冷貓、Panda
「安靜!吵到我用 TNT 了!」

長期關注科技圈的朋友們都知道 , 羅永浩的錘子科技落幕已經七年 。 七年間 , 仍有無數錘科粉絲保留著舊手機備用 , 懷念手機圈當年的「銳利異類」 , 以至于錘子手機仍然有百萬日活用戶 。
而錘子科技 , 羅永浩最大的愿景和遺憾 , 莫過于號稱「重新定義下個十年的個人電腦」 , 以及鬧出了科技圈永生梗「理解萬歲」的 TNT 。
給不熟悉的讀者朋友們簡單介紹下:TNT 全稱 TouchTalk , 通過觸控 + 語音的方式操作設備 。
在那個 AI 尚顯稚嫩的年代 , 這被視為一種激進的賭博;但在大模型爆發的今天 , 我們驚訝地發現:最高效的手機操作方式 , 恰恰就是 TNT 構想的那樣:按住屏幕把需求說出來 , 設備自動完成一切 。
近些天 , 豆包手機(豆包手機助手技術預覽版)爆火 , 讓能夠操作手機的 AI Agent 走入了大眾視野 。 Agent 借助大模型和自動操作系統的設計 , 讓用戶憑借自然語言和語音輸入 , 就能自然實現通用的、跨任務的復雜操作 。
也因此 , 人們在震驚于現今大模型 GUI Agent 能力強大之余 , 也不禁擔心個人數據上云的隱私權限問題 , 幾大國民級 App 也都限制了豆包手機助手的訪問 , 再加上搭載豆包的手機一機難求……
除了被大廠生態裹挾 , 我們有沒有另一種選擇?有沒有一個既能一句話搞定繁雜任務 , 又能將隱私握在自己手里 , 甚至人人都能 DIY 的 GUI Agent?
有的兄弟 , 有的 , 而且是來自深耕智能體的智譜的明星項目:AutoGLM 。
就在前天 , AutoGLM 正式全面開源!
豆包手機之所以遭到所有大廠圍剿 , 因為 AI 手機很可能是下一個時代的流量入口 。 智譜這波開源直接把能力交給了所有人手上 , 一己之力把 AI 原生手機的門檻給打平了 。
為開源精神點贊!
具體來說 , Open-AutoGLM 由一個手機端智能助手框架 Phone Agent 和一個 9B 大小的模型 AutoGLM-Phone-9B 共同組成 。

開源地址:https://github.com/zai-org/Open-AutoGLM
從第一個 AI 發出的紅包說起
這次開源對行業的影響力 , 核心來自這次智譜開源的不是一個普通的 GUI agent 模型 , 而可能是行業最好的模型 。
智譜是第一個開始可操作智能體研究的廠商 。
時間回到 32 個月前的 2023 年 4 月 , 智譜就已經開始從零探索 AutoGLM , 目標是打造一個不僅能「說」 , 還能「做」的智能體模型 。
2024 年 10 月 , AutoGLM 面世爆火 , 被業界公認為是全球第一個可以真正操控手機的 Agent , 迄今也是全球完成度最高的 GUI Phone Use 模型 。 不是模擬 , 不是腳本 , 而是像人一樣去「看屏幕」 , 去分析 UI 布局 , 然后模擬手指進行點擊與滑動 。 AutoGLM 這個 Phone Use 能力的誕生 , 是「AI 會用工具」的關鍵里程碑 。
一個月后 , 它做了一件前所未有的事情:AutoGLM 完成了人類歷史上第一個由 AI 全自動發出的紅包 。

這個紅包意味著大模型「從 Chat 到 Act」的范式轉變 , 語言不再停留在語言本身 , 而能驅動行動、執行任務 。
但我們很快意識到:會動手的 AI , 就像剛拿到第一部智能手機的小孩 —— 強大 , 但也危險 。 如果它在不該點的地方亂點怎么辦?如果某個用戶的真實手機被誤觸隱私應用怎么辦?
于是到了 2025 年 8 月 , 智譜做了一個關鍵決定:先把 AutoGLM 放進云端的「虛擬手機」里 。
AutoGLM 2.0 云機版 , 把 AI 的行動舞臺與用戶真實手機完全隔離 。 它看到的屏幕、能執行的點擊 , 都發生在一臺安全的虛擬設備上 。 涉及隱私的 App , 比如微信 , 則選擇不開放 —— 不是做不到 , 而是智譜希望它「先學會規則 , 再學本事」 。
Phone Agent 的實現 , 依賴于 AutoGLM 的視覺-語言模型 。 通過理解手機屏幕內容、解析 UI 狀態 , 結合智能規劃能力 , 它能自主完成整套操作流程 。
這背后的實現說簡單也簡單 , 說復雜也復雜 。 它由三大核心技術組成:
1. ADB(Android Debug Bridge):手機的「控制器」
AutoGLM 接入安卓系統的 ADB 開發者調試 , 負責把控制信號送到設備上 , 實現基本的點按滑動等操作 。
2. 視覺-語言模型(VLM):AI 的「眼睛 + 大腦」
它能理解手機屏幕上的文本、按鈕、圖標 , 識別 , 操作和實時反饋 。
3. 智能規劃:任務拆解的「策劃師」
它能將自然語言任務拆解為可執行步驟 , 你說一句「發紅包給小李」 , AI 會自動補全背后的十幾步操作鏈:打開 App、找到聯系人、選擇金額、確認支付……
AutoGLM 把這三項能力打包成一個完整執行框架 , 「AI 會用手機」的概念已經在諸多測試中保證了穩定和實用 。
一手實測
Open-AutoGLM 究竟有多強?
理論說得再多 , 不如實戰 。 下面我們就來看看開源版的 AutoGLM 表現究竟如何 。
首先 , 來一個簡單任務:發微信 。 發送以下指令:
給 wupan 發個微信 , 就說 Panda 的生日快到了 , 準備個蛋糕 , 多點水果 。

可以看到 , 系統啟動后 , Open-AutoGLM 首先進行了一波「自檢」 , 確認 API 和系統權限無誤 。 在這里 , 我們可以看到智譜給 Phone Agent 的描述:「AI-powered phone automation」 , 即「AI 賦能的手機自動化」 。
接下來 , AutoGLM 會回到任務本身 。 思考為了完成這個任務 , 第一步應該執行什么 。 在終端界面 , 我們能清晰地看到它的思維鏈(CoT):
觀察:當前在桌面 。 思考:任務是發微信 , 第一步需要找到并打開微信 。 行動:點擊微信圖標 。 觀察:進入微信列表頁 。 思考:需要找到 wupan , 點擊搜索框……如此迭代進行 , 直到完成任務 。 整個過程行云流水 , 最后它還會像模像樣地匯報:「任務已完成」 。
而在以上任務執行的同時 , 我們的手機端則經歷了以下過程 。 很顯然 , AutoGLM 非常出色地完成了這個初始任務 。

下面 , 為了更好地展示 , 我們將使用 scrcpy 將手機投屏到 PC 上 , 將前后端情況一并錄制 。 此外 , 為了方便 , 我們將上面略顯繁瑣的命令定義為一個 Function , 并把它放進 PowerShell 配置文件 (Profile) 里 。 下面我們只需簡單地輸出「run \"提示詞\"」即可向 AutoGLM 發送指令 。 (當然 , 你也可以 Vibe Code 一個更好看或直觀的交互 UI 。 )
接下來試試 AutoGLM 與小紅書的交互 。
run \"打開小紅書 , 看看有什么有趣的瘋狂動物城周邊\"

同樣 , 執行非常順暢 , 并且在執行過程中 , 我們還看到 AutoGLM 能夠正確地識別和處理彈窗提醒 。 更讓人驚喜的是它的總結能力 。 它沒有機械地羅列標題 , 而是像個真正的瀏覽者一樣 , 理解了屏幕上的內容 。 在最終的反饋中 , 它匯總了前四個結果:發圈、毛絨公仔、圓珠筆、泡泡瑪特盲盒 。 這說明它不僅「看」到了像素 , 還「懂」了商品 。
AutoGLM 還可以根據用戶指令執行連續多步操作 , 比如你可以讓它「先打開維基百科找到五月天的第一張專輯是什么 , 然后打開 QQ 音樂播放它」:

我們還能讓 AutoGLM 幫助完成一些重復性的繁瑣任務 , 比如應用寶軟件更新 。 當你有一大堆軟件需要更新時 , 加上不時的彈窗 , 這會變成一個幾乎讓人有些火大的過程 。 而如果你有 AutoGLM 這樣的 AI 助手 , 也就是一句話的事兒 。
run \"打開應用寶 , 把我的軟件更新一下\"

【一手實測 | 智譜AutoGLM開源: AI手機的「安卓時刻」正式到來】哇哦!真省心 。 簡直是「懶人福音」 。 面對一大堆待更新的 App 和時不時的彈窗 , AutoGLM 耐心地一個個點擊 。
有趣的是 , 在更新過程中 , AutoGLM 還遭遇了一次「誤觸」 。 根據對話記錄可以看出 , 當時彈出了請求更新嗶哩嗶哩的許可申請 , 而此時百度地圖又剛剛更新完成 , 于是 AutoGLM 本來打算點擊的「更新」變成了「打開」 , 它也因此意外打開了百度地圖 。
如果是傳統的自動化腳本 , 這時候已經卡死報錯了 。 但 AutoGLM 展現出了驚人的臨場反應:
感知錯誤:它發現屏幕畫面變成了地圖 , 而不是應用寶 。 自我修正:它沒有由于結果超出預期而自亂陣腳 , 而是分析當前狀況 , 執行了「返回/退出」操作 。 回到正軌:重新回到應用寶界面 , 繼續未完成的更新任務 。這種穩健性才是 Agent 走向實用的關鍵 。
實測過程中 , 我們發現 AutoGLM 的執行邏輯是通過分析屏幕截圖來確定下一步 。 也因此 , AutoGLM 具有非常高的通用性和普適性 , 并不局限于智譜官方推薦的應用 。 事實上 , 只要它能理解手機屏幕截圖 , 便能夠執行一步步地完成任務 。
舉個例子 , 我們甚至能讓 AutoGLM 調用其它 AI 助手來幫助完成更加復雜的任務 。
run \"打開 Gemini , 讓它搜索并整理一下智譜的發展歷史 , 最后出具一份深度報告\"

結果堪稱完美!Open-AutoGLM 成功打開了 Gemini, 將我們的自然語言指令輸入進去 , 等待 Gemini 生成長文報告 , 最后將報告內容提取回來 。
這一刻 , 手機里的 App 不再是孤島 。 AutoGLM 像是一層「超級膠水」 , 將本地應用、云端大模型無縫粘合在了一起 。 這或許就是未來「超級 App」的雛形 ——App 本身不再重要 , 服務才是核心 。
全面開源
人手一個 AI 手機
智譜選擇了和封閉生態完全不同的方向 。
Open-AutoGLM 的全面開源 , 意味著開發者、研究者與個人愛好者 , 都可以沿用 AutoGLM 的執行框架 , 在自己的產品中復現或延展這個「能動手的 AI」 。
此次開源顯得誠意十足:
核心模型與推理代碼:毫無保留 。 工具鏈:完整的 Phone-Use 框架 。 開箱即用:支持 50 多款常用中文 App 的 Demo 。 協議友好:模型采用 MIT 協議 , 代碼采用 Apache-2.0 協議 。 完善的文檔和快速上手指南 。無需擔憂的隱私問題
開源徹底改變了隱私的博弈關系 。 當模型、框架、適配層全部公開后 , 我們能做的最重要一件事 , 就是把 AI 完整地搬回到用戶的本地設備上運行 。
數據無需上云 , 所有操作記錄、App 使用習慣甚至輸入內容都能在本機完成處理 —— 沒有上傳 , 自然也就沒有泄露風險 。 同時 , 代碼完全透明 , 任何人都可以驗證它是否聯網、是否收集數據、是否寫入日志 , 比任何口頭承諾都更可靠 。
在 AI 手機的概念被炒得火熱的今天 , 我們需要的不是又一個竊取數據的云端黑盒 , 而是一個透明、可控、私有的智能管家 。
行業平等的模型底座
在不遠的未來 , AI 助手最終會普及到每個用戶 。 而沒有人希望 , 這個能夠幫助人們操作手機的助手 , 一個能夠掌控各大應用的入口 , 是某一個平臺獨占的資源 。 豆包手機助手目前被各大 App 限制的現狀 , 已經給出了信號 。
這是一次新的人機交互革命 , AutoGLM 開源 , 把 AI 助手的能力徹底開放 , 變成全行業的公共底座 。
Open-AutoGLM 的出現 , 或許就是 AI Agent 領域的「安卓時刻」:它為那個羅永浩曾夢想過的、動動嘴就能搞定一切的 TNT 時代 , 鋪下了第一塊堅實的開源基石 。
正如智譜所言:「把我們已經走過的路 , 變成接下來 Agent 爆發時代大家的起跑線 。 」
未來已來 , 而且這次 , 它聽你的 。
文中視頻鏈接:https://mp.weixin.qq.com/s/ub9_3OETxNjA7NbSrXdW6Q

    推薦閱讀