一手實測 | 智譜AutoGLM開源： AI手機的「安卓時刻」正式到來_天月|ai

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：冷貓、Panda
「安靜！吵到我用 TNT 了！」

長期關注科技圈的朋友們都知道，羅永浩的錘子科技落幕已經七年。七年間，仍有無數錘科粉絲保留著舊手機備用，懷念手機圈當年的「銳利異類」，以至于錘子手機仍然有百萬日活用戶。
而錘子科技，羅永浩最大的愿景和遺憾，莫過于號稱「重新定義下個十年的個人電腦」，以及鬧出了科技圈永生梗「理解萬歲」的 TNT 。
給不熟悉的讀者朋友們簡單介紹下：TNT 全稱 TouchTalk ，通過觸控 + 語音的方式操作設備。
在那個 AI 尚顯稚嫩的年代，這被視為一種激進的賭博；但在大模型爆發的今天，我們驚訝地發現：最高效的手機操作方式，恰恰就是 TNT 構想的那樣：按住屏幕把需求說出來，設備自動完成一切。
近些天，豆包手機（豆包手機助手技術預覽版）爆火，讓能夠操作手機的 AI Agent 走入了大眾視野。 Agent 借助大模型和自動操作系統的設計，讓用戶憑借自然語言和語音輸入，就能自然實現通用的、跨任務的復雜操作。
也因此，人們在震驚于現今大模型 GUI Agent 能力強大之余，也不禁擔心個人數據上云的隱私權限問題，幾大國民級 App 也都限制了豆包手機助手的訪問，再加上搭載豆包的手機一機難求……
除了被大廠生態裹挾，我們有沒有另一種選擇？有沒有一個既能一句話搞定繁雜任務，又能將隱私握在自己手里，甚至人人都能 DIY 的 GUI Agent？
有的兄弟，有的，而且是來自深耕智能體的智譜的明星項目：AutoGLM 。
就在前天， AutoGLM 正式全面開源！
豆包手機之所以遭到所有大廠圍剿，因為 AI 手機很可能是下一個時代的流量入口。智譜這波開源直接把能力交給了所有人手上，一己之力把 AI 原生手機的門檻給打平了。
為開源精神點贊！
具體來說， Open-AutoGLM 由一個手機端智能助手框架 Phone Agent 和一個 9B 大小的模型 AutoGLM-Phone-9B 共同組成。

開源地址：https://github.com/zai-org/Open-AutoGLM
從第一個 AI 發出的紅包說起
這次開源對行業的影響力，核心來自這次智譜開源的不是一個普通的 GUI agent 模型，而可能是行業最好的模型。
智譜是第一個開始可操作智能體研究的廠商。
時間回到 32 個月前的 2023 年 4 月，智譜就已經開始從零探索 AutoGLM ，目標是打造一個不僅能「說」，還能「做」的智能體模型。
2024 年 10 月， AutoGLM 面世爆火，被業界公認為是全球第一個可以真正操控手機的 Agent ，迄今也是全球完成度最高的 GUI Phone Use 模型。不是模擬，不是腳本，而是像人一樣去「看屏幕」，去分析 UI 布局，然后模擬手指進行點擊與滑動。 AutoGLM 這個 Phone Use 能力的誕生，是「AI 會用工具」的關鍵里程碑。
一個月后，它做了一件前所未有的事情：AutoGLM 完成了人類歷史上第一個由 AI 全自動發出的紅包。

這個紅包意味著大模型「從 Chat 到 Act」的范式轉變，語言不再停留在語言本身，而能驅動行動、執行任務。
但我們很快意識到：會動手的 AI ，就像剛拿到第一部智能手機的小孩 —— 強大，但也危險。如果它在不該點的地方亂點怎么辦？如果某個用戶的真實手機被誤觸隱私應用怎么辦？
于是到了 2025 年 8 月，智譜做了一個關鍵決定：先把 AutoGLM 放進云端的「虛擬手機」里。
AutoGLM 2.0 云機版，把 AI 的行動舞臺與用戶真實手機完全隔離。它看到的屏幕、能執行的點擊，都發生在一臺安全的虛擬設備上。涉及隱私的 App ，比如微信，則選擇不開放 —— 不是做不到，而是智譜希望它「先學會規則，再學本事」。
Phone Agent 的實現，依賴于 AutoGLM 的視覺-語言模型。通過理解手機屏幕內容、解析 UI 狀態，結合智能規劃能力，它能自主完成整套操作流程。
這背后的實現說簡單也簡單，說復雜也復雜。它由三大核心技術組成：
1. ADB（Android Debug Bridge）：手機的「控制器」
AutoGLM 接入安卓系統的 ADB 開發者調試，負責把控制信號送到設備上，實現基本的點按滑動等操作。
2. 視覺-語言模型（VLM）：AI 的「眼睛 + 大腦」
它能理解手機屏幕上的文本、按鈕、圖標，識別，操作和實時反饋。
3. 智能規劃：任務拆解的「策劃師」
它能將自然語言任務拆解為可執行步驟，你說一句「發紅包給小李」， AI 會自動補全背后的十幾步操作鏈：打開 App、找到聯系人、選擇金額、確認支付……
AutoGLM 把這三項能力打包成一個完整執行框架，「AI 會用手機」的概念已經在諸多測試中保證了穩定和實用。
一手實測
Open-AutoGLM 究竟有多強？
理論說得再多，不如實戰。下面我們就來看看開源版的 AutoGLM 表現究竟如何。
首先，來一個簡單任務：發微信。發送以下指令：
給 wupan 發個微信，就說 Panda 的生日快到了，準備個蛋糕，多點水果。

可以看到，系統啟動后， Open-AutoGLM 首先進行了一波「自檢」，確認 API 和系統權限無誤。在這里，我們可以看到智譜給 Phone Agent 的描述：「AI-powered phone automation」，即「AI 賦能的手機自動化」。
接下來， AutoGLM 會回到任務本身。思考為了完成這個任務，第一步應該執行什么。在終端界面，我們能清晰地看到它的思維鏈（CoT）：
觀察：當前在桌面。思考：任務是發微信，第一步需要找到并打開微信。行動：點擊微信圖標。觀察：進入微信列表頁。思考：需要找到 wupan ，點擊搜索框……如此迭代進行，直到完成任務。整個過程行云流水，最后它還會像模像樣地匯報：「任務已完成」。
而在以上任務執行的同時，我們的手機端則經歷了以下過程。很顯然， AutoGLM 非常出色地完成了這個初始任務。

下面，為了更好地展示，我們將使用 scrcpy 將手機投屏到 PC 上，將前后端情況一并錄制。此外，為了方便，我們將上面略顯繁瑣的命令定義為一個 Function ，并把它放進 PowerShell 配置文件 (Profile) 里。下面我們只需簡單地輸出「run \"提示詞\"」即可向 AutoGLM 發送指令。（當然，你也可以 Vibe Code 一個更好看或直觀的交互 UI 。）
接下來試試 AutoGLM 與小紅書的交互。
run \"打開小紅書，看看有什么有趣的瘋狂動物城周邊\"

同樣，執行非常順暢，并且在執行過程中，我們還看到 AutoGLM 能夠正確地識別和處理彈窗提醒。更讓人驚喜的是它的總結能力。它沒有機械地羅列標題，而是像個真正的瀏覽者一樣，理解了屏幕上的內容。在最終的反饋中，它匯總了前四個結果：發圈、毛絨公仔、圓珠筆、泡泡瑪特盲盒。這說明它不僅「看」到了像素，還「懂」了商品。
AutoGLM 還可以根據用戶指令執行連續多步操作，比如你可以讓它「先打開維基百科找到五月天的第一張專輯是什么，然后打開 QQ 音樂播放它」：

我們還能讓 AutoGLM 幫助完成一些重復性的繁瑣任務，比如應用寶軟件更新。當你有一大堆軟件需要更新時，加上不時的彈窗，這會變成一個幾乎讓人有些火大的過程。而如果你有 AutoGLM 這樣的 AI 助手，也就是一句話的事兒。
run \"打開應用寶，把我的軟件更新一下\"

【一手實測 | 智譜AutoGLM開源： AI手機的「安卓時刻」正式到來】哇哦！真省心。簡直是「懶人福音」。面對一大堆待更新的 App 和時不時的彈窗， AutoGLM 耐心地一個個點擊。
有趣的是，在更新過程中， AutoGLM 還遭遇了一次「誤觸」。根據對話記錄可以看出，當時彈出了請求更新嗶哩嗶哩的許可申請，而此時百度地圖又剛剛更新完成，于是 AutoGLM 本來打算點擊的「更新」變成了「打開」，它也因此意外打開了百度地圖。
如果是傳統的自動化腳本，這時候已經卡死報錯了。但 AutoGLM 展現出了驚人的臨場反應：
感知錯誤：它發現屏幕畫面變成了地圖，而不是應用寶。自我修正：它沒有由于結果超出預期而自亂陣腳，而是分析當前狀況，執行了「返回/退出」操作。回到正軌：重新回到應用寶界面，繼續未完成的更新任務。這種穩健性才是 Agent 走向實用的關鍵。
實測過程中，我們發現 AutoGLM 的執行邏輯是通過分析屏幕截圖來確定下一步。也因此， AutoGLM 具有非常高的通用性和普適性，并不局限于智譜官方推薦的應用。事實上，只要它能理解手機屏幕截圖，便能夠執行一步步地完成任務。
舉個例子，我們甚至能讓 AutoGLM 調用其它 AI 助手來幫助完成更加復雜的任務。
run \"打開 Gemini ，讓它搜索并整理一下智譜的發展歷史，最后出具一份深度報告\"

結果堪稱完美！Open-AutoGLM 成功打開了 Gemini，將我們的自然語言指令輸入進去，等待 Gemini 生成長文報告，最后將報告內容提取回來。
這一刻，手機里的 App 不再是孤島。 AutoGLM 像是一層「超級膠水」，將本地應用、云端大模型無縫粘合在了一起。這或許就是未來「超級 App」的雛形 ——App 本身不再重要，服務才是核心。
全面開源
人手一個 AI 手機
智譜選擇了和封閉生態完全不同的方向。
Open-AutoGLM 的全面開源，意味著開發者、研究者與個人愛好者，都可以沿用 AutoGLM 的執行框架，在自己的產品中復現或延展這個「能動手的 AI」。
此次開源顯得誠意十足：
核心模型與推理代碼：毫無保留。工具鏈：完整的 Phone-Use 框架。開箱即用：支持 50 多款常用中文 App 的 Demo 。協議友好：模型采用 MIT 協議，代碼采用 Apache-2.0 協議。完善的文檔和快速上手指南。無需擔憂的隱私問題
開源徹底改變了隱私的博弈關系。當模型、框架、適配層全部公開后，我們能做的最重要一件事，就是把 AI 完整地搬回到用戶的本地設備上運行。
數據無需上云，所有操作記錄、App 使用習慣甚至輸入內容都能在本機完成處理 —— 沒有上傳，自然也就沒有泄露風險。同時，代碼完全透明，任何人都可以驗證它是否聯網、是否收集數據、是否寫入日志，比任何口頭承諾都更可靠。
在 AI 手機的概念被炒得火熱的今天，我們需要的不是又一個竊取數據的云端黑盒，而是一個透明、可控、私有的智能管家。
行業平等的模型底座
在不遠的未來， AI 助手最終會普及到每個用戶。而沒有人希望，這個能夠幫助人們操作手機的助手，一個能夠掌控各大應用的入口，是某一個平臺獨占的資源。豆包手機助手目前被各大 App 限制的現狀，已經給出了信號。
這是一次新的人機交互革命， AutoGLM 開源，把 AI 助手的能力徹底開放，變成全行業的公共底座。
Open-AutoGLM 的出現，或許就是 AI Agent 領域的「安卓時刻」：它為那個羅永浩曾夢想過的、動動嘴就能搞定一切的 TNT 時代，鋪下了第一塊堅實的開源基石。
正如智譜所言：「把我們已經走過的路，變成接下來 Agent 爆發時代大家的起跑線。」
未來已來，而且這次，它聽你的。
文中視頻鏈接：https://mp.weixin.qq.com/s/ub9_3OETxNjA7NbSrXdW6Q

一手實測 | 智譜AutoGLM開源： AI手機的「安卓時刻」正式到來

推薦閱讀

蜈蚣是害蟲還是益蟲啊蜈蚣屬于害蟲還是益蟲

2022廣州住房公積金利率調整后有什么好處？

枕巾多久洗一次枕巾什么時候洗一次

結婚為什么吃烤乳豬不好結婚為什么吃烤乳豬

小提琴是什么調

成都歡樂谷門票價格成都歡樂谷門票多少錢一張

求鑒定阿迪達斯貝殼頭小熊鞋

如何注銷申請的刷寶賬號

上海虹口區公租房入住流程

回水排氣閥不出水也不出氣怎么處理

特斯拉充電樁安裝有哪些條件

其實我不在乎初三作文

python考勤管理系統 Python上課點名系統附源碼

助人為樂手抄報我是小天使幫助他人手抄報怎么畫

怎樣調出一杯好喝的咖啡

西餐擺盤怎么擺s型