半個月三場大會,AI戰火蔓延手機圈

半個月三場大會,AI戰火蔓延手機圈

文章圖片

半個月三場大會,AI戰火蔓延手機圈

文章圖片




相比于兩年前 , 手機廠商已經很少在大參數的基礎模型上做大投入 , 而是更多把精力放在了端側多模態模型上 。
文|游勇
編|周路平
手握數億用戶的手機廠商一直是探索AI終端的先鋒力量 。
不久前 , vivo、OPPO和榮耀在新手機發布前 , 都集中舉辦了開發者大會 。 AI已經成為最熱鬧的話題 , 而各家手機廠商也在這一場合 , 展現了對AI戰略的全新理解 , 以及各家對模型能力應用的側重 。
外界好奇的是 , 作為用戶日常使用最頻繁的智能設備 , 國內手機上的AI已經發展到什么階段?有哪些應用場景?以及又有哪些難題待解?
01
AI手機進入端側多模態時代
兩年前 , 手機AI的應用集中在文本處理上 , 比如多輪對話、摘要生成、文案續寫等應用 , 而且依賴云側大模型的處理 。 而今年一個明顯的變化是 , 隨著多模態端側模型的涌現 , 實現了大量與圖像、語音處理相關的場景 。
vivo展示了18個端側智能相關的應用 , 比如卡證識別、文件名自動填充 , 以及端側化的UI Agent , 通過一句話在備忘錄創建筆記 , 或者通過一句話在錢包里記一筆詳細的賬單 。 這些任務相比于過去幫你設置一個鬧鐘 , 有更復雜的交互邏輯 , 需要有意圖識別能力和自主規劃能力 。
OPPO則重點演示了一鍵問屏和一鍵閃記的功能 。 一鍵問屏依托多模態大模型 , AI不僅可以實時理解屏幕內容 , 也能夠讓用戶指著實景進行語音對話 。 而一鍵閃記則可以自動提取關鍵信息并分類 , 比如當你通過微信支付買了東西 , 手機會自動將這筆消費記錄到賬單里 , 無需任何手動操作 , 或者能通過掃描小票信息 , 完成賬單錄入 。 而取餐碼等信息 , 則會以小卡片的形式在手機上實時提醒 。
榮耀披露了手機可自動執行的場景超過3000個 , 圍繞衣食住行購 , 解決用戶頻繁跨App調用的煩惱 , 比如一鍵比價購物 , 除了幫你進行比價 , 把商品添加到購物車 , 還能幫你領取優惠券;比如一鍵打車 , 通過語音直接讓AI調用打車軟件 。 過往需要頻繁切換App , 現在通過AI , 一個指令就能完成 。
“從熱門的大模型跟智能體產品來看 , 技術上已經具備了理解物理世界或者加速物理跟數字世界融合的能力 。 ”榮耀MagicOS AI產品部總經理張沖說 , 客觀來講 , 對手機廠商而言 , 數字世界包含了天然數據和生產數據 , 通過這些數據可以進行更好的模型微調 , 以便理解用戶在當前情境下的需求 。
不過 , 在一位手機AI技術專家看來 , “AI技術的進步和用戶的需求存在一定的錯配 。 用戶最高頻的AI使用場景是圖片的處理 , 但這一代的技術 , 先成熟的是語言模型 。 ”該人士預測 , 大概率在明年 , 圖片處理的成熟度會非常高 。
手機廠商的大模型基本經歷了三個階段:兩年前 , vivo、OPPO都發布了從幾億參數到上千億參數的全尺寸語言模型 。 一年前 , 業內的重心從語言模型轉向語音、圖像等多模態領域 , 并且更加重視模型的端側化 , 加速大模型在手機上落地 。

vivo、OPPO、榮耀AI進展匯總 整理:數智前線
而今年的幾個明顯的趨勢是:一是端側模型集中在3B的輕量化模型尺寸上 , 而且在大語言模型的基礎上新增了多模態 。
比如今年7月 , 榮耀發布了7B的多模態感知大模型MagicGUI 。 vivo也在同一時間發布了3B多模態推理大模型BlueLM-2.5-3B , 實現語言、視覺與邏輯推理能力在端側集成 。 而10月 , OPPO發布了端側多模態大模型AndesVL , 包含了0.6B-4B四檔尺寸套件 , 除了具備通用多模態識別、理解和推理能力外 , 也具有GUI能力和多語言能力 。
業內通過低比特混合量化方案和端側Lora訓練方案 , 快速縮小了模型的體積和對內存的開銷 , 加快了端側多模態大模型的部署速度 。
一位行業從業者告訴數智前線 , 現在的3B模型已經能夠做到之前8B模型的效果 。 而且 , 以往這些任務需要多個視覺專家模型和語言模型相結合 , 但現在能夠做到多種尺寸和模態的模型集成到一個模型中 , 帶來更高的識別率 。 比如vivo采用了1+N架構 , 讓多模態和語言模型、邏輯推理等共用一個基座模型 , 再搭配各模態的Lora , 實現一個模型支撐了十余個業務場景 。
二是端側實現了推理模型的深度思考模式 , 手機本地能做到像云端一樣進行復雜推理 , 大幅提升了解決復雜問題的準確率 。
三是GUI Agent模型的引入 , 讓AI主動操控手機界面來完成任務 。 它的本質是模擬人對手機進行點擊、滑動等操作 , 無需依賴規則和固定腳本 , 也不用應用方提供特別的API , 從而讓手機智能體實現對第三方應用的操作 。
02
端側模型落地面臨哪些挑戰
現在的手機AI助手 , 背后通常會調用不同的模型來執行不同任務 , 既有自己蒸餾的模型 , 也會通過API去調用外部優秀的云側大模型服務 , 包括阿里通義、字節跳動豆包是被手機廠商廣泛接入的兩家 。
但一位手機行業人士告訴數智前線 , 調用外部模型 , 里面還有很多彎彎繞繞 , “豆包也好 , 阿里也好 , 給手機廠商的API , 跟他自己的最新版本不一樣 , 他慢了至少3到6個月 。 ”上述人士說 , 云廠商內部賣云的人跟開發模型的人是兩撥人 。
云廠商將自己內部的能力封裝成商品拿出去賣 , 但模型廠商也擔心 , 手機廠商基于自己的數據做優化后 , 效果比它的還更好 , “這個事情不是說我不想接他 , 是他不想給我 。 ”
但相比于兩年前 , 手機廠商已經很少在大參數的基礎模型上做大投入 , 而是更多把精力放在了端側多模態模型上 。
一位手機AI專家告訴數智前線 , 云側模型通過MOE架構實現了大幅壓縮 , 但端側受限于芯片性能 , 目前已經能做到2B-5B , 相當于2023年的32-70B的模型 。 如果模型廠商的目標是追求智能上限 , 而終端廠商則是把模型壓縮放到端上 。 “我們不做0到1基礎模型的訓練 , 小尺寸的端側模型實際上是云端大尺寸模型的蒸餾 。 ”
“云端的能力已相對比較容易建立 。 ”vivo AI研究院院長周圍說 , “真正難的是端側的能力 。 ”

周圍透露 , vivo在去年做了13B和7B的端側模型 , 發現只有7B基本能用 , 但7B端側模型的實現效果并不理想 , 占用內存太大 , 需要占用近4GB的運存空間 。 vivo最近一年將更多精力放在了3B端側多模態模型上 , 如今3B端側模型在文本摘要上的能力已經能做到云側大模型97%-98%的能力 , “已經夠用了” 。
但這并非意味著手機廠商不再去做大參數的模型 , 而是在能力上會做一些區分 , “如果這個問題已經是大部分廠商在解決的 , 那么我選擇跟他合作 。 ”一位技術專家告訴數智前線 , 比如手機廠商不會再去迭代純粹增加世界知識的模型 , 而是側重基于手機端多維數據的理解 , 追求個人化智能 。
所以 , 盡管目前手機廠商都采用的是端云協同方案 , 但不難發現 , 核心依然在端側模型的優化上 。
一方面 , 云端大模型的每一次API調用都需要成本 , 而且往返的延遲也影響著用戶體驗;另一方面 , 用戶對隱私的擔憂 , 限制了云側大模型對數據的使用 。 而端側大模型除了需要更高性能的芯片和存儲空間 , 幾乎不會增加其他成本 , 以及在本地處理帶來更高的隱私安全 , 這些特性成了端側大模型在手機落地的關鍵 。
AI的爆發正在給手機廠商帶來了一些甜蜜的煩惱 。 手機廠商的用戶體量龐大 , 頻繁調用云側模型的服務 , 會帶來巨大的成本開支 。 一位手機AI專家告訴數智前線 , 用ASR模型做手機的轉錄翻譯 , 一個小時需要耗費的云成本達到了2塊錢 。 而這些費用都需要硬件廠商承擔 。
事實上 , 市面上的AI應用 , 除了部分大廠的對話類產品 , 很多專業的工具都需要收費 , 比如PPT的生成、深度研究報告等 , 都開始探索收費模式 。
而且 , 一位業內人士對數智前線感慨 , 云廠商并沒有太強烈的意愿去做端側模型的投入 , “因為他們更多是賣MaaS服務” , 這也更加依賴手機廠商主動去解決端側模型的難題 。
但當下面臨的一個問題在于 , 缺乏爆款AI應用 , 用戶對AI的感知還非常有限 , 芯片廠商也出現了觀望情緒 。
“芯片廠商一直在找我們 , 看能不能在手機上找到更多的明星場景 。 ”上述人士說 , 目前 , 高通驍龍和聯發科天璣最新的旗艦芯片 , AI算力都已經達到了100TOPS 。 芯片廠商希望賣更強算力的芯片 , 但如果沒有足量的應用支撐 , 算力大 , 意味著芯片價格也高 , 最終會影響到芯片的銷量 。
03
Agent生態才剛剛起步
不難發現 , 目前外界看到的一句話修圖 , 一句話連Wi-Fi , 一句話記賬等自動化任務基本還局限于廠商自己的一方應用 , 比如備忘錄、相冊等 。
但用戶大部分的使用場景是在第三方的應用 , “85%的時長是由開發者給我們提供的服務” , 這意味著頭部互聯網廠商的參與依然是非常關鍵的一環 。
周圍提到 , 當下手機自動智能體要做任務時 , 只能做廠商自己的功能 。 但是想跨應用 , 在安全授權的標準方面 , 終端廠商和互聯網廠商仍然需要復雜的討論 。 “作為終端廠商 , 我們要積極推動行業標準的建立 , 也要認識到 , AI技術從現在到成熟還有幾年的過程 。 ”

隨著單一智能體走向多智能體協同 。 各手機廠商除了發布智能體應用 , 也都在積極搭建智能體生態 。
比如 , vivo將系統中高頻可復用的能力提煉成通用的系統級智能體 , 包括屏幕感知、任務規劃等做成“通控設施組” , 直接提供給生態伙伴調用 , 然后通過智能體開發平臺 , 提供多種端側AI開發能力 , 幫助生態伙伴針對具體的業務場景去開發豐富的智能體 。
OPPO則將智能體生態框架作為OPPO AI的三大技術基石 , 這不僅是OPPO智能體跨設備協同的核心平臺 , 也關系到AI智能體實現從單步執行升級到復雜任務規劃與多設備聯動的關鍵 。
榮耀也發布了系統級的MCP架構 , 目前已經打通了系統底層超過80%的高頻場景 , 也接入了超過4000個生態MCP和智能體 。 除了軟件生態 , 榮耀也在基于深圳的區位優勢 , 希望構建AI硬件生態 , 實現智能體的跨設備協同 。
手機廠商在智能體生態的構建上相比于其他終端產品 , 擁有大量的跨應用、跨場景的多模態數據 。 手機可以與其他終端設備打通 , 扮演智能中樞的角色 , 這些特性讓手機在智能體生態的構建上具備著天然優勢 。
如今 , 已經開始有互聯網廠商嘗到了甜頭 , 比如螞蟻集團幾乎與主流手機廠商都達成了戰略合作 , 將旗下的智能體服務接入到了手機廠商的生態里 。 vivo透露 , 螞蟻旗下的AI健康智能體AQ在藍心小V的健康場景的流量份額從年初到現在提升了三倍 。
但對于大多數應用廠商而言 , 智能體生態背后涉及到流量分配和數據權限的難題 。 不少App廠商擔心 , 如果由系統級的智能體來直接服務最終用戶 , App的價值會受到沖擊 。 另外 , 現在的用戶數據是各App自己掌握 , 如果要由系統級智能體來執行 , 是否需要共享用戶數據也是一個讓不少企業擔憂的問題 。
目前 , 業內的普遍做法是開發GUI大模型 , 這是一個更加溫和的解決方案 , 本質上不是由智能體與智能體直接交互 , 只是將手機界面的操作由AI替代了人 , 背后依然需要用戶登陸個人賬戶 , 關鍵節點需要用戶確認 , 手機智能體只是扮演著使用者的角色 。
而vivo周圍的態度代表了不少手機廠商的觀點 , “第一是愿意跟我們握手的 , 就一起坐下來商量來做 。 第二是AI時代到來了 , 是不是需要有一個全新的江湖地位和影響力 , 這個就留給時間 。 ”
【半個月三場大會,AI戰火蔓延手機圈】

    推薦閱讀