高通萬衛星：混合AI與分布式協同是未來 | MEET2026

2026-04-27 比亞迪國產車

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯部整理自 MEET2026
量子位 | 公眾號 QbitAI
從“感知”到“生成” ，再到自主行動的“智能體” ， AI正在終端側掀起一場無聲的算力革命。
在量子位MEET2026智能未來大會上，高通公司AI產品技術中國區負責人萬衛星指出：
盡管目前行業關注點仍然集中在生成式AI上，但整個產業其實正呈現出從生成式AI向智能體AI演進的路線。
他將這一演進過程梳理為四個階段——從傳統的感知AI出發，歷經當前的生成式AI、正在到來的智能體AI ，最終邁向理解真實定律的物理AI 。
而目前產業正處于從“生成”向“智能體”躍遷的關鍵窗口期，終端側的能力也正從單一文字模態，向全模態交互加速演進。

在他看來，在端側運行大模型，最大的護城河在于“個性化”——在離數據產生最近的地方做推理，不僅能實現隱私保護，更能提供無需聯網的即時響應。
然而，要在手機、PC等高集成度設備上部署百億級參數模型，必須直面內存受限、帶寬瓶頸與功耗控制這三大挑戰。對此，萬衛星分享了高通的破局之道。
最后，對于未來的終端體驗，他描繪了一個混合AI與分布式協同的圖景——智能眼鏡、手機、汽車將實現跨端的AI推理。
為了完整體現萬衛星的思考，在不改變原意的基礎上，量子位對演講內容進行了編輯整理，希望能給你帶來更多啟發。
MEET2026智能未來大會是由量子位主辦的行業峰會，近30位產業代表與會討論。線下參會觀眾近1500人，線上直播觀眾350萬+ ，獲得了主流媒體的廣泛關注與報道。
核心觀點梳理 AI應用的演進，可以分為感知AI、生成式AI、智能體AI和物理AI四個階段。從模態來看，終端側正在從單一文字模態，向多模態甚至全模態方向演進。生態系統從單體模型向復合系統的轉變是邁向智能體AI的基礎。在終端側運行大模型，最大的好處之一是個性化。在終端側運行大語言模型主要面臨內存限制、帶寬限制和功耗控制等挑戰。為解決這些挑戰，高通進行了一系列技術儲備與預研：量化與壓縮、并行解碼技術等以提高推理效率、先進NPU與異構計算架構。
以下為萬衛星演講原文
AI應用演進的四個階段今天我想跟大家分享一下高通在終端側AI以及混合AI上的成果和思考。
首先，我們來看一下AI應用在整個行業中的演進。
第一個階段可以稱之為感知AI ，包括大家比較熟悉的、傳統的自然語言處理、語音降噪、圖片識別和分割等AI技術，都屬于這個范疇。
這些技術其實在很多年前就已經在許多終端側設備上實現商業化落地。
第二個階段是生成式AI ，是隨著ChatGPT的興起而來的，這一階段主要基于大量數據進行預訓練，并在人類監督下完成某類具體任務。
包括文生圖、聊天機器人，或是利用大模型進行翻譯等在內，都屬于“生成式AI” 。

第三個階段，我們稱之為智能體AI 。
與生成式AI相比，智能體AI可以在幾乎沒有人類監督或無干預的情況下，進行自主行動、預測、意圖理解與任務編排。
我們能夠看到，盡管目前行業關注點仍然集中在生成式AI上，但整個產業其實正呈現出從生成式AI向智能體AI演進的路線。
第四個階段，我們叫做物理AI 。
在這個階段， AI可以理解真實的物理世界，并根據真實的物理定律與規律做出相應的反饋和響應。
目前，物理AI尚處于研究和探索的初期。
端側AI的優勢和挑戰我們看到在終端側生成式AI的生態中，模型尺寸正在不斷增大——
目前手機可以支持將近100億參數的大模型部署； PC可以支持約200億參數的大模型終端側部署；在車載場景中，模型支持的規模則更大，可部署的參數量級已達到200億至600億之間。
在模型尺寸不斷擴大的同時，模型質量也不斷提升。
今年年初我們已經能夠將支持思維鏈（CoT）和推理能力的模型完全部署在端側。
同時，端側模型所支持的上下文長度也在顯著增長——從兩年前端側僅能處理1K到2K的上下文，到去年已提升至4K ，而今年則已能夠支持8K到16K的典型用例在端側進行部署。
事實上，就像我們在今年9月的驍龍峰會上展示的那樣，在某些特殊場景下，已經可以實現128K上下文窗口的端側大模型部署。
【高通萬衛星：混合AI與分布式協同是未來 | MEET2026】從模態的角度來看，終端側AI也呈現出從單一的文字模態，向支持文本、圖片、視頻、音頻、語音等多模態，甚至全模態演進的趨勢。

再來看一下在端側運行AI的優勢，以及所面臨的挑戰。
我們認為在終端側運行大模型或AI ，最大的好處之一是個性化——
數據的產生都在終端側，在距離數據產生最近的地方做推理，是自然而然的事情，同時也非常有利于保護用戶的隱私和安全。
和云端相比，端側還具備兩個優勢，一是完全免費，二是無需任何網絡連接。
那么挑戰有哪些呢？在這里我想著重分享兩點。
首先是內存限制，終端側有限的內存大小限制了可運行模型參數量的大小，從而約束了終端側模型的能力上限。
其次是帶寬限制，終端側有限的帶寬決定了AI的推理速度，因此會影響用戶體驗。
當然，在手機這類集成度非常高的終端去運行大語言模型，對能效控制也提出了極致要求，因為如果功耗過高，就容易觸發設備的溫控機制。

面對這些挑戰，高通公司都有哪些技術儲備和預研呢？
第一是量化和壓縮。從8 bit、4 bit到今年實現的2 bit ，通過更極致的量化壓縮，我們使端側能夠支持的模型尺寸越來越大，其所占用的內存越來越?。 ?
第二是在端側帶寬約束下，我們采用并行解碼技術以提高大語言模型的token速率；
第三是通過先進的NPU ，包括eNPU的架構和領先的異構計算系統，我們讓端側AI從以往的被動式服務向主動式、個性化的AI服務邁進。

接下來，我想就并行解碼技術再進行展開講解。
當前大語言模型大部分是基于自回歸架構，它需要把所有的輸入和權重全部加載到內存中，才能生成一個token 。
從效率的角度來講，這是非常不經濟的行為。尤其是隨著模型規模持續增大， token的生成速度會非常慢，進而導致時延增加、影響用戶體驗。
高通通過并行解碼技術，先在端側運行一個較小的草稿模型，一次性推理出多個token ，然后將這些token交予原始的、較大的模型進行校驗。

因為草稿模型是基于原始大模型訓練而來，在原始大模型上進行token驗證時，能夠保證較高的接受率，從而實現并行解碼，達到提高端側解碼速度的目的。
從生成式AI向智能體AI演進我們正處在從生成式AI向智能體AI演進的路徑上。
從用例的角度來講，生成式AI主要能支持關鍵的“單體”用例，比如實時翻譯、文生圖或者內容創作、摘要、續寫等任務。

智能體AI是更復合、更復雜、更主動式的AI服務。
實現智能體AI需要許多基礎模塊，首先需要一個具有推理能力的大模型，它可以在端側或者云上運行以理解用戶意圖；
在理解用戶的意圖和任務之后，智能體可以通過查詢個人知識圖譜等個人本地數據，生成個性化的任務編排；
最后，智能體還要通過調用本地或云上的API執行相應的任務。

下面可以看一個具體的智能體AI用例。
用戶可以利用智能體發布微博，這個過程中首先要通過自然語言和智能體進行交互。
當智能體理解了用戶“需要發布微博”的意圖后，會打開微博APP ，搜索需要發布的照片，同時根據用戶過往的個人偏好給照片加濾鏡，最終完成整個發布過程。
不僅如此，用戶還可以通過自然語言交互監測回復，并進行相應操作，比如我特別喜歡某個評論時，可以去點贊或回復。
這個用例在今年9月的驍龍峰會上進行展示時，整個流程是全部運行在端側的。
除了手機之外，高通的芯片也覆蓋了豐富品類的產品，包括智能眼鏡、PC、汽車、智能手表、IoT等產品，并且我們能夠支持所有驍龍設備之間的智能互聯。

大家可以想象一下，智能眼鏡、智能手表等算力較小的設備，可以通過Wi-Fi或者藍牙與手機、汽車連接，去共享它們之間的本地數據，將大模型推理從較小設備中轉移到手機、PC甚至汽車等算力較大的設備上，實現分布式的個性化大模型推理。
最后，我們相信AI體驗在未來會向混合AI的方向發展。

也就是說，在終端側運行垂類的、比較高效的模型，提供更好的、更安全的個性化AI服務；在云端，運行更大尺寸的模型，提供能力更強、更通用、更極致的AI服務。
高通公司也將憑借低時延、高速且安全的連接技術，確保混合AI場景下的端云協同和端云連接。
— 完 —
量子位 QbitAI
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：備戰6G，韓國商用網絡成功驗證AI-RAN

下一篇：何愷明NeurIPS 2025演講盤點：視覺目標檢測三十年