
文章圖片

文章圖片

【從GPU 到 NPU,移動芯片求解AI 算力困局】本文由半導體產業縱橫(ID:ICVIEWS)編譯自semiengineering
邊緣人工智能、GenAI 和下一代通信正在給手機增加更多的工作負載 , 而手機已經面臨著提供高性能和低功耗的壓力 。
領先的智能手機供應商正在努力跟上本地化生成人工智能、標準手機功能以及在手機和云之間來回移動更多數據的需求不斷增長的計算和功率需求 。
除了面部識別和其他設備內置應用等邊緣功能外 , 手機還必須適應持續更新的通信協議、系統和應用程序 。 而且 , 它們需要一次充電就能完成所有這些操作 , 同時在用戶手中或貼近臉部時仍能保持涼爽 。
圖1:手機電路板 , 右上角顯示片上系統 (SoC) , 包含 Arm CPU 和其他組件 。 來源:Arm
Imagination Technologies 產品管理、細分戰略高級總監 Vitali Liouti 表示:“如果你觀察任何高端手機配置 , 就會發現所有 SoC 都采用異構架構 , 它們由不同的模塊組成 , 執行不同的功能 , 但又相互協作 。 從系統角度來看 , 每個移動 SoC 制造商都是這么做的 。 他們以異構的方式看待系統 , 并從平臺的角度(包括硬件和軟件)進行考量 。 ”
Cadence硅片解決方案事業部Tensilica DSP 產品管理和營銷總監 Amol Borkar 表示 , 由于 AI 網絡的快速發展和 AI 模型需求的日益多樣化 , 為移動市場設計 SoC 變得越來越復雜 。 “與傳統工作負載不同 , AI 模型——尤其是大型語言模型 (LLM) 和 Transformer 變體——在架構、大小和計算需求方面不斷發展 。 這為芯片設計人員創造了一個不斷變化的目標 , 他們必須將對未來 AI 功能的支持硬編碼到硅片中 , 并且一旦制造出來就無法更改 。 由于需要支持 AI 頻譜的兩端——大規模基于云的模型 , 以及針對設備推理優化的緊湊、高效的模型(如 TinyLlama) , 這一挑戰進一步加劇 。 這些較小的 LLM 對于在功率和內存限制嚴格的移動和嵌入式設備上實現智能功能至關重要 。 ”
除了牢記SoC 系統視角之外 , AI 還在推動單個處理器及其分配任務的變革 。
Synaptics副總裁兼物聯網和邊緣AI 處理器總經理 John Weil 表示:“目前正在發生的最大變化遵循兩個方向 。 Arm生態系統和 RISC-V 中的 CPU 架構都在不斷增強 。 人們正在添加矢量數學單元塊來加速基于 Transformer 的模型所需的各種數學函數 。 第二條路徑涉及神經處理器增強 , 可以將其看作是 GPU , 但專注于邊緣 AI 模型加速 。 這些主要是矢量數學單元 , 旨在加速模型內的各種操作數 。 如果你查看 Arm 張量算子集架構 (TOSA) 規范 , 就會發現其中存在各種各樣的 AI 操作數 , 人們正在編寫加速例程 , 就像使用 Open GL 編寫 GPU 一樣 。 ”
圖2:移動 SoC 設計 , 其中 AI 加速器可以是另一個 GPU、NPU 或高端 ASIC 。 來源:Synopsys
過去幾年 , GPU 和 NPU 的設計都在不斷更新 , 以適應新的用例 。 Imagination 的 Liouti 指出 , GPU 通常占據高端手機硅片面積的 25% 左右 , 而 NPU 的尺寸也不斷增大 , 以承擔大量的工作負載 。 “根據工作負載的不同 , NPU 會占據主導地位 , 或者你必須將問題分解到 NPU 的某些層和 GPU 的某些層 。 NPU 已經成為所有低功耗應用不可或缺的一部分 。 對于任何需要始終在線的應用 , NPU 都是最佳選擇 。 此外 , 你仍然需要一個性能強大的 CPU , 因為它需要大量的初始工作以及管理 。 如果 CPU 性能不佳 , 那么 GPU 或 NPU 再大也沒用 。 ”
關鍵重點在于任何形式并行處理的能效 , 無論是圖形處理、通用計算還是人工智能專用計算 。 “我們一直在研究我們的ALU引擎 , 并對其進行了徹底的重新設計和調整 , 以實現非常節能的數字運算 , ”Imagination技術洞察副總裁Kristof Beets表示 。 “下一步是將更多NPU領域的技術引入GPU——數據類型是更專用的處理流水線 , 以提供足夠的性能 。 此外 , 我們需要在整個客戶群中實現可擴展性 。 我們不能忽視開發者社區 , 因為我們如何讓人們訪問它?我們如何確保一切開箱即用?然后 , 如何有效地優化和調整它們?”
總的來說 , 將人工智能設計到芯片中變得更加容易 。 “五年多前 , 人們會說 , ‘天哪 , 我聽說人工智能要來了 。 我不知道該怎么辦 。 我們甚至沒有數據科學家 。 我得雇一個數據科學家團隊來解決這個問題嗎?’也許十年前確實如此 。 但現在絕對不是這樣了 , ”英飛凌物聯網、消費電子和工業 MCU 高級副總裁 Steve Tateosian說道 。 說到開發者方面 , 我擁有一支由博士級DSP 工程師組成的團隊 , 專門負責調試我的音頻前端 。 現在 , 也許你還有幾位——我甚至不會說是 AI 工程師 , 因為他們只是工程師——開發工程師 , 他們知道如何使用 AI 工具來創建這些模型 。 在過去 5 到 10 年里 , 工具也得到了顯著改進 , 其中包括工程師獲取數據、標記數據、創建模型、測試模型以及優化模型以適應終端設備的開發工作流程 。 許多最專業的知識都已融入這些工具中 , 因此更廣泛的開發人員可以更輕松地創建這些應用程序或模型 。
一切皆可視、無線和觸覺隨著人工智能的不斷發展 , 越來越傾向于視覺化的形式 。 這需要比傳統文本格式更強大的處理能力 。
Ansys產品營銷總監Marc Swinnen 表示:“過去 , 界面是計算機或基于文本的 。 現在 , 一切都是視頻或全圖形界面 , 對計算的要求更高 。 大量的計算都用于管理視頻的輸入和輸出——從屏幕輸入 , 再通過 1080p 輸出等等 。 ”
此外 , 一切都是無線的 , 因此手機上的模擬內容也隨之增加 。 “現在一部手機里大約有六根天線——這太瘋狂了 , ”斯溫寧說 。 “所有這些高頻電信功能 , 從Wi-Fi、5G、藍牙到AirDrop , 都有各自的頻率、各自的芯片和各自的天線 。 ”
通信標準的不斷發展給SoC 設計人員帶來了進一步的挑戰 。
“最重要的是實現 AI 用例并推動 UFS 落地 , 加速規范的制定 , ”Synopsys 移動、汽車和消費 IP 產品管理執行總監兼MIPI 聯盟主席 Hezi Saar 表示 。 “MIPI 聯盟能夠將其提前一年 , 因此這確實降低了風險 。 人們現在正在定義它 。 SoC 和 IP 供應商需要在規范制定的同時開發他們的 IP 。 他們需要進行流片并獲得符合部分規范的硅片 , 并為下一個規范做計劃 , 規劃互操作性 , 并在我們工作的同時規劃構建生態系統 。 過去 , 情況并非如此 。 規范過去有一定的演變頻率 。 每兩年就會有一個規范 。 但是一切都被壓縮了 , 因為 AI 更多的是軟件 , 它會影響硬件 。 硬件不是軟件 。 ”
圖3:智能手機中正在實施的用例 , 其中 LLM 或 AI 引擎需要在存儲設備上可用 。 來源:Synopsys
Saar 表示:“當你打開設備時 , 該模型的大部分功能都需要在 DRAM 中找到自己 , 這意味著從 UFS 設備到 SoC 的讀取連接需要非常高效 。 這就是延遲 。 你不能按下按鈕 , 問任何問題 , 然后等待兩秒鐘 。 當然 , 還有更多方法可以做到這一點 。 你不需要讀取全部內容 。 你可以進行部分讀取 。 但所有這些系統都在這里存儲數據 , 我需要將其快速推送到 DRAM 。 我讓 LLM 運行 , 比如說 , 一個片上加速器 。 但我需要將它連接到 DRAM 進行計算 , 然后將其返回給用戶 , 以便他們收聽音頻 。 在移動設備中 , 它必須非常非常高效 。 功耗極其重要 。 他們會減少傳輸 。 我會盡可能地將 UFS 設備置于睡眠模式 。 我預計存儲連接和 DRAM 連接都將繼續非常快速地發展——比以前快得多 。 ”
多模態模型和GenAI 工具(例如 Stable Diffusion)的興起進一步加劇了復雜性 , 這些工具將文本、圖像以及音頻處理整合到統一的架構中 。 Cadence 的 Borkar 表示:“這些模型需要靈活高效的計算結構 , 能夠處理各種數據類型和執行模式 。 為了在不確定性和 AI 快速發展面前保持韌性 , AI 子系統的設計必須兼顧未來發展 。 這通常涉及將可編程 IP 模塊與 NPU 集成 , 使 SoC 能夠在流片后適應新的模型架構和工作負載 。 要支持如此廣泛的 AI 用例 , SoC 不僅需要強大高效 , 還需要架構敏捷 , 這使得以 AI 為中心的芯片設計成為移動計算領域最具活力和挑戰性的前沿領域之一 。 ”
手機算法的另一個用例是確定屏幕上什么是有意義的觸摸 , 什么不是 , 無論是“直板”手機還是可折疊手機 , 由于其屏幕非常薄 , 可折疊手機面臨著額外的挑戰 。
Synaptics 產品營銷總監 Sam Toba 表示:“當顯示屏變薄時 , 頂層的觸摸層必須離噪聲很大的顯示層更近 。 我們必須處理來自單個像素的大量顯示噪聲 。 這對于非常非常薄的顯示屏來說是一個問題 。 由于背景層非常薄 , 由于極板之間的距離越來越近 , 電容會變得更高 。 這是一個大問題 , 因為當你感應觸摸時 , 它感應到的電容非常小 , 而背景電容又很大 , 因此在薄面板中 , 從如此大的噪聲(電容噪聲)中識別有效的手指信號變得更加困難 。 ”
這款超低功耗芯片需要判斷哪些信號有意義 , 然后才能喚醒主機SoC 。 “如果主機必須檢測觸摸 , 那么僅僅為了尋找觸摸信號就會耗費大量電量 , 這意味著設備必須一直處于運行狀態 。 大多數觸摸信號都必須被拒絕 。 ”
AI 功能和模型的本地處理手機中搭載著眾多AI 應用 , 而且數量還在不斷增加 。 Ansys 的 Swinnen 指出 , 只要有可能 , 處理就應該在手機上進行 , 這樣只有精簡的信息才會發送到云端 。 例如 , 面部識別或照片編輯等機器學習功能應該在靠近攝像頭的地方進行處理 。
GenAI 模型(例如 ChatGPT 或代理 AI 助手)的推理請求也可以在本地處理 。 Synopsys 的 Saar 指出 , AI 模型已經變得更加高效和緊湊 , 因此無論它們是幾兆字節、幾千字節還是幾千兆字節 , 都可以存儲在設備上 , 具體取決于你討論的模型和設備 。
本地設備處理具有諸多優勢 。 西門子數字工業軟件解決方案網絡專家Ron Squiers 表示:“通過將 AI 硬件嵌入這些移動設備 , 他們可以在設備內部進行大型語言模型推理 。 無需將事務發送回云端進行繁重的推理 , 只需在邊緣端完成即可 。 這具有雙重優勢:更低的延遲、更好的實時響應、更好的閉環伺服控制 , 并且能夠更好地保護在邊緣端本地生成的數據隱私 。 ”
其他人也同意這一點 。 “你不用把數據發送到云端 , 所以功耗和成本都會降低 , ”英飛凌的Tateosian說道 。 “一些邊緣AI應用可以在不增加連接成本的情況下提升智能 , 或者可以減少連接數量 。 這意味著減少云連接 , 并降低終端設備的功耗 。 ”
Imagination 的 Liouti 表示 , 在超優化時代 , 設計師需要將技術債務降至最低 , 才能讓手機發揮更大的潛力和性能 。 “數據移動造成了 78% 的功耗 。 我們的主要關注點是‘如何減少這種數據移動?’這可以在 GPU 層面實現 , 這也是我們關注的重點 , 但也可以在平臺層面、SoC 層面實現 。 我們必須開發極其先進的技術來減少數據移動 , 而對于神經網絡來說 , 這變得更加復雜——尤其是對于大型神經網絡 , 因為它們需要大量的數據 。 ”
雖然越來越多的設備端AI處理正在發生 , 但由于電池和功率限制 , 有些功能仍將在云端運行 。 “你總是需要有所取舍 , ”Liouti說道 。 “這只是一段偉大旅程的開始 , 幾年后情況將截然不同 。 我們才剛剛觸及皮毛 。 我認為Transformer是構建更宏大目標的基礎模塊 。 目前 , 我們需要區分炒作與現實 。 以目前在移動設備上本地運行的圖像生成模型為例 。 現實情況是 , 它們的性能遠不如你在電腦上使用Midjourney找到的模型 。 幾年后情況將會發生改變 。 ”
更強大的GPU 將成為解決方案的一部分 。 “在移動領域 , 我們可以將額外的功耗節省轉化為更高的時鐘頻率和更高的性能 , 因為我們可以保持相同的功耗和熱預算 , ”Imagination 的 Beets 說道 。
然而 , 英飛凌的Tateosian 觀察到 , 每次新版本發布之后 , 手機用戶體驗并沒有太大變化 。 “盡管這些設備的性能和內存都提升了 , 但軟件卻在吞噬這些 。 ”
結論有幾個關鍵趨勢推動著移動SoC 設計的變革 。
Ansys 的 Swinnen 表示:“模擬技術的興起、視頻和人工智能的蓬勃發展 , 以及當今應用對高性能計算 (HPC) 的需求 , 使得芯片需要具備強大的計算能力 。 這些因素推動著 SoC 的發展 , 但手機制造商受限于需要保持低功耗和小尺寸的特性 , 而且與 NVIDIA 等 GPU 公司相比 , 他們受到的經濟因素制約更大 。 對他們來說 , 性能才是最重要的 , 如果成本稍微高一點 , 那就接受吧 。 但對于手機芯片來說 , 成本并非如此 。 為了達到數百萬的產量 , 必須保證成本低廉 。 ”
設計人員必須確保從硬件和軟件兩個角度來設計SoC 。 “忘記這一點的人都會失敗 , ”Imagination 的 Liouti 說道 。 “當你考慮語言模型、層級結構和操作時 , 我們必須考慮到這一點 。 這聽起來簡單 , 實則不然 。 本質上 , 你必須找到利用硬件進行數學運算的最佳方法 , 以確保你的解決方案處于領先地位 , 因為我們是在與巨頭競爭 。 你必須進行軟硬件協同設計 , 而單憑一名工程師是無法完成的 。 這必須涉及多個不同的學科 , 其中一些學科甚至完全不相關 。 ”
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!
推薦閱讀
- 從街機廳到電競房,八位堂天刃星,讓格斗游戲回歸純粹操作
- DPU與GPU ,邊緣AI怎么選?
- 2124 元起,這手機讓我在王者峽谷五殺拿到手軟!
- 從蘋果換到一加,游戲體驗確實有提升
- 玩轉nova 14!鴻蒙版知到、U凈等校園應用助你學習生活游刃有余!
- 它叫O1、也是OPhone,從一款國產手機講起
- 我們能設計、封測3nm芯片,但制造拖后腿,壓力給到中芯國際了
- 半透明桃桃粉到酷洛米暗黑風:vivo S30外觀的多元美學表達
- 谷歌CEO皮查伊:AI才發展到AJI階段,實現AGI還需20年以上
- 小米是不是開始觸碰到華為基本盤了嗎?
