
文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯:Panda
今天 , 谷歌有點忙 。
一方面 , 他們與耶魯大學合作基于 Gemma 研發的 Cell2Sentence-Scale 27B (C2S-Scale) 首次預測了一種新的潛在癌癥療法 , 引發世界廣泛關注 。 另一方面 , 他們又更新上線了 Veo 3.1 , 為用戶帶來了大幅提升的視頻生成能力 , 參閱報道《剛剛 , 谷歌 Veo 3.1 迎來重大更新 , 硬剛 Sora 2》 。
再一方面 , 他們又推出了 Coral NPU , 可用于構建在低功率設備上持續運行的 AI 。 具體來說 , 其可在可穿戴設備上運行小型 Transformer 模型和 LLM , 并可通過 IREE 和 TFLM 編譯器支持 TensorFlow、JAX 和 PyTorch 。
和前兩個新聞一樣 , 這也同樣引起了開發者的廣泛熱議 。
Coral NPU:一個為邊緣設備打造的全棧開源 AI 平臺
谷歌給 Coral NPU 的定位是「一個全棧、開源的平臺 , 旨在解決性能、碎片化和隱私這三大核心挑戰 , 而這些挑戰限制了功能強大、始終在線的 AI 技術在低功耗邊緣設備和可穿戴設備上的應用 。 」
也就是說 , 使用 Coral NPU , 未來我們有望打造出能在智能手表等設備上本地持續運行的好用 AI , 讓智能直接嵌入到用戶的個人環境中 。
然而 , 要做到這一點卻并非易事 。 谷歌總結了三大方面的挑戰:
性能差距:復雜且先進的機器學習模型需要更多的計算資源 , 這遠超邊緣設備有限的功率、散熱和內存預算 。 碎片化成本:為多樣化的專有處理器編譯和優化機器學習模型既困難又昂貴 , 這阻礙了跨設備實現一致的性能 。 用戶信任缺失:要想真正發揮作用 , 個人 AI 必須優先保障個人數據和情境的隱私與安全 。而谷歌今天推出的 Coral NPU 基于其最初的 Coral 項目 , 「可為硬件設計者和機器學習開發者提供了構建下一代私密、高效邊緣 AI 設備所需的工具 。 」
具體來說 , Coral NPU 是與 Google Research 和 Google DeepMind 合作設計的成果 , 乃是一個 AI 優先的硬件架構 , 可用于支持下一代超低功耗、始終在線的邊緣 AI 。
它提供了統一的開發者體驗 , 使部署環境感知等應用變得更加容易 。 它專為在可穿戴設備上實現全天候 AI 而設計 , 同時能最大限度地減少電池消耗 , 并且可通過適當配置來適應更高性能的應用場景 。
谷歌已經發布了相關文檔和工具 , 以便開發者和設計者可以立即開始構建 。
項目主頁:https://developers.google.com/coral 代碼庫:https://github.com/google-coral/coralnpu技術細節
顧名思義 , Coral NPU 采用了 NPU(神經處理單元 /neural processing unit)架構 , 其為下一代高能效、針對機器學習優化的片上系統 (SoC) 提供了構建模塊 。
該架構基于一套符合 RISC-V 指令集架構 (RISC-V ISA) 的 IP 模塊 , 專為最低功耗而設計 , 使其成為始終在線的環境感知的理想選擇 。
其基礎設計可在僅消耗幾毫瓦功率的情況下 , 提供 512 GOPS (每秒十億次操作) 級別的性能 , 從而可為邊緣設備、耳戴式設備、AR 眼鏡和智能手表帶來強大的端側 AI 能力 。
Coral NPU 生態系統統一視圖 , 展示了為 SoC 設計者和機器學習開發者提供的端到端技術棧 。
這種基于 RISC-V 的開放且可擴展的架構為 SoC 設計者提供了靈活性 , 讓他們可以修改基礎設計 , 或將其用作一個預配置的 NPU 。
Coral NPU 架構包含以下組件:
一個標量核心(scalar core): 一個輕量級、可用 C 語言編程的 RISC-V 前端 , 負責管理流向后端核心的數據流 。 它采用簡單的「運行到完成」 (run-to-completion) 模型 , 以實現超低功耗和傳統的 CPU 功能 。 一個向量執行單元(vector execution unit): 一個強大的單指令多數據 (SIMD) 協處理器 , 符合 RISC-V 向量指令集 (RVV) v1.0 規范 , 能夠對大型數據集進行同步操作 。 一個矩陣執行單元(matrix execution unit): 一個高效的量化外積乘積累加 (MAC) 引擎 , 專為加速神經網絡的基本運算而構建 。 請注意 , 該矩陣執行單元仍在開發中 , 將于今年晚些時候在 GitHub 上發布 。
從傳統設計到 Coral NPU 的架構轉變示意圖 。
統一的開發者體驗
Coral NPU 架構是一個簡單的、可用 C 語言編程的目標平臺 , 可以與 IREE 和 TFLM 等現代編譯器無縫集成 。 這使得它能夠輕松支持 TensorFlow、JAX 和 PyTorch 等機器學習框架 。
Coral NPU 包含一個全面的軟件工具鏈 , 其中包括針對 TensorFlow 的 TFLM 編譯器等專用解決方案 , 以及一個通用的 MLIR 編譯器、C 編譯器、自定義內核和一個模擬器 。 這可為開發者提供了靈活的路徑 。
例如 , 一個來自 JAX 等框架的模型首先會使用 StableHLO 方言 (dialect) 導入為 MLIR 格式 。 這個中間文件隨后被送入 IREE 編譯器 , 該編譯器會應用一個硬件特定的插件來識別 Coral NPU 的架構 。 之后 , 編譯器會執行漸進式降低 (progressive lowering)—— 這是一個關鍵的優化步驟 , 在此過程中代碼會通過一系列方言被系統地翻譯 , 逐步接近機器的本地語言 。 優化后 , 工具鏈會生成一個最終的、緊湊的二進制文件 , 以便在邊緣設備上高效執行 。
下表展示了 Coral NPU 的軟件開發優勢:
這套行業標準的開發者工具有助于簡化機器學習模型的編程 , 并能在各種硬件目標上提供一致的體驗 。
Coral NPU 編譯器工具鏈 , 展示了從機器學習模型創建、優化、編譯到設備端部署的完整流程 。
Coral NPU 的協同設計過程聚焦于兩個關鍵領域 。
首先 , 該架構能高效加速當今設備端視覺和音頻應用中領先的、基于編碼器的架構 。 其次 , 谷歌正與 Gemma 團隊緊密合作 , 針對小型 Transformer 模型優化 Coral NPU , 以確保該加速器架構能夠支持下一代邊緣生成式 AI 。這種雙重關注意味著 Coral NPU 有望成為首個開放、基于標準、專為將大語言模型 (LLM) 引入可穿戴設備而設計的低功耗 NPU 。
對于開發者而言 , 這可提供一條單一且經過驗證的路徑 , 可以用最低的功耗和最高的性能來部署當前和未來的模型 。
目標應用
Coral NPU 旨在支持超低功耗、始終在線的邊緣 AI 應用 , 尤其側重于環境感知系統 。 其主要目標是在可穿戴設備、手機和物聯網 (IoT) 設備上實現全天候的 AI 體驗 , 同時最大限度地減少電池消耗 。
潛在用例包括:
情境感知:檢測用戶活動(如步行、跑步)、距離或環境(如室內 / 室外、移動中) , 以啟用「免打擾」模式或其他情境感知功能 。 音頻處理:語音和聲音檢測、關鍵詞識別、實時翻譯、轉錄以及基于音頻的無障礙功能 。 圖像處理:人物和物體檢測、面部識別、手勢識別以及低功耗視覺搜索 。 用戶交互: 通過手勢、音頻提示或其他傳感器驅動的輸入進行設備控制 。硬件強制的隱私保護
Coral NPU 的一個核心原則是通過硬件強制的安全性來建立用戶信任 。
谷歌表示:「我們的架構正在被設計用來支持 CHERI 等新興技術 , 該技術提供細粒度的內存級安全和可擴展的軟件分區 。 我們希望通過這種方法 , 將敏感的 AI 模型和個人數據隔離在硬件強制的沙箱中 , 以抵御基于內存的攻擊 。 」
構建生態系統
開源硬件項目的成功依賴于強大的合作伙伴關系 。
為此 , 谷歌宣布了與 Synaptics 的合作關系 , 這也是其「第一個戰略芯片合作伙伴」 , 同時也是物聯網領域嵌入式計算、無線連接和多模態傳感的領導者 。
今天 , Synaptics 在其技術日活動上宣布了其新的 Astra SL2610 系列 AI 原生物聯網處理器 。 該產品線采用了他們的 Torq NPU 子系統 , 這是業界首個 Coral NPU 架構的量產實現 。 該 NPU 的設計支持 Transformer 并支持動態算子 , 使開發者能夠為消費和工業物聯網構建面向未來的邊緣 AI 系統 。
Astra SL2610 , 來自 X 用戶 @TekStrategist
結語
谷歌表示 Coral NPU 有望「解決邊緣計算的核心危機」:「借助 Coral NPU , 我們正在為個人 AI 的未來構建一個基礎層 。 我們的目標是通過提供一個通用的、開源的、安全的平臺供業界在此基礎上發展 , 從而催生出一個充滿活力的生態系統 。 」
對此 , 你怎么看?有興趣嘗試基于這個平臺進行開發嗎?
參考鏈接
https://x.com/GoogleResearch/status/1978449643437539378
【谷歌開源全棧平臺Coral NPU,能讓大模型在手表上全天候運行】https://research.google/blog/coral-npu-a-full-stack-platform-for-edge-ai
推薦閱讀
- 大的來了:谷歌Gemini 3.0 Pro單次生成網頁版操作系統
- iPhone Air躺贏,谷歌Pixel 10 Pro Fold暴力測試中著火
- 僅4B!阿里千問最強視覺模型新開源,網友:我的16GB Mac有救了
- 開源鴻蒙再次發力:6.1與8.1版本均被確認,華為鴻蒙更穩定
- 選AI還是ROOT,谷歌也玩起了“二選一”
- 螞蟻萬億參數思考模型Ring-1發布即開源 綜合能力逼近GPT-5
- 100美元、8000行代碼手搓ChatGPT,Karpathy最新開源項目爆火
- 螞蟻集團開源業內首個高性能擴散語言模型推理框架dInfer
- 「微調已死」再添籌碼,谷歌擴展AI自我進化范式,成敗雙向學習
- 谷歌Gemini 3.0「全家桶」年度壓軸,前端不再需要人類,下周王者降臨
