推理專用芯片,火了

推理專用芯片,火了

文章圖片




在AI技術從實驗室走向規?;涞氐倪M程中 , 推理(Inference)環節正成為決定體驗與成本的核心競爭——專門為推理優化的芯片 , 已然成為科技行業的新風口 。 要理解這股熱潮 , 首先要厘清AI工作流中訓練與推理的本質差異 。
在AI工作流中 , 訓練(Training)與推理(Inference)承擔著截然不同的角色 。 訓練階段通過大量帶標簽數據迭代優化模型權重 , 使模型能夠學習復雜模式;而推理階段則使用已訓練好的模型對新輸入進行預測 。 從性能需求來看 , 訓練如同馬拉松 , 追求整體吞吐量與模型精度的持續提升;推理則如同百米沖刺 , 核心目標是降低單次預測延遲 , 實現實時響應 。

訓練階段需要強大的通用計算平臺 , 通常需要調動成千上萬張頂級GPU , 通過海量數據(如全互聯網文本、圖片)進行長時間(數月甚至數年)的計算 , 耗資巨大 。 訓練對算力的絕對性能要求極高 , 芯片需要具備強大的計算能力和全面的計算能力 , 能夠處理各種復雜的計算任務 。 目前 , 英偉達的GPU配合CUDA軟件生態幾乎處于壟斷地位 , 難以被其他廠商撼動 。
然而 , 在推理階段 , 尤其是大語言模型(LLM)的實時交互場景中 , 情況發生了根本性轉變 。 LLM的推理過程具有\"自回歸\"特性 , 即生成第N+1個詞必須依賴上一輪第N個詞的結果 。 這種順序性導致GPU強大的并行計算能力在大多數時間處于\"等待\"狀態 , 無法充分發揮其優勢 。
更為重要的是 , 隨著AI應用的廣泛落地 , 推理成本在AI總成本中的比重日益增加 , 已成為AI企業最大的單項支出 。 這促使業界開始探索專門的推理芯片解決方案 。
01為何推理芯片成為剛需?專門的推理芯片是AI發展到規?;瘧秒A段的必然產物 。 其主要有以下優勢:
第一是性能精準優化 。 推理任務的核心是高效執行預訓練模型的前向計算 , 如矩陣乘法、卷積運算等 。 專門的推理芯片(如NPU、TPU)針對這些運算進行硬件級優化 , 能大幅提高計算效率 , 相比通用CPU或GPU , 可實現更高的吞吐量和更低的延遲 。 例如 , 推理芯片可通過定制化的乘加單元(MAC)和并行計算架構 , 加速神經網絡的推理過程 , 滿足自動駕駛、智能語音交互等實時性要求高的場景 。
第二是能效比優勢 , 推理場景對功耗敏感 , 尤其是邊緣設備和終端應用(如智能手機、可穿戴設備) 。 專門的推理芯片通過低精度計算(如INT8、INT4)和硬件級優化 , 能在保證精度的前提下顯著降低功耗 , 延長設備續航時間 。 相比之下 , 通用芯片在低功耗模式下性能受限 , 難以兼顧性能與能效 。
第三是成本效益顯著 。 推理芯片的規模化生產可降低單位成本 , 尤其在大規模部署場景(如數據中心、邊緣計算節點)中 , 其性價比優勢明顯 。 與通用芯片相比 , 推理芯片無需支持復雜的訓練任務 , 可簡化硬件設計 , 減少芯片面積和制造成本 , 更適合高并發、低成本的推理需求 。
第四是場景適配性靈活 。 不同應用場景對推理芯片的需求差異顯著 。 例如 , 云端推理需處理高并發請求 , 要求高吞吐量和可擴展性;邊緣設備則需緊湊設計、低功耗和實時響應 。 專門的推理芯片可通過靈活的架構設計(如存算一體、Chiplet技術)滿足多樣化場景需求 , 而通用芯片難以在所有場景中兼顧性能、功耗和成本 。
最后 , 專用推理芯片能加速AI全民普及 。 推理芯片降低了AI應用的部署門檻 , 標準化的接口與工具鏈簡化了開發流程 , 讓更多企業與開發者能夠輕松落地預訓練模型 , 推動AI技術在各行業的滲透 , 助力AI生態持續繁榮 。
可以說 , 推理芯片是AI從技術概念走向實際應用的關鍵支撐 , 通過性能、能效、成本與場景適配性的綜合優化 , 成為AI規?;l展的核心引擎 。
02推理芯片賽道:百花齊放 , 群雄逐鹿隨著需求爆發 , 推理芯片賽道呈現出多元化競爭格局 , 一批創新產品憑借獨特技術優勢脫穎而出 。
首先是LPU , 全稱 Language Processing Unitix , 是一種專門為語言處理任務設計的硬件處理器 。 它與我們熟知的 GPU(Graphics Processing Unit , 圖形處理器)有著本質的區別 。 GPU 最初是為處理圖形渲染任務而設計的 , 在并行計算方面表現出色 , 因此后來被廣泛應用于人工智能領域的模型訓練和推理 。 然而 , LPU 則是專門針對語言處理任務進行優化的 , 旨在更高效地處理文本數據 , 執行諸如自然語言理解、文本生成等任務 。 LPU由前Google TPU團隊創立 , 專為大語言模型(LLM)推理設計 , 采用SRAM-only架構 , 無外部存儲延遲 , 單芯片集成230MB SRAM , 帶寬高達80TB/s , 延遲穩定 , 適合流式生成和交互式應用 。
另一家公司SambaNova SN40L則跳出了傳統GPU并行計算框架 , 自研可重構數據流單元(RDU)架構 , 創造性地將神經網絡圖直接映射到硬件執行 。 通過將多步推理計算壓縮為單一操作 , 大幅減少數據在內存與計算單元間的往返傳輸——這正是AI推理中功耗與延遲的核心痛點 。 其第四代RDU產品SN40L , 宣稱推理性能達到英偉達H100的3.1倍 , 訓練性能達到H100的2倍 , 而總體擁有成本(TCO)僅為H100的1/10 。
此外 , 2024年發布的第六代TPU v6(代號Trillium) , 也標志著谷歌將主戰場從訓練轉向推理 。 面對推理成本成為全球AI公司最大單項支出的行業現狀 , TPU v6從架構到指令集全面圍繞推理負載重構:FP8吞吐量暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優化、芯片間帶寬大幅提升 , 能效比相比上一代提升67% 。 谷歌直言 , 這一代TPU的目標是成為“推理時代最省錢的商業引擎” 。 2025年推出的第七代TPU(TPU v7 , 代號Ironwood)更是聚焦超大規模在線推理場景 , 成為TPU系列首款專用推理芯片 。 與此前側重訓練的v5p、側重能效的v6e不同 , Ironwood從第一天起就鎖定超大規模在線推理這一終極場景 , 并在多項關鍵指標上首次與英偉達Blackwell系列正面抗衡 , 成為全球AI基礎設施領域的焦點產品 。
03巨頭出手:英偉達200億“收編”推理黑馬面對推理賽道的激烈競爭 , 芯片巨頭英偉達祭出重磅大招 。
當地時間 12 月 24 日 , AI 芯片初創企業 Groq 宣布與英偉達達成非獨家推理技術許可協議 。 根據協議約定 , Groq 創始人喬納森?羅斯、總裁桑尼?馬達拉及核心技術團隊將正式加盟英偉達 , 攜手推動授權技術的迭代升級與規?;涞?。
值得注意的是 , Groq 將繼續保持獨立運營地位 , 西蒙?愛德華茲已接任公司首席執行官 , 旗下 Groq 云服務亦維持正常運轉 , 不受此次合作影響 。 英偉達首席執行官黃仁勛在內部郵件中指出 , 此項合作將顯著拓寬公司技術版圖 —— 英偉達計劃將 Groq 低延遲處理器整合至NVIDIA AI 工廠架構 , 進一步增強平臺對各類 AI 推理及實時工作負載的服務能力 。
這宗以非獨家技術許可為核心的交易 , 堪稱美國科技巨頭近年的“標準操作” 。 微軟、亞馬遜、谷歌等企業均曾通過類似模式 , 在不觸發全資收購的前提下 , 吸納頂尖 AI 人才、獲取關鍵技術壁壘 。 其核心邏輯在于 , 這種輕資產合作方式可有效規避當前美國嚴苛的反壟斷審查 。 盡管監管機構已開始關注此類交易 , 但迄今為止 , 尚無任何一筆同類合作被裁定撤銷 。
對于手握 606 億美元巨額現金儲備的英偉達而言 , 這無疑是一筆雙贏的戰略布局:既消解了潛在的市場競爭威脅 , 又進一步加固自身技術護城河 。 據悉 , 該交易涉及資金規模約 200 億美元 , 較 Groq 數月前融資時 69 億美元的估值溢價近三倍 。 這一數字 , 也標志著 Groq 作為獨立硬件挑戰者的征程暫告一段落 , 但其核心技術將在英偉達的生態體系中 , 獲得更廣闊的研發與應用平臺 。
對 Groq 而言 , 200 億美元的現金流不僅極大緩解了公司財務壓力 , 也為現有投資者創造了豐厚回報 。 盡管核心團隊并入英偉達體系 , 但 Groq 憑借新 CEO 的到任與獨立運營架構的保留 , 得以繼續深耕 Groq Cloud 云服務業務 。 更重要的是 , 依托英偉達的資源優勢 , Groq 的技術有望觸達更豐富的應用場景 , 加速商業化落地進程;同時 , 這種 “非全資收購” 的合作模式 , 既規避了品牌滅失的風險 , 更為企業未來發展預留了充分的自主空間 。
04英偉達的推理芯片野心 , 如何通過LPU技術降低推理成本顯然此次獲取到Groq的技術許可 , 將有利于降低英偉達未來推出的推理專用芯片的成本 。
通過此次合作 , NVIDIA 成功斬獲 Groq 核心知識產權 , 得以直接應用其 SRAM 架構技術 , 一舉繞開HBM 高帶寬內存與臺積電 CoWoS 先進封裝的雙重限制 。 不妨設想:依托這項技術 , NVIDIA 有望打造一款專攻 AI 快速推理的芯片產品 , 憑借極致的運算速度 , 再搭配 NVLink 互聯技術 , 實現多顆 LPU 芯片的無縫協同 , 釋放更強勁的算力效能 。
Groq LPU 芯片的核心優勢 , 在于將 AI 模型的核心權重數據 , 從傳統方案依賴的外置 HBM , 遷移至芯片內置的 SRAM 中 。 這一設計使得芯片無需頻繁與外部存儲交互調取數據 , 算力效率自然實現躍升 。 而且 , SRAM的讀寫速度可達HBM的10倍 。 HBM方案的弊端則十分突出:不僅需要依托臺積電的CoWoS封裝技術 , 還受制于存儲廠商的產能限制 , 早已成為制約AI芯片大規模量產的關鍵瓶頸 。
一旦跳過HBM與CoWoS , 直接采用SRAM架構 , 芯片的生產效率將迎來質的飛躍 。 更值得一提的是 , 若在電路板中集成NVIDIA的NVLink C2C(芯片間直連技術) , LPU芯片的擴展能力還將遠超當前水平 , 從而讓數據傳輸更迅捷、更穩定 。
如此一來 , NVIDIA既無需依賴美光、三星、SK海力士等廠商的HBM產品 , 徹底擺脫內存供應瓶頸;又能規避臺積電CoWoS封裝的產能掣肘 , 實現供應鏈的自主可控 。
此外 , 盡管Groq LPU芯片受限于內存容量 , 更適配輕量級AI模型 , 但在低延遲場景(如機器人實時控制、端側AI交互)中具備得天獨厚的優勢 。 而這恰好與NVIDIA GPU擅長處理大模型的能力形成互補——LPU化身“高效快手” , GPU擔當“算力基石” , 二者強強聯合 , 將進一步鞏固NVIDIA在AI領域的霸主地位 。
恰逢CoWoS封裝產能緊張、HBM成本居高不下的行業背景 , NVIDIA這套“SRAM+NVLink”的組合拳 , 堪稱破局關鍵 。 200億美元的合作對價看似不菲 , 但對于NVIDIA這樣的行業巨頭而言 , 無疑是一筆“花小錢辦大事”的劃算買賣 。 合作達成后 , Groq可保持獨立運營 , NVIDIA則收獲核心技術與頂尖人才 , 最終實現雙贏 。
對于普通消費者而言 , 這場技術革新的紅利同樣觸手可及:未來的AI推理將更快速、更經濟 , 聊天機器人的響應會變得毫秒級迅捷 , 服務機器人的動作也將愈發流暢自然 。 與此同時 , SRAM市場的熱度或將持續攀升 , 英特爾等相關產業鏈企業也有望從中分得一杯羹 , 推動整個行業生態的繁榮發展 。
【推理專用芯片,火了】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀