AI硬件卡殼,出路在哪?

AI硬件卡殼,出路在哪?

可編程芯片能否拯救 “短命” 的 AI 硬件?
盡管如今人工智能的能力在不斷突飛猛進 , 但為其提供支持的硬件卻難以跟上步伐 。 通用CPU能夠“優雅地老去” , 長期保持兼容性 , 而人工智能芯片卻往往和它們所運行的模型一樣 , 迅速過時 。 這種快速演進的算法與固定功能芯片之間的脫節 , 正逐漸成為一個嚴重的瓶頸 。
那么 , 是什么讓人工智能硬件如此缺乏靈活性?像imec這樣的公司是如何解決這個問題的?可編程芯片能否成為打造更具未來適應性的人工智能基礎設施的關鍵?
人工智能硬件的挑戰及其固定性本質電子世界從未停滯不前 。 從真空管到如今尖端的半導體 , 這是一場永不停歇的進步之旅 , 坦率地說 , 也是一場輝煌的征程 。 微控制器已成為現代嵌入式系統的支柱 , 微處理器是從智能手機到服務器等一切設備的核心 , 而圖形處理器(GPU)曾經只是游戲玩家和3D設計師的專屬 , 如今卻被廣泛應用于從圖像處理到深度學習的幾乎所有領域 。 我們在每一代產品中 , 都能將更強大的性能融入更小、更便宜的設備中 。
但問題在于:這種進步有其時效性 , 在人工智能領域尤其如此 。
為何傳統CPU能“優雅老去” , 而人工智能硬件卻不能一款10年前的CPU , 以如今的標準來看可能速度較慢 , 但它本質上仍然是一款CPU 。 它運行相同的邏輯 , 遵循相同的指令集 , 能兼容任何基于標準架構編寫的軟件 。 你可以通過升級提升其性能 , 但它不會在一夜之間就功能過時 。
然而 , 人工智能硬件則完全是另一回事 。 機器學習和神經網絡的算法進步速度驚人 。 我們不僅在改進舊技術 , 還每隔幾個月就會發明全新的架構 , 從Transformer模型到擴散網絡皆是如此 。 每一種新架構都需要不同的計算模式、內存布局和優化策略 。
因此 , 當你為人工智能打造專用硬件時——無論是張量處理單元、人工智能優化的GPU , 還是某種專有ASIC——實際上都把自己鎖定在了當前的技術路線上 。 而在這個每個會議季都會迎來革新的領域 , 這種做法風險極高 。 一個殘酷的事實是:你的全新芯片可能在數據手冊上的墨跡未干之時 , 就已經過時了 。
固定功能人工智能芯片與可重構替代方案的對比這與現場可編程門陣列(FPGA)等可重構硬件形成了鮮明對比 。 這類芯片真的能實時改變自身邏輯 。 如果出現一種需要不同流水線或架構的新人工智能范式 , 你只需重新編程FPGA就能繼續使用 。 這就像是在不觸碰物理硬件的情況下完成了硬件升級 。 對于前沿人工智能領域而言 , 這種靈活性價值連城 。
遺憾的是 , 大多數大型人工智能數據中心都搭建在一排排GPU之上 。 這些GPU雖然擅長并行數學運算 , 但在適應新算法方面卻不夠靈活 。 隨著人工智能的不斷演進 , 那些昂貴的服務器集群漸漸不再像創新中心 , 反而更像是技術博物館的化石 。 你可能耗費大量電力和資金 , 運行的卻是已不符合最佳實踐的模型 。
這種僵化不僅是技術障礙 , 更是戰略隱患 。 它限制了研究范圍——開發者不得不讓模型去適配硬件能力 , 而非根據科學需求來設計模型 。 這完全本末倒置 , 就像為了適配道路而設計汽車 , 而非為汽車修建道路 。
imec聚焦可編程人工智能芯片 , CEO表態為解決半導體行業在人工智能硬件開發中面臨的挑戰 , imec正探索可編程人工智能芯片的研發 。 imec首席執行官Luc Van den Hove表示 , 行業需要轉向可重構芯片設計 , 以避免成為人工智能未來發展的瓶頸 。
Van den Hove解釋道 , 單純提升計算能力已不再可行 。 “增加更多GPU、數據和訓練時間……不足以應對一系列多樣化的工作負載 , ”他指出 。 相反 , 我們需要轉向更動態的計算架構 , 讓硬件能靈活適配同時運行的各種推理、感知和動作模型 。
為何僅靠可擴展計算無法滿足下一代人工智能需求在近期的一次采訪中 , Van den Hove強調了行業在人工智能硬件開發中面臨的挑戰 。 他指出 , 人工智能算法的快速進步已經超越了當前以開發定制化、側重原始算力的芯片為核心的策略 。 這導致在能耗、成本和硬件開發速度方面都出現了顯著問題 。
軟件速度與硬件就緒度之間的不匹配 , 造就了Van den Hove所說的“同步問題” 。 人工智能工作負載可能在一夜之間發生變化(例如深度求索的模型創新) , 而新芯片設計卻需要數年時間才能完成 。 這種硬件適應滯后的問題 , 加劇了成本和環境方面的擔憂——尤其是在能耗持續攀升的情況下 。
Van den Hove還對人工智能硬件行業的“擱淺資產”風險表示擔憂 。 他指出 , 當人工智能硬件準備就緒時 , 快速發展的軟件領域可能已經轉向了其他方向 。 對于那些在定制芯片開發上投入巨資的公司(如OpenAI)而言 , 這種風險尤其突出 。
定制人工智能芯片開發中的擱淺資產問題在這個高速發展的人工智能領域 , 擱淺資產的風險尤為嚴峻 。 盡管像OpenAI這樣的科技巨頭正通過臺積電等合作伙伴開發定制芯片 , 但Van den Hove認為 , 對許多企業而言 , 這條道路并不可行——考慮到其成本、風險以及芯片出廠時可能已過時的潛在問題 。
作為半導體突破的先驅 , imec一直走在新技術開發的前沿 , 其技術被臺積電、英特爾等芯片制造商廣泛采用 。 該公司目前正探索能適應不斷變化的人工智能算法需求的可重構芯片架構 。 根據Van den Hove的設想 , 未來的芯片將把所有必要功能整合為名為“超級單元”(supercells)的模塊化結構 。 然后 , 片上網絡將引導和重構這些模塊 , 以滿足最新算法的需求 。
這些超級單元由垂直堆疊的半導體組成 , 內存和邏輯在物理上緊密相鄰 , 從而減少延遲和能量損耗 。 imec表示 , 這種配置能將數據傳輸距離從厘米級縮短至納米級 , 最多可節省80%的能量——在人工智能工作負載能耗日益高昂的背景下 , 這一優勢極具吸引力 。
超級單元與3D堆疊:imec的高能效人工智能硬件愿景為實現這一目標 , imec正致力于真正的三維堆疊技術——一種將邏輯層和內存層硅片鍵合在一起的制造工藝 。 這家總部位于比利時的機構為3D堆疊技術的進步和完善做出了關鍵貢獻 , 該技術將應用于臺積電的A14和英特爾的18A-PT節點 。
該項目旨在彌合實驗室研究與芯片制造之間的差距 , 通過培育一個更敏捷、垂直整合的生態系統 , 連接人工智能初創企業、設計公司和代工廠 。
靈活的人工智能硬件是答案 , 還是空想?【AI硬件卡殼,出路在哪?】理論上 , 為人工智能工作負載設計可重構硬件的想法極具吸引力 。 其承諾的適應性、未來兼容性和模型無關性都切中要害——尤其是在人工智能發展速度快到讓去年的芯片都顯得陳舊的當下 。 但理論再好 , 也要經得起實踐檢驗 。
首先要正視一個明顯的問題:人工智能工作負載不同于典型的數字邏輯 。 它們依賴大規模、細粒度的并行計算 。 這也是GPU能在人工智能領域占據主導地位的原因——其成千上萬的核心和為并行操作優化的內存結構獨具優勢 。 相比之下 , FPGA雖然在靈活性上堪稱奇跡 , 但在擴展至神經網絡級計算時卻會遇到瓶頸 。
即便你嘗試將多個FPGA封裝拼接起來以匹配GPU的規模 , 也會面臨嚴重的延遲問題 。 數據不會在芯片之間憑空傳輸 。 封裝內帶寬至關重要 , 而一旦超出緊密耦合的芯片邊界 , 延遲就會急劇增加 。 這使得實時推理或高速訓練變得異常困難 。
其次是密度和效率問題 。 FPGA的緊湊性向來不佳 。 一個能在定制ASIC中緊湊實現的功能 , 在FPGA上可能需要占用多得多的硅片面積 。 這意味著需要更多電路板空間、產生更多熱量、消耗更多電力——而數據中心在這些方面早已捉襟見肘 。 因此 , 用可重構邏輯構建人工智能加速器雖可行 , 但會在功耗和功率效率方面付出高昂代價 。
況且 , 數據中心不是博物館 , 它們的存在是為了實現最大吞吐量和投資回報 。 如果你試圖以未來適應性為理由 , 說服別人用一整機架的靈活人工智能芯片替換經過實戰檢驗的GPU , 那必須拿出極具說服力的性能路線圖 。 否則 , 任何有頭腦的CTO都不會同意這種替換——畢竟GPU能適配下一個模型 , 而新方案可能只是“或許”能做到 。
人工智能芯片設計中性能與靈活性的平衡現實來看 , 我們可能會看到一種混合方案 。 未來的人工智能芯片或許會在以固定功能為主的架構中 , 嵌入有限的可重構組件 。 這是一種明智的折中:讓大部分硅片針對當前最苛刻的任務進行優化 , 同時保留部分邏輯以應對算法靈活性需求 。 這種方案雖不像全可編程核心那樣花哨 , 但更有可能實現規模化生產并投入實際使用 。
那么 , 靈活的人工智能硬件會成為游戲規則改變者嗎?在特定場景下可能會 。 例如 , 對于工作負載不斷演進的邊緣設備 , 或者用于新架構的學術研究 , 它都能發揮作用 。 但對于訓練數十億參數模型或大規模運行實時推理的核心領域 , 可重構芯片在短期內還無法取代GPU 。
歸根結底 , 靈活性固然重要 , 但性能才是硬道理 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀