
隨著新型處理器能耗創下歷史新高 , 數據中心的 \"熱度\" 持續攀升 。 散熱是應對處理器產熱的主要手段 , 但面對傳統處理器架構 , 這種方式終將難以為繼 。 或許 , 我們需要全新的架構方案 。
如今 , 優化現有成熟架構以提升能效仍有空間 , 但能實現大幅革新的方向已越來越少 。 因此 , 業界開始探索新的架構思路 , 部分方案已逐步走向商用 。 有些新架構與現有方案差異顯著 , 甚至嘗試在電路內部實現能量回收 。
【新處理器架構探索】但處理器并非孤立存在 , 它依賴龐大的生態系統—— 包括操作系統支持、編碼、編譯、測試及調試工具等 。 那么 , 什么樣的架構變革能足以推動大規模基礎設施升級?
通用計算時代已落幕?
嵌入式處理器長期以來都針對特定應用場景優化 。 \"過去 , 人們會直接選用現成的 DSP(數字信號處理器)和 CPU , 卻為此付出了功耗的代價 。 \" Cadence 公司 Tensilica 音頻 / 語音 DSP 產品營銷總監普拉卡什?馬達瓦帕蒂表示 。
數據中心和個人電腦一直采用通用處理器 , 因為它們需要應對極其多樣的工作負載 。 但為通用性做出的權衡 , 可能已成為降低功耗的巨大障礙—— 即便在數據中心領域也是如此 。
\"片上系統(SoC)的發展歷程 , 本質上是一個不斷走向專業化的過程 。 \"Quadric 公司首席營銷官史蒂夫?羅迪指出 , \"SoC 時代起步時 , 這類芯片上只有一個可編程處理器 ——CPU 。 多年來 , 每一類新的處理器核心都是 ' 加法式 ' 出現的:在 CPU(或多個 CPU)之外 , 新增一種處理器類型 。 每一類新處理器的誕生 , 都是為了應對特定計算需求的增長 —— 這些需求圍繞特定數據類型和計算強度展開 , 而 CPU 并不擅長處理這類任務 。 \"
羅迪提到 , 有些計算任務 CPU 處理起來效率極高 , 而另一些任務則更適合 GPU 。 \"CPU 的設計初衷是處理 C 語言中的指針操作 , \" 他說 , \"無論如何通過定制化提升性能 , 它們在繪制多邊形這類高度重復的任務上都效率低下 。 \"
支持更多 AI 圖算子指令的第二代 NPU 已迅速取代第一代產品 , 但 \"帶輔助加速器的 CPU 本質上仍是 ' 拄著輪滑拐杖追指針 ' 。 \" 他繼續說道 , \"2025 年 , 我們看到片上系統設計中出現了完全支持 C++ 編程的神經處理單元(NPU) , 它們能將 AI 工作負載從傳統 CPU 上徹底轉移到為特定任務量身定制的處理器上 。 \"
優化這類架構需要深入的工作負載分析 。 \"運行代表最終用例的工作負載時 , 必須確保指令選擇與應用場景相匹配 , \" 馬達瓦帕蒂表示 , \"要在每條指令帶來的面積增加、性能提升與能耗之間找到平衡 。 增加面積不僅會略微提高動態功耗 , 還會增加靜態功耗 —— 因為靜態功耗與面積成正比 。 \"
這種趨勢也正在數據中心上演 。 未來不再是單一通用架構貫穿始終 , 而是針對不同工作負載調用不同的處理器組合 。 AI 領域已出現這種情況 , 未來可能進一步擴展 —— 根據工作負載需求分配服務器 。
數據流處理器:一種替代方案
解決這一問題的思路之一 , 是研究數據在處理器中的流動方式 。 例如 , 高效計算機公司(Efficient Computer)聲稱其數據流架構能大幅降低通用計算的功耗 。 \"與市場上其他嵌入式計算產品相比 , 我們的能耗降低了 10 到 100 倍 。 \" 該公司首席執行官兼聯合創始人布蘭登?露西亞表示 。
Efficient 的架構采用了一系列計算單元陣列 , 這些單元無需指令獲取 , 無需像標準處理器在指令變化時必須執行的那種逐周期配置 , 也無需間接數據移動 。 相反 , 編譯器會靜態地將指令分配給特定的單元 。 加載后 , 這些指令會一直保留在該單元中 。
圖 1:Efficient 的數據流處理器(上)與傳統處理器(下)對比 。 傳統處理器中的大部分模塊在高效計算機的架構中被移除 , 主計算單元中的一些標準組件也不復存在 。
片上網絡(NoC)用于連接各個模塊 , 但與典型的片上網絡不同 , 這個網絡采用電路交換(類似老式電話系統) , 而非分組交換 。 一旦網絡配置完成 , 在連接保持打開的狀態下 , 數據便會持續流動 。
高能效片上網絡允許其中一個模塊與其他任何模塊進行通信 。 “在配置階段 , 你設置一個模塊來執行一條指令 , 然后設置模塊之間的路由 , 這樣當一個操作在某個模塊上運行時 , 其產生的輸出就能直接被路由到下游指令的輸入端口 , ” 露西亞說道 。
這個概念本身并不復雜 , 也并非全新 。 深度嵌入式代碼的工作負載有限 , 且功能固定 。 但要讓它具備更強的通用性 , 還需要一些增強設計 。
動態重新加載
或許有人會認為 , 這種架構只能運行能完全放入陣列的程序 。 其首款產品配置為 12×12 的Tiles 陣列 , 數量并不多 。 該公司正在研發更大規模的設備 , Tiles 數量可以擴展 , 但同時也需擴展內存和 I/O 子系統 , 這需要更多工作 。 因此 , 至少目前來看 , 它還不是大規模的核心陣列 。
為避免程序大小受限 , 該公司加入了重新配置功能 , 可實時替換新代碼 。 \"這類似于 ' 延續傳遞 '(continuation passing) , \" 露西亞解釋道 , \"我們采用流水線式重新配置 —— 當第一個延續即將結束時 , 第二個延續已在架構上完成配置 , 只要前一個延續的輸出可用 , 就能立即開始運行 。 \" 他們采用 \"分布式完成\" 算法來決定何時重新配置 。
重新配置是局部的—— 任何已完成任務的Tiles 都能被重新配置 。 但在沒有 \"完成\" 信號的情況下 , 無法進行任意局部重新配置 。
執行本質上是異步的—— Tiles 在輸入就緒時(基于 \"就緒 / 有效\" 協議)開始計算 , 無需顯式調度 。
\"這種簡單協議讓我們能高效實現從一個Tiles 到其他任意Tiles 的單播、多播和廣播通信 , 無需同步機制或集中式數據結構 。 \" 露西亞解釋道 , \"將同步責任分配到各個Tiles 之間 , 能顯著簡化設計 。 \"
通用計算的另一大要求是支持條件執行 , 這意味著需要分支操作 , 同時也會影響循環—— 循環需根據迭代限制判斷何時結束 。 解決這一問題的簡單方法是將所有操作轉換為導向操作:根據輸入信號(決策器) , 輸出會進入其中一條路徑 。
但為如此基礎的操作占用一整個Tiles 會很低效 。 事實上 , 每個Tiles 都能融合指令 , 因此條件判斷可與其他指令融合 。 \"在一個Tiles 上 , 可能有 3 到 5 個操作編碼在Tiles 配置中 , 它們是融合在一起的 。 \" 露西亞解釋道 。
與傳統核心中的功能單元類似 , 不同Tiles 具備不同能力 。 \"有些Tiles 能執行乘法等操作 , 有些支持 32 位浮點運算 , 另一些則不能 。 \" 露西亞說 。 芯片開發過程中的代碼分析會決定哪些Tiles 承載哪些指令 。 可融合的指令數量取決于Tiles 本身 , 以及融合指令占用資源后剩余的資源量 。
只要編譯器能檢測到并行性 , 這種架構就能充分利用并行計算 。 該公司表示 , 無需特殊編程技術 , 標準代碼即可運行 。 \"與加速器不同 , 即便面對非常復雜的代碼 , 我們也能實現通用計算 。 \" 露西亞說 , 他們甚至成功運行了早期版本的《毀滅戰士》程序 。
能量回收
維爾計算公司(Vaire Computing)提出了一種更具革命性的處理方式 , 其理念基于熱力學 。 \"在 CMOS 電路中 , 我們通過電路節點的電壓電平表示比特 , 這些電壓會關聯一定的信號能量 。 \" 維爾計算公司的資深科學家邁克?弗蘭克解釋道 , \"當我們切換到新的電壓電平時 , 用于編碼比特的全部信號能量都會被消耗掉 。 這是因為傳統的開關方式是將電路節點連接到恒定電壓源 。 任何時候丟棄數字信息 , 都必須消耗掉用于表示該信息的能量 。 丟棄信息的過程 , 本質上是將其轉化為熵 , 而與信息關聯的能量則轉化為熱量 。 \"
維爾公司開發了所謂的 \"可逆計算\" 技術:完成操作后 , 可通過 \"逆轉\" 該操作回收大部分所用能量 。 \"在可逆計算中 , 我們盡量避免丟棄信息 , \" 弗蘭克說 , \"相反 , 我們通過可逆方式轉換信息 , 確保沒有信息真正丟失 。 這讓我們能回收用于表示這些比特的能量 。 \"
這種芯片采用諧振電源 , 引入了模擬元素 。 每個計算節點都類似一個 LC 振蕩回路 , 從中獲取能量 , 之后再返還大部分能量 。 電感器集成在芯片上 。 該公司表示 , 損耗可降至極低水平 , 且通常與泄漏電流和諧振器的品質因數(Q 值)相關 。
\"這是交流電源而非直流電源 , \" 弗蘭克說 , \"能量并非從電源流向電路再轉化為熱量 , 而是先將能量輸入電路以改變其狀態 , 之后再從電路中回收能量以再次改變狀態 。 \"
整體架構仍是數字式的 , 但轉換速率被控制在較低水平 , 以實現絕熱(即無熱量增減)開關 。 \"它本質上仍是數字計算范式 , 具備數字技術的可靠性 。 \" 弗蘭克說 。
雖然理論上可完全逆轉一組指令以恢復中間狀態 , 但這并非該公司的目標 。 他們希望支持標準編程技術 , 無需涉及逆轉操作 。 不過 , 或許可通過利用這一特性進一步優化程序 。
更低時鐘頻率 , 更高并行性
其時鐘頻率不會像當今典型 CPU 那樣高 , 而更接近 GPU 的時鐘頻率 。 \"GPU 的時鐘速度低得多 , 因此我們與 GPU 的差距并不大 。 \" 維爾計算公司首席執行官魯道夫?羅西尼表示 。
部分原因是能量回收需要時間 , 這會增加時鐘周期 , 因此所有操作都需在一個周期內完成 。 \"在一個時鐘周期內 , 電路的部分組件正向運行 , 部分反向運行 , 對操作進行 ' 反計算 ' 。 \" 弗蘭克說 。 這種開銷會使時鐘速度降低約 50% 。
\"這種技術在超高并行場景下表現極佳 , 而幸運的是 , 如今的大型語言模型正符合這一特點 。 \" 弗蘭克說 。 這有助于彌補部分性能損失 。 通過降低時鐘頻率并增加并行計算量 , 或許能進一步節省功耗 。
關于這一主題的研究已有不少 , 其中很多較為深奧 , 涉及所謂的 \"托弗利門\"(Toffoli gates)和 \"輔助比特\"(ancilla bits) 。 維爾公司似乎是首家嘗試商業化的企業 , 這意味著要將這些抽象概念轉化為實用、易用且經濟的產品 , 包括摒棄在經濟上低效的 literal 托弗利門等設計 。
\"有一些規則必須遵守 , 比如晶體管兩端有電壓時不能導通 , 有電流通過時不能關斷 。 \" 弗蘭克說 , \"事實證明 , 只要遵守這些規則 , 電路就能實現邏輯可逆且高效 。 關鍵在于精心安排電路中的轉換時序 , 并設計合適的電路拓撲 , 使驅動時鐘信號能控制電路完成一系列特定轉換 。 只要步驟正確 , 一切都能實現可逆且完全絕熱 。 \"
不過 , 維爾公司的產品距離商用還有幾年時間 , 因此其架構和電路細節尚未公布 。
新架構能否成功?
盡管半導體行業為世界帶來了無數革命性變革 , 但對全新理念仍持謹慎態度 。 業界更傾向于漸進式變革 , 因此優化現有架構始終是首選 。 只有當問題足夠嚴峻且解決方案足夠有說服力時 , 才會推動重大變革 。
處理器需要大量工具支持 , 其中許多來自第三方 。 因此 , 盡管軟件一直是新型 AI 架構的短板 , 但對于新處理器架構而言 , 要獲得主流商用認可 , 完善的軟件支持是必不可少的 。
\"我們發現 , 新架構面臨的一大問題是需要大量配套軟件 , 這會大幅增加成本 。 \" 弗勞恩霍夫研究所自適應系統工程部門高級系統集成組組長兼高效電子部門主管安迪?海尼希表示 , \"一個優秀的硬件方案可能只占所需全部資源的 20% 到 30% 。 初創企業往往忽視軟件部分 , 在我們看來 , 這樣的企業在市場上毫無機會 。 \"
如果高效計算機公司、維爾計算公司等企業能自主開發所需工具 , 并與生態系統合作確保支持—— 尤其是讓軟件開發人員無需理解底層架構就能編程 —— 它們就有機會成功 。 這兩家公司都在努力讓其芯片支持標準編碼技術 。
歸根結底 , 這是一個經濟問題 。 \"如果數據中心的能耗壓力足夠大 , 那么新架構就會應運而生 , 因為此時采用新架構在經濟上是合理的 。 \" 海尼希說 。
但成功取決于多個因素 。 \"針對特定應用場景、旨在提升性能、降低成本和功耗的專用系統架構層出不窮 。 \"Rambus 公司研究員兼杰出發明家史蒂文?吳表示 , \"有些子系統(如 CPU 和 GPU)可用于快速開發差異化架構 。 但對于內存等關鍵子系統 , 由于開發成本高昂 , 核心挑戰是找到足夠支撐新架構的市場規模 。 市場必須足夠大且能提供良好回報 , 這往往會陷入 ' 先有雞還是先有蛋 ' 的困境:要用關鍵技術開拓新市場 , 但實現這一目標所需的技術尚未落地 。 \"
從純技術角度看 , 大幅節省能耗是可能的 。 但目前尚不清楚如何實際實現這一點 , 也不確定處理器設計者是否只能滿足于更溫和的方案—— 這些方案雖能幫助降低功耗 , 但效果不夠顯著 。
原文:
https://semiengineering.com/will-new-processor-architectures-raise-energy-efficiency
推薦閱讀
- A19 Pro+12GB!新 iPhone 配置升級了,但也縮水了
- 蘋果 HomePod mini 2 即將發布,新設計首次曝光
- 真我GT8兩款新機同期發布,10月見!
- 華為新機官宣:8月15日,正式發布
- 真我新機官宣:8月20日,正式發布
- 智能體認知體系“躍遷”,定義AI推理新范式
- 華為新品官宣:8月15日,全新登場
- 榮耀新機入網:驍龍8 Elite 2,配置已曝光
- 小米新品官宣:8月20日,正式開售
- AI新勢力,開始拼起云實力
