
#頭號創作者激勵計劃#
想象一下 , 2028年數據中心的電力消耗占美國總電力消耗的12% 。
AI數據中心的能源消耗速度大約是電網新增電量速度的四倍 , 這為發電方式、AI數據中心的建設地點以及更高效的系統、芯片和軟件架構的根本性轉變奠定了基礎 。
這些數字在美國和中國尤為驚人 , 兩國正在競相加速建設人工智能數據中心 。 美國能源部委托進行的一份2024年報告顯示 , 去年美國數據中心消耗了總發電量的約4.4% , 即約176太瓦時 。 到2028年 , 這一數字預計將增至325至580太瓦時 , 分別占美國總發電量的6.7%至12% 。
與此同時 , 預計中國明年的能源消耗量將達到400太瓦時 , 雖然這些數字看起來與美國相當 , 但國際能源署指出 , 中國公民的能源消耗遠低于美國同行 。 在全球范圍內 , 能源消耗量每年增長30% , 主要原因是人工智能 , 其中美國和中國約占這一增長的80% 。
西門子EDA硬件輔助驗證副總裁兼總經理Jean-Marie Brunet表示:“電力不再是玩笑 。 ”“想象一下 , 2028年數據中心的電力消耗占美國總電力消耗的12% 。 這太瘋狂了 。 我們必須重建整個電網 。 ”
其他人也同意 。 “發電將是一件大事 , ”英偉達首席執行官黃仁勛在最近與Cadence首席執行官Anirudh Devgan的討論中指出 。 “原因在于電網將不足以支撐這個行業的發展 。 我們希望在美國建設這個行業 , 如果你想這樣做 , 那么我們將看到大量的柴油發電機以及各種各樣的東西 。 ”
距離和降壓損耗與數據一樣 , 電力傳輸也存在成本 。 根據美國能源信息管理局的數據 , 平均5%的電力在輸配過程中損失 。 反直覺的是 , 運行數百英里的高壓線路(約2%)的損耗低于運行較短距離的低壓線路(約4%) 。 這些數字也受到電源的復合影響 , 因為不同的電源有不同的轉換率 。
Saras Micro Devices首席商務官Eelco Bergman表示:“理想情況下 , 你應盡可能保持高電壓 , 這意味著電流盡可能低 。 ”“損耗是電流的平方乘以電阻 。 所以你會一直損失功率 。 無論高壓線是什么 , 你都在不斷地降壓 。 進入數據中心可能是400伏 , 然后轉換為機架的48伏 , 最終降壓到12伏到負載點 。 但在每一步中 , 你都希望在數據中心旁邊發電以減少距離并盡可能保持高電壓 , 并將電壓帶到靠近你的終端點 。 ”
這里的權衡是電壓與電流 。 電流越高 , 熱量越大 。 而且沒有什么是100%高效的 , 所以當電力移動到離封裝更近的地方時 , 會產生一些熱量 。 反過來 , 這又會因為封裝內部發生的一切而加劇 , 包括數據處理、數據在內存之間的來回移動以及互連中的電阻/電容 。 除此之外 , AI數據中心需要處理更多數據 , 因此這些工作負載需要更高的利用率 , 這使得散熱量更難以跟上 。
Bergman說 , 因此 , 從高壓線到低壓線 , 再到PCB、封裝 , 最后到單個芯片 , 每一步都會有功率損耗 。 “如何縮短距離?我能把多少電壓盡可能地靠近?效率如何?我能散熱嗎?這些都是行業正在關注的問題 。 ”
芯片產業在這里扮演著重要角色 。 “由于現有的基礎設施 , 我們有太多的中間電壓水平 , 導致步驟過多 , ”弗勞恩霍夫IIS自適應系統工程部門高效電子部負責人Andy Heinig表示 。 “當然 , 我們可以在這里節省大量能源 。 我們還看到處理器和電源調節器需要協同工作 。 目前 , 電源調節器并不智能 。 它們只跟隨處理器發出的電流 。 但是處理器知道它們在下一個周期要做什么 , 它們可以通知電源轉換器即將發生巨大的跳躍或者某些東西被關閉 。 因此 , 在某些地方我們可以協同優化處理器和電壓調節器 , 減少中間電壓水平的數量將有所幫助 。 ”
移動數據另一個挑戰是構建系統 , 使數據更靠近源頭進行處理 。 這可以減少需要移動的數據量 。 但除此之外 , 數據必須傳輸的距離也需要縮短 。 這是3D-IC封裝背后的關鍵驅動因素之一 。 與在SoC中布線不同 , 組件可以垂直戰略性放置 , 以減少這些距離 。 這可以提高性能 , 并減少驅動信號所需的電量 。
Arteris產品管理與營銷副總裁Andy Nightingale表示:“目前我們客戶面臨的最大挑戰之一是設計中的布線長度 。 ”“多芯片是一個獨立的挑戰 , 但在每個單片芯片上 , 在進入多芯片之前 , 縮短布線長度對功耗至關重要 。 我們關注的一個方面是擁塞 。 我們的設計分析中也有熱力圖 , 用于查看擁塞情況 , 因為那是許多導線在交換機處匯合的關鍵點 。 我們也在平面圖內工作 , 可視化物理設計 , 這樣我們可以將交換機移出擁塞點 , 并且仍在平面圖內工作 , 以減少某個區域的散熱和功耗擁塞 。 ”
這也需要思維模式的轉變 , 因為在AI數據中心中 , 電力仍然次于性能 。 但如果沒有更多的電力可用 , 或者電價飆升 , 那么AI公司將別無選擇 , 只能認真對待電力問題 。
“如今 , AI設計的重點仍然是性能 , 這意味著雖然功耗非常非常重要 , 但它仍然是次要的考量 , 首要目標是從這些芯片中獲得最佳速度和性能 , ”Ansys產品營銷總監Marc Swinnen表示 。 “功耗/性能之間總是有權衡 , 這是根本性的 。 所以如果你真的想降低功耗 , 你就必須降低性能 。 遵循摩爾定律會有幫助 , 可以降低功耗 。 另一個問題是 , 大部分功耗都花在了GPU與不同元件之間的通信上 , 甚至數據中心的背板也是如此 。 英偉達推出了共封裝光網絡 , 正是為了降低機架內和機架之間的通信功耗 。 ”
解決這些問題需要整個芯片行業的變革 。 “它始于芯片 , 如果芯片非常耗電 , 而你想構建一個LLM , 那么你就必須訓練它 , ”西門子的Brunet說 。 “你通過添加多個功能和擴展來訓練它 。 但是如果你把這些東西加起來 , 從一個非常耗電的單一元件開始 , 那么整個系統就會變得極其耗電 。 你還有一個數字孿生體 , 你也需要巨大的電力來計算這個數字孿生體 。 但這不僅僅是EDA行業的問題 。 這是整個世界的問題 。 ”
高效處理好消息是 , 有一些顯而易見的唾手可得的成果 。 Movellus總裁兼首席執行官Mo Faisal表示:“僅僅因為缺乏可見性 , 就會額外消耗20%的電力 。 ”“例如 , 假設你設計了一個在2 GHz下功耗為500瓦的芯片 。 當你完成系統級測試并準備部署時 , 你會發現所有這些電力系統的構建目標都不同 。 所以現在 , 如果你想保持在500瓦以內 , 你需要將頻率降低10%到20% 。 這基本上是一種限制 。 而芯片組只會讓情況變得更糟 , 因為現在你面臨同樣的問題 , 但你要乘以你正在處理的芯片組數量 。 每個芯片組都可能有不同的工藝角 , 或者可能處于不同的工藝中 。 ”
這只是其中的一部分 。 “通過從芯片到系統再到數據中心安裝更多可見性 , 還可以額外獲得20%到30%的增益 , ”Faisal說 。 “這兩者是復合的 , 而不是非此即彼 。 原因是芯片設計師關注風險 。 ‘嘿 , 我不想芯片出故障 。 所以他們會通過冗余來過度預留 。 但在部署時 , 當你設計數據中心時 , 你并不是為最大工作負載而設計的 。 你是為峰值工作負載而設計的 。 原因在于工作負載和軟件的變化速度比芯片快得多 。 不可能用你在現場看到的所有工作負載組合來測試芯片 , 因為工作負載、模型和Transformer以及代理都在快速變化 。 所以你必須將其計入利潤 。 數據中心容量比你在最大負載下看到的超額配置了30% 。 ”
理解半導體將如何使用對這個等式也至關重要 。 僅僅增加冗余和為最壞情況下的邊緣情況進行保護性設計 , 會增加驅動信號通過額外電路所需的功率以及由于導線中的電阻/電容而需要散發的熱量 。
摩爾定律也在這里發揮作用 。 雖然每個新工藝節點處理器性能的提升正在減弱 , 但功耗的提升預計將是巨大的——高達30% , 具體取決于工藝和晶圓廠 。 與任何新工藝一樣 , 這些數字會因架構和工作負載而異 。
冷卻經驗法則是 , 數據中心要為電力支付兩次費用 。 第一次是為服務器機架和存儲供電 。 第二次是為它們降溫 , 以防止過熱 , 這正成為一個更大的問題 , 因為動態電流密度隨著AI服務器利用率的提高而增加 。 訓練大型(甚至小型)語言模型需要更多的處理能力 , 為生成式和代理式AI搜索供電也需要更多的處理能力 。 這反過來又會增加各種計算元素的利用率 , 使它們在更長時間內全速運行 。
Saras的Bergman說:“冷卻的電力開銷約為30%到40% , 如果只采用液冷而不使用冷水機組 , 可以將其減半 。 ”“但如果加上冷水機組 , 功耗又會上升 。 這里需要玩一個優化游戲 。 ”
這個等式中的轉折點是水的可用性 。 在封閉系統中運行水需要冷卻 。 使用當地供水則不需要 。 但根據環境與能源研究學會的數據 , 一個大型數據中心每天可消耗多達500萬加侖的水 , 這大約是一個擁有1萬到5萬人口的城鎮的用水量 。
兩種替代方案是單個芯片的直接冷卻和浸沒式冷卻 。 直接冷卻可能涉及微流體通道 , 這是IBM在1980年代首次提出的想法 , 后來因難度太大而放棄 。 但隨著熱密度的增加 , 芯片制造商可能別無選擇 , 只能采用某種微流體技術 。 盡管如此 , 實施這種方法會增加結構和制造方面的挑戰 。 這個想法是很好理解的 , 因為水冷技術已經使用了半個多世紀 。 但在封裝或芯片內部 , 更靠近晶體管的地方實施它 , 仍然是一個挑戰 。
英特爾高級首席工程師兼公司熱核心能力組負責人Rajiv Mongia解釋說:“如果你正在研究一種冷卻技術 , 就會涉及熱傳遞效率 , 這通常從熱阻角度來看待 , 以及從一般意義上的結到流體溫度 。 ”“但如果你從熱力學角度來看 , 它就不是結到流體入口溫度 , 而是結到流體出口溫度 。 基本上 , 你讓流體離開封裝或封裝區域時的溫度越高 , 下游的一切從熱傳遞角度來看就越容易管理 。 這會影響你的冷卻廠、冷水機組等等的總效率 。 ”
這是堆疊芯片的一個關鍵考慮因素 。 Mongia說:“當我們談到3D-IC時 , 你可能需要在結構內部引入流體 , 比如芯片背面的硅微通道 。 ”“這是一種效益與復雜性之比 。 你可以用這種類型的板子放在背面來冷卻 。 但是一旦3D堆棧中有足夠多的體積發熱——想象一個某種立方體——你就無法再通過硅片的一側傳導熱量 。 你必須以某種方式從硅片內部抽取熱量 。 歸根結底 , 將需要某種奇特的機制 , 因為你在那個體積的硅片內產生了如此多的能量 , 而不是僅僅在一個表面上 。 ”
可持續性和成本這些對于芯片行業來說并非秘密 。 為了向前發展并以至少與今天相同的速度持續增長 , 需要解決兩個相關問題——可持續性和成本 。 這些最終將決定AI數據中心的部署速度、它們可以處理的計算量 , 以及從傳輸角度和芯片/系統/封裝設計角度所需的變化 。
西門子數字化工業軟件首席執行官Mike Ellow表示:“可持續性始終是我們考慮的問題 , 因為幾十年來 , 企業一直面臨著更有效利用自然資源的壓力 。 ”“這就是我們前進的方向 , 半導體作為支柱將幫助許多行業 。 如果你看看數據中心的功耗 , 我們現在的發展方向是不可持續的 。 對我們來說 , 挑戰在于如何將四倍、五倍或六倍的計算能力 , 整合到現有數據中心的相同功耗配置文件中 。 ”
商業基礎也融入了這幅圖景 。 “歸根結底 , 這是總擁有成本 , ”英特爾的Mongia說 。 “無論是你正在創建的大型語言模型還是你試圖生成的一個推斷 , 這都涉及資本成本和運營成本 。 散熱既屬于資本成本也屬于運營成本 。 那么 , 平衡點是什么?投資回報率是什么?升級到液冷解決方案需要多少成本 , 因為液冷歷來比風冷更昂貴 。 所有這些AI數據中心或AI解決方案主要采用液冷 。 為了構建它 , 你需要從你的封裝中獲得更多價值 , 這意味著更多的推斷或在生成語言模型時獲得更高的性能 , 從而隨著時間的推移降低運營成本 。 ”
結論為了更好地理解這一點 , 請考慮內華達州胡佛大壩每年發電量約為4太瓦時;亞利桑那州帕洛弗迪核電站每年發電量為32太瓦時 , 而中國三峽大壩預計每年發電量為90 太瓦時 。 但考慮到目前的增長速度 , 2028 年至 2030 年間 , AI 數據中心的電力需求將增加350太瓦時 , 這幾乎是所有這些發電設施總能耗的三倍 。
沒有任何單一的改變能夠縮小這一差距 。 半導體行業要想繼續以目前的速度增長 , 就需要從電網向下 , 到芯片向上進行變革 。 即便如此 , 目前還不清楚這是否真的能彌合差距 , 或者是否只會讓AI數據中心變得更大 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
【AI數據中心耗電量,真不是開玩笑】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!
推薦閱讀
- 今年排名第一的國產系統,真的有點會玩
- 努比亞更加“激進”了,罕見真全面屏+頂配16GB+1TB,跌價1631元
- 設計也是賣點!真我GT8 Pro迎來爆料,競爭子系最強旗艦的節奏
- 干掉充電寶!10000mAh電池的手機,明年可能真的要量產了
- 開源之戰,中國贏了第一回!Kimi K2登頂全球榜首,真不是偶然
- realme旗艦或迎來大調整,真我GT8Pro配置曝光,最快10月發布
- 真我放棄高利潤!驍龍8至尊版+6500mAh+120倍變焦,低至2899元起
- 真我realme迎雙消息:GT8設計有驚喜,Neo7系統升級全解析!
- 7月國補后,“銷量冠軍”的3款性能旗艦,16GB+512GB有“真香價”
- 榮耀終于妥協,16GB+512GB跳水1790元,可以撿漏的國補“真香機”
