AI數據中心耗電量，真不是開玩笑_中國聯通|基站

#頭號創作者激勵計劃#

想象一下， 2028年數據中心的電力消耗占美國總電力消耗的12% 。
AI數據中心的能源消耗速度大約是電網新增電量速度的四倍，這為發電方式、AI數據中心的建設地點以及更高效的系統、芯片和軟件架構的根本性轉變奠定了基礎。
這些數字在美國和中國尤為驚人，兩國正在競相加速建設人工智能數據中心。美國能源部委托進行的一份2024年報告顯示，去年美國數據中心消耗了總發電量的約4.4% ，即約176太瓦時。到2028年，這一數字預計將增至325至580太瓦時，分別占美國總發電量的6.7%至12% 。
與此同時，預計中國明年的能源消耗量將達到400太瓦時，雖然這些數字看起來與美國相當，但國際能源署指出，中國公民的能源消耗遠低于美國同行。在全球范圍內，能源消耗量每年增長30% ，主要原因是人工智能，其中美國和中國約占這一增長的80% 。
西門子EDA硬件輔助驗證副總裁兼總經理Jean-Marie Brunet表示：“電力不再是玩笑。 ”“想象一下， 2028年數據中心的電力消耗占美國總電力消耗的12% 。這太瘋狂了。我們必須重建整個電網。 ”
其他人也同意。 “發電將是一件大事， ”英偉達首席執行官黃仁勛在最近與Cadence首席執行官Anirudh Devgan的討論中指出。 “原因在于電網將不足以支撐這個行業的發展。我們希望在美國建設這個行業，如果你想這樣做，那么我們將看到大量的柴油發電機以及各種各樣的東西。 ”
距離和降壓損耗與數據一樣，電力傳輸也存在成本。根據美國能源信息管理局的數據，平均5%的電力在輸配過程中損失。反直覺的是，運行數百英里的高壓線路（約2%）的損耗低于運行較短距離的低壓線路（約4%）。這些數字也受到電源的復合影響，因為不同的電源有不同的轉換率。
Saras Micro Devices首席商務官Eelco Bergman表示：“理想情況下，你應盡可能保持高電壓，這意味著電流盡可能低。 ”“損耗是電流的平方乘以電阻。所以你會一直損失功率。無論高壓線是什么，你都在不斷地降壓。進入數據中心可能是400伏，然后轉換為機架的48伏，最終降壓到12伏到負載點。但在每一步中，你都希望在數據中心旁邊發電以減少距離并盡可能保持高電壓，并將電壓帶到靠近你的終端點。 ”
這里的權衡是電壓與電流。電流越高，熱量越大。而且沒有什么是100%高效的，所以當電力移動到離封裝更近的地方時，會產生一些熱量。反過來，這又會因為封裝內部發生的一切而加劇，包括數據處理、數據在內存之間的來回移動以及互連中的電阻/電容。除此之外， AI數據中心需要處理更多數據，因此這些工作負載需要更高的利用率，這使得散熱量更難以跟上。
Bergman說，因此，從高壓線到低壓線，再到PCB、封裝，最后到單個芯片，每一步都會有功率損耗。 “如何縮短距離？我能把多少電壓盡可能地靠近？效率如何？我能散熱嗎？這些都是行業正在關注的問題。 ”
芯片產業在這里扮演著重要角色。 “由于現有的基礎設施，我們有太多的中間電壓水平，導致步驟過多， ”弗勞恩霍夫IIS自適應系統工程部門高效電子部負責人Andy Heinig表示。 “當然，我們可以在這里節省大量能源。我們還看到處理器和電源調節器需要協同工作。目前，電源調節器并不智能。它們只跟隨處理器發出的電流。但是處理器知道它們在下一個周期要做什么，它們可以通知電源轉換器即將發生巨大的跳躍或者某些東西被關閉。因此，在某些地方我們可以協同優化處理器和電壓調節器，減少中間電壓水平的數量將有所幫助。 ”
移動數據另一個挑戰是構建系統，使數據更靠近源頭進行處理。這可以減少需要移動的數據量。但除此之外，數據必須傳輸的距離也需要縮短。這是3D-IC封裝背后的關鍵驅動因素之一。與在SoC中布線不同，組件可以垂直戰略性放置，以減少這些距離。這可以提高性能，并減少驅動信號所需的電量。
Arteris產品管理與營銷副總裁Andy Nightingale表示：“目前我們客戶面臨的最大挑戰之一是設計中的布線長度。 ”“多芯片是一個獨立的挑戰，但在每個單片芯片上，在進入多芯片之前，縮短布線長度對功耗至關重要。我們關注的一個方面是擁塞。我們的設計分析中也有熱力圖，用于查看擁塞情況，因為那是許多導線在交換機處匯合的關鍵點。我們也在平面圖內工作，可視化物理設計，這樣我們可以將交換機移出擁塞點，并且仍在平面圖內工作，以減少某個區域的散熱和功耗擁塞。 ”
這也需要思維模式的轉變，因為在AI數據中心中，電力仍然次于性能。但如果沒有更多的電力可用，或者電價飆升，那么AI公司將別無選擇，只能認真對待電力問題。
“如今， AI設計的重點仍然是性能，這意味著雖然功耗非常非常重要，但它仍然是次要的考量，首要目標是從這些芯片中獲得最佳速度和性能， ”Ansys產品營銷總監Marc Swinnen表示。 “功耗/性能之間總是有權衡，這是根本性的。所以如果你真的想降低功耗，你就必須降低性能。遵循摩爾定律會有幫助，可以降低功耗。另一個問題是，大部分功耗都花在了GPU與不同元件之間的通信上，甚至數據中心的背板也是如此。英偉達推出了共封裝光網絡，正是為了降低機架內和機架之間的通信功耗。 ”
解決這些問題需要整個芯片行業的變革。 “它始于芯片，如果芯片非常耗電，而你想構建一個LLM ，那么你就必須訓練它， ”西門子的Brunet說。 “你通過添加多個功能和擴展來訓練它。但是如果你把這些東西加起來，從一個非常耗電的單一元件開始，那么整個系統就會變得極其耗電。你還有一個數字孿生體，你也需要巨大的電力來計算這個數字孿生體。但這不僅僅是EDA行業的問題。這是整個世界的問題。 ”
高效處理好消息是，有一些顯而易見的唾手可得的成果。 Movellus總裁兼首席執行官Mo Faisal表示：“僅僅因為缺乏可見性，就會額外消耗20%的電力。 ”“例如，假設你設計了一個在2 GHz下功耗為500瓦的芯片。當你完成系統級測試并準備部署時，你會發現所有這些電力系統的構建目標都不同。所以現在，如果你想保持在500瓦以內，你需要將頻率降低10%到20% 。這基本上是一種限制。而芯片組只會讓情況變得更糟，因為現在你面臨同樣的問題，但你要乘以你正在處理的芯片組數量。每個芯片組都可能有不同的工藝角，或者可能處于不同的工藝中。 ”
這只是其中的一部分。 “通過從芯片到系統再到數據中心安裝更多可見性，還可以額外獲得20%到30%的增益， ”Faisal說。 “這兩者是復合的，而不是非此即彼。原因是芯片設計師關注風險。 ‘嘿，我不想芯片出故障。所以他們會通過冗余來過度預留。但在部署時，當你設計數據中心時，你并不是為最大工作負載而設計的。你是為峰值工作負載而設計的。原因在于工作負載和軟件的變化速度比芯片快得多。不可能用你在現場看到的所有工作負載組合來測試芯片，因為工作負載、模型和Transformer以及代理都在快速變化。所以你必須將其計入利潤。數據中心容量比你在最大負載下看到的超額配置了30% 。 ”
理解半導體將如何使用對這個等式也至關重要。僅僅增加冗余和為最壞情況下的邊緣情況進行保護性設計，會增加驅動信號通過額外電路所需的功率以及由于導線中的電阻/電容而需要散發的熱量。
摩爾定律也在這里發揮作用。雖然每個新工藝節點處理器性能的提升正在減弱，但功耗的提升預計將是巨大的——高達30% ，具體取決于工藝和晶圓廠。與任何新工藝一樣，這些數字會因架構和工作負載而異。
冷卻經驗法則是，數據中心要為電力支付兩次費用。第一次是為服務器機架和存儲供電。第二次是為它們降溫，以防止過熱，這正成為一個更大的問題，因為動態電流密度隨著AI服務器利用率的提高而增加。訓練大型（甚至小型）語言模型需要更多的處理能力，為生成式和代理式AI搜索供電也需要更多的處理能力。這反過來又會增加各種計算元素的利用率，使它們在更長時間內全速運行。
Saras的Bergman說：“冷卻的電力開銷約為30%到40% ，如果只采用液冷而不使用冷水機組，可以將其減半。 ”“但如果加上冷水機組，功耗又會上升。這里需要玩一個優化游戲。 ”
這個等式中的轉折點是水的可用性。在封閉系統中運行水需要冷卻。使用當地供水則不需要。但根據環境與能源研究學會的數據，一個大型數據中心每天可消耗多達500萬加侖的水，這大約是一個擁有1萬到5萬人口的城鎮的用水量。
兩種替代方案是單個芯片的直接冷卻和浸沒式冷卻。直接冷卻可能涉及微流體通道，這是IBM在1980年代首次提出的想法，后來因難度太大而放棄。但隨著熱密度的增加，芯片制造商可能別無選擇，只能采用某種微流體技術。盡管如此，實施這種方法會增加結構和制造方面的挑戰。這個想法是很好理解的，因為水冷技術已經使用了半個多世紀。但在封裝或芯片內部，更靠近晶體管的地方實施它，仍然是一個挑戰。
英特爾高級首席工程師兼公司熱核心能力組負責人Rajiv Mongia解釋說：“如果你正在研究一種冷卻技術，就會涉及熱傳遞效率，這通常從熱阻角度來看待，以及從一般意義上的結到流體溫度。 ”“但如果你從熱力學角度來看，它就不是結到流體入口溫度，而是結到流體出口溫度。基本上，你讓流體離開封裝或封裝區域時的溫度越高，下游的一切從熱傳遞角度來看就越容易管理。這會影響你的冷卻廠、冷水機組等等的總效率。 ”
這是堆疊芯片的一個關鍵考慮因素。 Mongia說：“當我們談到3D-IC時，你可能需要在結構內部引入流體，比如芯片背面的硅微通道。 ”“這是一種效益與復雜性之比。你可以用這種類型的板子放在背面來冷卻。但是一旦3D堆棧中有足夠多的體積發熱——想象一個某種立方體——你就無法再通過硅片的一側傳導熱量。你必須以某種方式從硅片內部抽取熱量。歸根結底，將需要某種奇特的機制，因為你在那個體積的硅片內產生了如此多的能量，而不是僅僅在一個表面上。 ”
可持續性和成本這些對于芯片行業來說并非秘密。為了向前發展并以至少與今天相同的速度持續增長，需要解決兩個相關問題——可持續性和成本。這些最終將決定AI數據中心的部署速度、它們可以處理的計算量，以及從傳輸角度和芯片/系統/封裝設計角度所需的變化。
西門子數字化工業軟件首席執行官Mike Ellow表示：“可持續性始終是我們考慮的問題，因為幾十年來，企業一直面臨著更有效利用自然資源的壓力。 ”“這就是我們前進的方向，半導體作為支柱將幫助許多行業。如果你看看數據中心的功耗，我們現在的發展方向是不可持續的。對我們來說，挑戰在于如何將四倍、五倍或六倍的計算能力，整合到現有數據中心的相同功耗配置文件中。 ”
商業基礎也融入了這幅圖景。 “歸根結底，這是總擁有成本， ”英特爾的Mongia說。 “無論是你正在創建的大型語言模型還是你試圖生成的一個推斷，這都涉及資本成本和運營成本。散熱既屬于資本成本也屬于運營成本。那么，平衡點是什么？投資回報率是什么？升級到液冷解決方案需要多少成本，因為液冷歷來比風冷更昂貴。所有這些AI數據中心或AI解決方案主要采用液冷。為了構建它，你需要從你的封裝中獲得更多價值，這意味著更多的推斷或在生成語言模型時獲得更高的性能，從而隨著時間的推移降低運營成本。 ”
結論為了更好地理解這一點，請考慮內華達州胡佛大壩每年發電量約為4太瓦時；亞利桑那州帕洛弗迪核電站每年發電量為32太瓦時，而中國三峽大壩預計每年發電量為90 太瓦時。但考慮到目前的增長速度， 2028 年至 2030 年間， AI 數據中心的電力需求將增加350太瓦時，這幾乎是所有這些發電設施總能耗的三倍。
沒有任何單一的改變能夠縮小這一差距。半導體行業要想繼續以目前的速度增長，就需要從電網向下，到芯片向上進行變革。即便如此，目前還不清楚這是否真的能彌合差距，或者是否只會讓AI數據中心變得更大。
*聲明：本文系原作者創作。文章內容系其個人觀點，我方轉載僅為分享與討論，不代表我方贊成或認同，如有異議，請聯系后臺。
【AI數據中心耗電量，真不是開玩笑】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析，關注我們！

AI數據中心耗電量，真不是開玩笑

推薦閱讀

騰訊視頻怎么取消連續包月騰訊視頻如何取消連續包月

2022下半年莆田荔城區教資認定報名+體檢安排時間

ppt講義模式怎么打印

顧維鈞原配最后結局顧維鈞原配最后怎么樣了

長春個人信息單如何查詢及打印

秋季花粉過敏是什么花粉-秋季花粉高峰期是幾月

超純水是什么

紅外線開關的原理

高考期間如何避開例假，高考來例假怎么辦

抖音作品怎么取消置頂

免費網絡電話怎么用

西安一碼通怎么添加家庭成員。

我來教你怎么下載poco相機。

華為mate9和p10和榮耀v9哪個好,9和榮耀v9哪個好

破陣子辛棄疾名句賞析

冰箱哪個牌子質量好又省電，什么品牌冰箱最好用又省電謝謝