液冷時代已到來?

液冷時代已到來?

文章圖片

液冷時代已到來?

文章圖片


隨著AI的興起 , 數據中心的功率密度已增長到液冷開始大規模建設的程度 。

所有電子設備都會產生熱量 , 必須將這些熱量移除以確保設備不會過熱 。 幾十年來 , 利用空氣流動(風冷)一直是主要的方法 , 液冷僅限于處理特別高強度的計算工作負載 , 主要集中在超級計算領域 。
隨著AI的興起 , 數據中心的功率密度已增長到液冷開始大規模建設的程度 。 目前單相液冷占據主導地位 , 但兩相液冷和浸沒式液冷也正作為可選方案不斷增長 。
這是一種相對較新的現象 , 主要歸因于AI計算導致的功率密度突然飆升 。 “2000年代或2010年代的計算機處理器功率只有幾百瓦 , ”JetCool創始人兼首席執行官Bernie Malouin指出 , “直到最近幾年 , 整體功率水平在很大程度上保持不變 。 ”
“過去 , 水冷是一種例外情況 , ”Synopsys產品營銷總監Marc Swinnen表示 , “那是極端的做法 。 但現在我很驚訝它變得如此標準 。 幾乎每個高性能系統都采用了水冷 。 ”
液冷有多種形式 , 并沒有單一的最佳解決方案 。 開發人員不能只是簡單地規定使用液冷 , 他們必須確定哪種類型的冷卻方式最好 。 這一決定對數據中心的基礎設施有重大影響 , 混合搭配不同的冷卻方法并不是一個切合實際的選擇 。
“超級計算行業一直是液冷的先驅 , 在這里你會看到一塊金屬板放置在處理器頂部 , 在許多情況下 , 如果是HBM(高帶寬內存)之類的 , 也會覆蓋內存 , ”Rambus的研究員兼杰出發明家Steven Woo說 , “它內部是中空的 , 有橡膠管進出 。 有一個入口和一個出口 , 液體在一個連續的回路中流動 。 現在人們正在為浸沒式冷卻奠定基礎 。 ”
任何冷卻方案都必須盡早確定 , 即在架構、性能和功耗進行早期模擬時就需確認 。 “你必須從一開始就關注架構層面 , 以確定功耗數值、熱通量和冷卻方法 , ”Synopsys SoC工程高級工程師Satya Karimajji表示 。
需要明確的是 , 盡管功率密度推動了向液冷的轉變 , 但這并非為了降低功耗 。 “這更多是為了在相同的占地面積內傳輸更多信號 , 而不是為了降低數據中心的功耗 , ”Synopsys產品管理總監Rob Kruger觀察道 。
風冷的問題大多數數據中心和其他計算場所都依賴風冷 。 空氣進入建筑物 , 經冷卻后被吹入架空地板下方 , 從而保持室內涼爽 。 服務器自帶的風扇將冷空氣推過芯片 , 空氣受熱后被吹回大氣中 。
這個過程在制冷劑中涉及液體 , 但那遠離發生冷卻的地方 。 這也是一個開環系統 , 引入新空氣并排出熱空氣 。 這種方法在一定程度上是有效的 。 但在超過一定的發熱水平后 , 如果不將風扇轉速提高到不切實際的程度 , 它就無法足夠快地帶走熱量 , 這會導致不安全的噪音水平和其他問題 。
【液冷時代已到來?】“使用風冷時 , 你需要風扇來吹動空氣 , 氣流越快 , 帶走的熱量就越有效 , ”西門子EDA創新路線圖經理Robin Bornoff說 , “但這有一個極限 。 風扇越大 , 服務器就必須越大 , 從而降低了計算密度 。 ”
水是比空氣更有效的冷卻劑 , 盡管它通常不單獨使用 。 “它的密度約為空氣的1000倍 , ”Bornoff說 , “它的熱導率是空氣的20倍 。 與空氣相比 , 用水可以提取更多的熱量 。 ”
這帶來了更強的散熱能力 , 將液體泵送到熱交換器可以將熱量從電路中帶走 。 最終 , 這些熱量會加熱空氣 , 但這發生在其他地方 , 遠離服務器機架 。
冷卻芯片的三種方式液冷有三種可能的形式 。 目前最常見的是單相液冷 , 因為冷卻液始終保持液態 。 該系統依賴于液體比空氣更高的熱導率和熱容來完成更有效的工作 。
目前不太常見但研究力度很大的是兩相液冷 。 其目的是利用從液體變為氣體所需的巨大潛熱 。 “相變吸收的熱量實際上比從0°C到100°C的溫度變化吸收的熱量還要多 , 因此它在散熱方面非常高效 , ”Swinnen說 。 與單相不同 , 這里的冷卻液實際上會沸騰 , 帶走的熱量遠超單相冷卻所能達到的水平 。

冷板中單相與兩相冷卻的概念圖 。 在單相冷卻中 , 冷卻液保持液態并在CDU(冷卻液分配單元)中冷卻 。 在兩相冷卻中 , 冷卻液沸騰 , 蒸汽被移除并重新冷凝 , 從而帶走更多熱量 。
“沸騰是個絕妙的主意 , ”Bornoff說 , “這是一種非常有彈性的散熱方法 , 但它也有其局限性 。 ”
即使液體沸騰 , 保持其與受熱表面的接觸也很重要 。 “最終表面上會有一層幾微米厚的水 , ”Bornoff說 , “熱量進入那少量液體中 , 然后傳遞給氣泡 。 氣泡消失 , 被新的液體取代 。 只要氣泡形成且它們之間有一些液體 , 那就是最大的熱傳遞效率 。 ”
如果熱通量太高——即每單位面積散發的熱量太快 , 而系統無法跟上 , 那么底部的這層水也會蒸發 。 在這種情況下 , 就沒有液體與熱源接觸了 。 取而代之的是水蒸氣 , 這是一種氣體——本質上又回到了風冷 。 此時冷卻效果會急劇下降 。 這種熱通量水平被稱為臨界熱通量(CHF) 。
第三種液冷方法是全浸沒式 。 它涉及一個裝滿液體的槽 , 整個服務器都浸沒其中 。 這種液體必須是介電的(絕緣的) , 以防造成短路 。 它還必須無腐蝕性 , 以保持電子設備的完好 。 浸沒式可以作為單相或兩相冷卻系統運行 。
在這種情況下 , 液體仍然被泵出進行冷卻 。 最初 , 建筑物內的一個單泵將冷卻液分配到各處 , 但這因管道損耗等原因被證明效率低下 。 現在 , 液冷槽配備了更近的再循環器——有時被稱為節能器 , 因為它們的運行效率更高 。
浸沒式冷卻從所有組件中帶走熱量 , 但其速度比其他技術慢 。 “如果標準是熱量捕獲的百分比 , 浸沒式做得非常好 , ”Malouin說 , “你可能會將服務器近100%的熱量捕獲到流體中 。 但由于流體本身的熱特性 , 用單相浸沒式冷卻數千瓦的設備真的很難 。 ”
應用液體的不同方式浸沒式冷卻的工作方式大同小異 , 但其他方法有一些變體 。 目前最常見的實現方式是冷板 , 它貼附在芯片封裝上 , 取代了以前風冷用的散熱器 。
“我在展會上看到最常見的東西是某種有液體流入的板 , ”Rambus的Woo觀察到 , “板接觸重要的半導體元件 , 通常有引導液體流動的凹槽 。 ”
冷板的優點是它是一個獨立的單元 , 可以在組裝時安裝到封裝上 。 它不會影響封裝內部的裸片、芯?;蚱渌M件 。
冷板的缺點是冷卻液通過封裝頂部、界面材料和冷板底部與芯片隔開 。 主要的熱傳遞要么向下通過PCB , 要么向上通過冷板 。 除了焊料和金屬線 , 中間的材料并非因其熱導率而被選中 , 這在冷板和封裝內容物之間留下了障礙 。
除冷板之外 , 還有一種被稱為直接噴射或直接液冷(DLC)的技術 , 意味著冷卻液直接接觸被冷卻的裸片 。 冷卻液可以流過或噴射到硅片背面 。 因為冷卻液直接接觸裸片 , 它能立即接觸熱源并更迅速地帶走熱量 。
挑戰在于冷卻液必須與封裝的其余部分隔離 , 這目前還不是一個完全解決的問題 。 包含多個裸片的先進封裝提出了另一個挑戰 。 如果一個裸片是主要熱源 , 那么冷卻可以只集中在該裸片上 。 但如果有多個高功率計算芯粒 , 每個都需要單獨冷卻 。 目前有大量的研究正在進行 , 但大規模應用才剛剛起步 。
冷卻液很重要人們很容易認為水是顯而易見的冷卻劑 , 但更常見的是水和丙二醇的混合物(通常是50/50) , 這種組合簡稱為PGW 。 丙二醇類似于汽車防凍液(乙二醇) 。 像防凍液一樣 , 它擴展了冷卻劑保持液態的溫度范圍 。 防凍液僅描述了冷卻劑在低溫端的作用 。 然而 , 汽車類冷卻液具有劇毒 , 通常僅用于人類不太可能誤食的地方 。
丙二醇毒性較小 , 但在1個大氣壓下 , 其沸點約為188°C , 低于乙二醇的197°C 。 與水50%混合后 , 這些限值降至約105°C和108°C , 雖然比水高 , 但也高不了多少 。
對于浸沒式冷卻 , 介電冷卻液的設計既要有效 , 又要對人類和電子設備友好 。 舊的液體可能有毒 , 但現代液體被選擇為無毒、無腐蝕性、不易燃且可生物降解 。 而且現代冷卻液比PGW更貴 。
“浸沒式冷卻使用了一些有趣的液體 , ”Woo說 , “它們是電惰性的 。 我把手放進去——一家公司讓我這么做——我甚至感覺不到 , 因為它們不發生反應 。 它們也不與你的皮膚反應 , 所以感覺很奇怪 。 ”
加熱后的冷卻液帶來了一個意想不到的潛在好處 。 與散失到大氣中的熱空氣不同 , 液體在一個封閉系統中運行 。 “[液體
流入流出機箱 , 然后進入熱交換器 , 在那里交換熱量 , 冷卻下來 , 并循環回服務器 , ”Woo說 。
這意味著冷卻液內部的熱量可以用在其他地方 。 一項已進行初步研究的想法是將冷卻液通過管道輸送出數據中心 , 為附近居民產生熱水 。 這使得計算消耗的部分能源得以回收和再利用 。
“液體的優點是能量被傾倒在液體中 , 這是一種非常有效的存儲本來會損失的能量的方式 , ”Bornoff說 , “為什么不把它泵入當地的生活熱水回路 , 以滿足附近住宅的熱水需求呢?”
環境因素也很重要 。 “你要確保液體中不含‘永久性化學物質’ , ”Woo指出 。
基礎設施變革從風冷轉向液冷不僅僅涉及芯片、服務器和機架層面的變化 。 除了極少數例外 , 整個數據中心都必須配備處理液體的設施 。
“你需要泵和軟管 , ”Woo說 , “你需要考慮可維護性 。 有高可靠性、低泄漏的閥門 , 可以從服務器上快速開關 。 它們還有熱交換器 。 對于浸沒式 , 你談論的是直接在循環系統中的槽 。 ”
如果整個機架或一排機架采用液冷 , 那么就不再需要架空地板 。 取而代之的基礎設施是管道和液體處理系統 , 通常通過冷卻液分配單元(CDU)進行泵送 。
“其中一些數據中心內部的管道設計非常有想象力 , ”Synopsys的Kruger指出 。
管理這些系統不同于現有的風冷方法 。 “兩個指標很重要:低壓降和低熱阻 , ”Alloy Enterprises聯合創始人兼首席執行官Ali Forsyth說 , “這允許數據中心在循環更高溫度的水的同時 , 仍能滿足機架內組件的熱需求 。 這意味著不需要制冷或提升暖通空調(HVAC)功率 , 這是巨大的能源節約 。 ”
每種冷卻方法都有其自己的基礎設施 。 因此 , 一個機架——甚至整個數據中心——通常會致力于一種冷卻類型 。 “你通常不會看到一個托盤是液冷的 , 而其他的卻是風冷的 , ”Forsyth觀察道 。
冷板冷板可以根據封裝尺寸定做 。 然而 , 這忽略了一個事實 , 即熱量并不是在整個封裝中均勻產生的 。 如果封裝容納單個裸片 , 該裸片表面的不同區域會有冷熱之分 。 而包含多個組件的先進封裝將包含一些比其他組件產生更多熱量的組件 。
因此 , 一些冷卻解決方案涉及定制冷板 , 將冷卻集中在產生熱量最多的地方 。 Alloy Enterprises采用3D打印技術在冷板內部創建定制的液體路徑 。 其最常用的冷卻液是含25%水的丙二醇 。
“我們開發了一種稱之為疊層鍛造的制造工藝 , 這是一種基于板材的工藝 , 我們可以在單件組件中制造復雜的內部和外部幾何形狀 , ”Forsyth說 , “我們可以在需要的地方放置大通道 , 對其進行適當的尺寸調整和優化 。 我們在需要的地方放置小尺度通道 。 ”
與其從必須燒結的粉末開始 , 其工藝通過堆疊多個金屬層來構建冷板 。 內部表面使用激光進行圖案化 , 以創建引導液體的凹槽 。 可以有多個冷卻液入口以提高冷卻效率 。
“幾乎所有的3D打印都在某個時刻依賴于熔化或熔融金屬 , 或者某種形式的燒結 , ”Forsyth解釋說 , “當你有液態金屬時 , 制造微小的東西真的很難 。 通過毛細作用力 , 它會滲入那些小孔中 。 因此 , 我們能夠制造出比其他金屬3D打印工藝小一個數量級的通道尺寸 。 ”
高溫制造步驟提供擴散鍵合 , 將各個板材結合成單塊金屬 。 該工藝避免了典型金屬3D打印可能出現的翹曲 。 “所有東西同時加熱 , 因此我們不會因熱梯度而引入殘余應力 , ”Forsyth說 。
另一家公司HydroGraph進行了一些兩相實驗 , 在冷卻表面沉積材料 , 以防止表面過于光滑導致過熱 。 它在沸騰表面創建了銅上燒結鎳、多孔銅/鎳界面以及其專長的石墨烯 。 增加的粗糙度提供了成核點 , 與裸銅相比 , 熱傳遞系數(HTC)提高了152% , 臨界熱通量(CHF)比裸銅高40% 。
來個冷水澡直接噴射冷卻的一個例子來自JetCool , 其裝置帶有微小噴嘴 , 可將冷卻液噴射到表面上 。 該公司有三種提供該技術的方式——直接噴射到硅片上 , 這是最先進的配置 , 最適合最高功率;作為冷板;以及作為用于缺乏液體基礎設施的機架的獨立單元 。 它聲稱正在冷卻功率高達5000瓦的芯片 。

JetCool的直接液冷 。 液體流入最右側的端口(藍色箭頭) , 并被壓入噴嘴(中間和插圖) 。 熱液體從左側端口流出(紅色箭頭) 。
獨立型號可以替代現有服務器中的風扇 , 降低高達15%的功耗 。 “這些通常是位于服務器內部的小型液冷回路 , ”Malouin解釋說 , “這允許我們的客戶在任何風冷數據中心部署液冷 。 這可以將服務器功耗降低15% 。 ”
就像Alloy的凹槽經過圖案化以匹配熱點一樣 , JetCool的噴嘴也是針對每個封裝定制位置的 。
一些DLC系統可能使用高壓 。 “根據我們看到的客戶結果 , 噴射沖擊的壓降有40倍的差異 , ”Forsyth說 。
然而 , JetCool表示他們不是這樣做的 。 “我們在給定的流體動力預算下可以實現更好的性能 , 因為我們特別不依賴壓力來驅動性能 , ”Malouin說 , “通常 , 我們將壓降降至最低 , 因為當最大化流動強度而不是壓力時 , 我們的技術效果最好 。 ”
沒有唯一的正確答案該領域的參與者認為 , 這些解決方案中的每一個都有其最佳應用點(sweet spot) 。 沒有任何一種會徹底淘汰其他方案 。 雖然冷板最簡單且成本最低 , 但DLC可以為高功率芯片最快地帶走熱量 。 浸沒式可以帶走更多的總熱量 , 因為它冷卻所有東西 , 而不僅僅是某些芯片 , 盡管它冷卻高功率芯片的速度可能不如DLC快 。
“隨著當今計算的多樣化 , 所有這些不同類型的冷卻在市場上都有一席之地 , 因為不同的工作負載、不同的應用以及不同的部署風格和位置都有不同的要求 , ”Malouin說 。
在替換現有風冷基礎設施時 , 增加液體基礎設施是一個障礙 , 但對于新建項目來說障礙較小 , 盡管JetCool的獨立單元是避免重建基礎設施的一個選擇 。 該投資的部分回報是有能力構建包含無法僅靠風冷冷卻的芯片的服務器 , 從而增加所用服務器和機架的價值 。
如果數據中心計劃轉向高壓直流(HVDC) , 即把更高的直流電壓一直輸送到機架 , 然后再降壓到可用水平 , 那么該項目也可能是轉換冷卻基礎設施的好時機 。
“多個巨大的變化正在同時發生 , ”Woo指出 , “人們正在談論400V配電 , 甚至800V 。 如果你正在考慮配電方面的重大變革 , 也許可以將其與冷卻升級結合起來 。 ”
可維護性也很重要 。 輸送冷卻液的管道必須放置妥當 , 以便在必要時仍能接觸到服務器本身 。 “可維護性可能更具挑戰性 , 因為可能需要移開管道才能更換組件 , ”Malouin指出 。
浸沒式冷卻帶來了更大的維護挑戰 。 移除單個服務器可能是可行的 , 但也可能需要排空介電冷卻液 , 之后再重新加注 。 “浸沒槽必須打開 , 這可能會影響除正在維修的系統之外的多個系統 , ”Malouin補充道 。
通常 , 必須進行浸沒監測以檢測任何過熱情況 , 并重新平衡工作負載以控制溫度 。
新型冷卻即將上線單相冷板和浸沒式冷卻目前的使用還很有限 , 但隨著公司建設能夠處理AI訓練和高性能計算的數據中心 , 冷板可能會變得更加普及 。 英偉達的Grace/Blackwell機架已經包含了液冷 , 并且支持液冷的機箱已在市場上銷售 。
“如果你去SuperMicro這樣的地方 , 你可以買到帶有液冷的機架 , ”Woo說 , “它們是4U的盒子 , 上面2U是英偉達或AMD引擎 , 下面2U是雙插槽Xeon或EPYC處理器 。 如果你去SuperMicro網站 , 你會看到帶有液體管道的機箱 。 ”
冷板的提供方式可能有所不同 。 “有時冷板隨芯片本身出售 , ”Forsyth說 , “在其他情況下 , 超大規模云廠商或服務器制造商會購買芯片、TIM(熱界面材料)和冷板 , 并自行組裝 。 ”
直接冷卻開始變得可用 , 兩相冷板應該會在幾年內出現 。 一旦轉型完成 , 液冷應該不再讓人感覺是負擔 , 因為機架將為此配備齊全 。
浸沒式冷卻的使用大概率會增加 , 但這比冷板或DLC更費周章 , 可能會被更具選擇性地采用 。
在可能的情況下 , 對于處理更普通用途、功率更適中的硅芯片的機架 , 風冷可能仍將受到歡迎 。 液冷的運營成本可能較低 , 但基礎設施投資必須有合理的盈虧平衡期 , 這種轉換在經濟上才有意義 。
因此 , 數據中心的未來可能包括風冷、冷板、DLC和浸沒式的混合 。 這種混合將包括單相和兩相系統 。 單個數據中心可能只配置一種冷卻類型 , 但這種混合預計將存在于各類數據中心之間 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀