【GPU巨頭正在吞噬超級計算領域,傳統存儲難以滿足需求】
超級計算領域正在發生分裂 。 曾經相對統一的大規模多處理器x86系統世界已經分化為相互競爭的架構 , 每種架構都在競相服務于截然不同的需求:傳統學術工作負載、極端規模的物理仿真以及AI訓練的巨大需求 。
Nvidia站在這場變革的中心 , 其GPU革命不僅僅是取得了進展 , 而是徹底顛覆了舊有秩序 。
后果十分嚴峻 。 曾經推動數十年科學突破的傳統存儲系統 , 如今在AI無情的隨機I/O風暴下不堪重負 。 原本設計用于順序吞吐量的設施面臨新的現實:元數據可能消耗所有I/O操作的20% 。 隨著GPU集群擴展到數千臺 , 一個殘酷的經濟真相浮現:GPU的每一秒閑置時間都在燒錢 , 這將存儲從支持功能轉變為決定成敗的競爭優勢 。
我們采訪了VDURA公司CEO Ken Claffey , 了解這一地震級變化如何迫使超級計算基礎設施從硬件到軟件、從架構到經濟學的全面重新思考 。
超級計算機和HPC系統定義以及區別
這些界限確實很模糊且日益模糊 。 歷史上 , 區別主要在于系統的規模(節點數量) , 因為商用服務器的Linux集群成為了事實上的構建模塊(而不是之前的定制超級計算機 , 如早期的Cray系統或NEC矢量超級計算機) 。 如今 , 傳統的工作組、部門、分部和超級計算機的細分可能需要更新 , 因為小型GPU集群的價值現在已經足以被分析師歸類為超級計算機銷售 。
超級計算機的不同類型
并非所有超級計算機都相同 。 目前存在Linux集群超級計算機 , 這些系統主導著當今的Top500榜單 。 它們由數千臺通過InfiniBand、以太網或專有互連連接的商用服務器構建 。 變種包括:
具有分布式內存的大規模并行集群(例如 , 美國能源部的Frontier系統) 。 每個節點運行自己的操作系統并通過消息傳遞進行通信 。
由現成x86/GPU服務器構建的商用集群;超大規模AI集群屬于此類 。
不同的工作負載偏好不同的架構:CPU密集型、GPU密集型或內存中心型 。 天氣和物理仿真受益于具有低延遲互連的矢量或大規模并行集群 。
現代AI訓練通常使用GPU密集型商用集群 。
專用系統服務于加密或模式匹配等狹窄領域 , 但在AI相關用例中重新獲得關注 , 特別是在推理、Grok、SambaNova等方面 。
Nvidia NVL72機架規模GPU服務器
Nvidia將其GB200 NVL72描述為\"機架中的百億億次AI超級計算機\" 。 每個NVL72包含18個計算托盤(72個Blackwell GPU與Grace CPU配對) , 通過第五代NVLink交換機連接 , 提供130 TBps的互連帶寬 。 NVLink結構創建了一個統一的內存域 , 總帶寬超過1 PB/s , 一個NVL72機架可以提供80 petaflops的AI性能和1.7 TB的統一HBM內存 。
從純粹的HPC角度來看 , 單個NVL72更準確地說是一個機架規模的構建模塊而非完整的超級計算機 , 它缺乏完整HPC所需的外部存儲和集群管理層 。 但當數十或數百個NVL72機架與高性能存儲(例如VDURA V5000)互連時 , 生成的系統絕對符合超級計算機的標準 。 因此 , NVL72處于邊界:一個極其密集的GPU集群 , 可以成為更大HPC系統的一部分 。
高帶寬內存(HBM)技術發展
高帶寬內存(HBM)通過硅通孔堆疊DRAM芯片 , 提供千位寬接口;HBM3e每GPU可提供高達1.8 TB/s的帶寬 。 HBM并非Nvidia獨有 , AMD的MI300A/MI300X、Intel的Ponte Vecchio和許多AI加速器都使用HBM , 因為以TB/s速度流式傳輸數據對于滿足饑渴核心至關重要 。 HBM采用取決于經濟性和封裝設計:GPU可以證明成本合理 , 因為它們提供非常高的每瓦浮點運算 , 而通用CPU通常依賴帶寬較低的DDR/LPDDR內存 。
超級計算對AI工作負載的反應
AI革命已將HPC設施轉變為AI工廠 。 從客戶那里可以清楚地看到 , 隨著用戶部署越來越多基于AI的應用程序 , 他們的應用程序環境正在發生變化 , 這為HPC基礎設施帶來了新的挑戰 , 因為他們增加了集群中的GPU數量 。 這反過來影響存儲 , 因為AI應用程序以GPU為中心 , 創建尖峰、隨機I/O模式 , 導致元數據成為I/O的10-20% 。 訓練和推理都需要持續吞吐量:Nvidia建議DGX B200服務器每GPU需要0.5 GBps讀取和0.25 GBps寫入 , 視覺工作負載每GPU高達4 GBps 。 這意味著10000 GPU集群需要5 TBps讀取和2.5 TBps寫入帶寬 。
為滿足這一需求 , HPC中心正在采用并行文件系統和NVMe優先架構 。 AI訓練仍然依賴高吞吐量并行文件系統來供給GPU和處理大規模檢查點 , 而推理工作負載轉向對象存儲和鍵值語義 , 需要強大的元數據性能和多租戶 。
HPC存儲的演進
HPC存儲已從專有的、硬件綁定架構演進為軟件定義的橫向擴展系統 , 專為AI和GPU驅動的工作負載而設計 。 此外 , 雖然HPC很大程度上是基于臨時/Scratch性能文件系統的概念設計的 , 但AI更專注于持續性能和更廣泛的SLA , 更關心運營可靠性 。
從專有到軟件定義:早期HPC依賴具有HA配對和專用RAID控制器的封閉系統 。 現代平臺已轉向與超大規模云提供商設計一致的SDS模型 , 包含NVMe節點和開放供應鏈的無共享架構 , 可在商用硬件上水平擴展 。
主要存儲系統差異
超級計算存儲沿著傳統硬件綁定系統和為AI和數據密集型工作負載構建的現代軟件定義架構之間的清晰界線分化 。
行業正在從硬件定義的\"系統\"(控制器對、專有陣列)轉向在商用NVMe和HDD介質上運行的軟件定義存儲(SDS)\"平臺\" 。 SDS實現更快創新、混合介質分層(SLC、TLC、QLC閃存+ CMR/SMR HDD)、元數據加速和云端可擴展性——這是VDURA架構的基礎 。
DAOS發展現狀
DAOS是一個開源項目 。 目前 , 它更多被視為技術集合而非成品 。 現在它隸屬于HPE , 我預期他們會投資使其成為真正的產品 , 就像我在ClusterStor對Lustre所做的那樣 。 這需要多年的大量投資、大規模部署和運營成熟度才能從\"項目\"變為\"產品\" 。
吞吐量對AI工作負載的重要性
IOPS(每秒輸入/輸出操作)衡量存儲系統可以執行多少個小的4 KiB操作 。 這對事務數據庫和VM是很好的指標 。 但AI和HPC工作負載流式傳輸大型數據集和檢查點 。 專注于IOPS可能會誤導:AI工作負載是吞吐量驅動的 , 以GBps或TBps衡量 , 因為它們移動大型順序數據集 。 高帶寬確保GPU保持忙碌 , 檢查點不會停滯訓練 。 并行文件系統在許多節點間分布數據以提供這種聚合帶寬 。 沒有足夠的吞吐量 , GPU就會挨餓 , 昂貴的計算周期就會浪費 。
VDURA的V5000系統每節點提供超過60 GBps , 每機架超過2 TBps 。 這確保AI管道受限于模型復雜性而非存儲 。 VDURA還每機架提供高達1億IOPS , 因此它也能處理元數據密集的推理工作負載 。
并行存儲系統的優勢
絕對如此 。 像NetApp ONTAP這樣的非并行NAS系統依賴少數控制器處理I/O 。 正如我之前指出的 , 通用NAS無法提供AI所需的吞吐量或彈性 。 NetApp的AFX是他們嘗試并行文件系統的努力 。 主流存儲系統是為通用計算設計的 。
在明確承認AI中的高級計算時 , NetApp已經承認他們需要一種新型產品 , 即并行文件系統 。 他們沒有為未來做好準備 , 現在正試圖追趕 。
Q&A
Q1:什么是GPU集群 , 為什么它對AI訓練如此重要?
A:GPU集群是由數千臺通過高速網絡連接的GPU服務器組成的系統 。 對AI訓練極其重要是因為現代AI訓練需要持續高吞吐量 , 比如10000個GPU的集群需要5 TBps讀取和2.5 TBps寫入帶寬 , 而且GPU的每一秒閑置時間都在燒錢 , 使存儲性能成為決定成敗的關鍵因素 。
Q2:傳統存儲系統為什么無法滿足AI工作負載需求?
A:傳統存儲系統是為順序吞吐量設計的 , 但AI應用程序創建尖峰、隨機I/O模式 , 元數據占I/O操作的10-20% 。 像NetApp ONTAP這樣的非并行NAS系統依賴少數控制器處理I/O , 無法提供AI所需的吞吐量或彈性 , 因此主流廠商現在都在開發并行文件系統來追趕市場需求 。
Q3:VDURA V5000系統有什么技術優勢?
A:VDURA V5000采用軟件定義存儲架構 , 每節點提供超過60 GBps吞吐量 , 每機架超過2 TBps帶寬和高達1億IOPS 。 它支持混合介質分層、元數據加速、GPU Direct技術 , 并提供多級糾刪碼技術實現12個9的耐久性 , 確保AI工作負載不受存儲性能限制 。
推薦閱讀
- 硅谷GPU蒙塵,馬斯克一言成讖:美國AI被電卡脖子
- 東芯股份:礪算首款GPU芯片“7G100”進入客戶送樣階段
- 臺積電用于下一代GPU的光刻掩模,奇特且驚喜
- Qumulo推出自主AI管理和GPU數據傳輸功能
- 整合數十萬GPU,微軟的首個AI超級工廠
- 換機直接出二手?你的個人隱私正在被打包轉賣!
- Intel突然公布30個安全漏洞!涵蓋CPU、GPU等產品
- 65歲圖靈巨頭離職創業!LeCun憤然與小扎決裂,Meta巨震
- 駁斥行業誤解!英偉達高管:GPU是性價比最高的平臺
- 企業正在召回被AI頂替的員工,AI還沒那么聰明
