異構計算時代需要新的數據處理基準測試

異構計算時代需要新的數據處理基準測試

數據基礎設施正在經歷幾十年來最重要的變革 。 生成式AI和異構加速計算環境的興起正在重塑現代數據棧的核心需求 , 這些環境結合了不同類型的硬件 。 快速且經濟高效地處理復雜數據集以支持AI和分析已成為決定運營效率和基礎設施投資回報率的關鍵因素 。
歷史上 , 數據處理性能主要由查詢規劃器的復雜程度和執行引擎的性能決定 , 并假設底層硬件在各個系統中是相同的 。 此外 , 現有的數據處理基準測試(如TPC-DS和TPC-H)旨在在工作負載層面測試系統的性能和效率 。
如今的數據中心配備了各種加速計算硬件 , 包括GPU、TPU和FPGA , 數據處理性能和效率越來越受這些硬件組件的影響 。 曾經標準化的基礎設施層已演變為具有不同優勢和局限性的異構計算環境 。
幾乎每個硬件廠商都聲稱其硬件最適合數據處理 , 并引用峰值FLOPS、內存帶寬和張量吞吐量等規格 。 但這些規格可能無法直接轉化為真實數據處理工作負載的性能 。 例如 , GPU可能標榜28千萬億次浮點運算能力 , 但其中大部分計算能力位于與ETL任務無關的張量核心中 。 即使規格相關 , 實際結果往往依賴于日益復雜的系統級交互 , 如CPU到GPU的連接、GPU到GPU的數據移動、系統中CPU與GPU的比例、內存容量和內存帶寬 。
對于負責設計集群和預測吞吐量的運營人員來說 , 規格表性能與真實工作負載性能之間的差距帶來了重大風險:電力使用效率低下、加速器容量閑置以及可能持續數年的次優節點配置 。
結果是日益增長的脫節 。 數據中心運營商被迫基于不完整和誤導性的指標做出關鍵的基礎設施決策 。 正如CoreMark等基準測試幫助標準化CPU在各種任務中的性能一樣 , 顯然我們需要一種標準化的方法來測量當今的加速硬件 , 以確定哪些處理器在核心數據處理任務中表現最佳 。
有效現代基準測試的特性
要使這樣的基準測試產生影響 , 它必須準確反映現代基礎設施的現實情況 , 而不是依賴過時的假設 。 實際上 , 這意味著要滿足幾個關鍵標準:
系統級測量
系統級測量是基礎 。 基準測試必須評估節點內整個系統的性能 , 而不是評估單個組件 。 這要求數據集足夠大 , 無法完全放入主機內存 , 迫使基準測試測量實際的數據移動模式和內存層次結構 。 這種方法防止具有更大緩存的系統獲得不公平的優勢 , 提供更真實的性能評估 。
廠商中立
為確保在不同技術和架構之間進行公平比較 , 基準測試不能綁定到單一廠商 。 它還必須設計得避免偏向任何特定廠商的技術或方法 , 允許組織根據其特定需求而不是基準測試優化做出明智決策 。
反映現代分布式系統
為準確反映現代分布式計算環境 , 基準測試應有效評估單節點和橫向擴展多節點配置的性能 。
覆蓋多樣化工作負載
ETL、商業智能和生成式AI工作負載各自對數據處理管道的不同方面產生壓力 。 ETL工作負載強調掃描、投影、過濾、聚合和連接等操作 , 而商業智能工作負載增加了JSON處理、洗牌操作、窗口函數和Top-K查詢的復雜性 。 生成式AI還引入了圍繞數據提取、過濾、令牌化和嵌入生成的全新需求 。 全面的基準測試必須能夠考慮所有此類工作負載 。 甚至可能需要對每個工作負載類別進行單獨評估 , 認識到針對傳統商業智能查詢優化的系統可能無法在AI數據準備任務中表現良好 。
前進之路
基準測試不僅僅是技術練習 , 它們塑造了企業評估技術和投資解決方案的方式 。 顯然 , 沒有現有的基準測試能夠捕捉當今異構計算環境的細節以及各種加速硬件在數據處理方面的優勢 。
然而 , 開發這樣的基準測試不是任何單一公司能夠獨自解決的挑戰 。 它需要全行業合作來定義、驗證和采用服務于整個生態系統的新標準 。 硬件廠商、軟件開發商、數據中心運營商和最終用戶需要協作創建準確反映現代數據處理系統性能特征的基準測試 。
對于數據中心運營商來說 , 風險是顯而易見的 。 數十億美元正在投資于新的數據中心開發 , 這些設施的有效規劃、設計和運營依賴于準確理解不同加速器在真實數據處理工作負載下的性能表現 , 而不是合成或面向訓練的指標 。 行業有機會創建一個現代基準測試 , 提供做出更明智基礎設施決策、避免代價高昂的錯誤步驟以及確保系統針對定義AI和分析未來的工作負載進行優化所需的清晰度 。
Q&A
Q1:為什么現有的數據處理基準測試不適用于現代異構計算環境?
A:現有的基準測試如TPC-DS和TPC-H是基于硬件統一的假設設計的 , 主要測試查詢規劃器和執行引擎的性能 。 但現代數據中心包含GPU、TPU、FPGA等多種加速硬件 , 性能越來越依賴這些異構組件的復雜交互 , 傳統基準測試無法準確反映這種復雜的系統級性能表現 。
Q2:硬件廠商宣傳的性能規格為什么不能直接反映實際數據處理能力?
A:廠商常引用峰值FLOPS、內存帶寬等規格 , 但這些指標可能與實際工作負載無關 。 比如GPU的28千萬億次計算能力大部分在張量核心中 , 對ETL任務沒用 。 實際性能還依賴CPU-GPU連接、數據移動、內存容量等系統級因素 , 規格表與真實性能存在很大差距 。
Q3:新的數據處理基準測試應該具備哪些特性?
A:新基準測試需要滿足四個關鍵標準:系統級測量整個節點性能而非單一組件;廠商中立避免偏向特定技術;反映現代分布式系統的單節點和多節點配置;覆蓋ETL、商業智能和生成式AI等多樣化工作負載需求 , 每種工作負載可能需要單獨評估標準 。
【異構計算時代需要新的數據處理基準測試】

    推薦閱讀