Vast Data與CoreWeave的11.7億美元合作協議釋放重要信號

Vast Data與CoreWeave的11.7億美元合作協議釋放重要信號

如果說AI模型構建者和新興云服務商在某個問題上達成一致 , 那就是他們都不想為存儲問題而煩惱 。 超大規模云服務商和云構建者已經創建了自己獨特的存儲系統 , 認為自己已經掌握了所有知識 。 誠然 , 他們確實了解很多 , 比任何人都更了解自己的工作負載以及如何大規模運行 , 但他們并非無所不知 。
因此 , 對于任何想在生成式AI革命中獲得重大發展的新興企業來說 , 可以說新興云服務商和模型構建者是建立業務并獲得超大規模云服務商和云構建者關注的最佳途徑 , 因為他們設定了基礎設施的條件 , 讓其他人來搭建以供租用 。
這就是為什么我們看到Vast Data、DataDirect Networks和WekaIO都在爭奪與新興云服務商和模型構建者的合作 , Pure Storage甚至IBM的Spectrum Scale(原GPFS)也在競爭中 。 大型云服務商——亞馬遜云服務、微軟Azure和谷歌——都有面向HPC和AI工作負載的托管Lustre并行文件系統服務 。 雖然Oracle規模不及超大規模云服務商但比新興云服務商更大 , 它也有自己的托管Lustre服務 , 同時還與WekaIO建立合作關系來對沖風險 , 吸引那些對Lustre已經厭煩的客戶 , 因為Lustre以難以駕馭而聞名 。
【Vast Data與CoreWeave的11.7億美元合作協議釋放重要信號】Vast Data與主要新興云服務商建立了合作關系——CoreWeave、Crusoe、Lambda Labs、Nebius和Nscale——隨著更多專業化和本地化的新興云服務商的出現 , 無疑會有更多合作伙伴加入 。
但從本周開始 , CoreWeave已成為Vast Data的頭號客戶 , 其重要性甚至超過了為xAI在孟菲斯數據中心的\"Colossus\"GPU集群部署Vast Data存儲 。 可以說 , 2024年底與xAI的交易是Vast Data的轉折點 , 因為最初的Colossus系統擁有超過10萬個英偉達\"Hopper\"H100 GPU , 據報道還有遠超1EB的閃存存儲來訓練xAI的Grok系列大語言模型 。 但Vast Data與CoreWeave簽署的11.7億美元協議將這一切提升到了新的高度 。
關于這筆交易需要記住的是 , 它跨越多年——我們猜測是五年 , 但可能更短或更長 , Vast Data沒有透露具體信息——收入協議涵蓋實現公司\"通用存儲\"層的軟件許可證 , 該存儲層運行在分解式閃存服務器之上 , 以及更高級別的檢查點、KV緩存、流處理、數據庫和其他數據平臺服務 , 這些構成了公司所謂的\"AI操作系統\" , 行業通常稱之為數據平臺 。 CoreWeave需要向OEM或ODM采購服務器、存儲和網絡硬件來運行Vast Data的軟件 , 這意味著CoreWeave在數據平臺方面的總投資價值達到數十億美元 。
某些廠商將獲得大量配備閃存和CPU內核的服務器訂單...
與橫向擴展網絡一樣 , 存儲在如今的AI集群預算中占比相對較小 , 但我們認為這種情況可能正在改變 。 正如我們本周早些時候在\"AI基礎設施支出的進一步上調預測\"中指出的 , 我們分析了IDC最新的AI硬件、軟件和服務支出預測 , 看起來只有1.9%的AI支出用于存儲 。 這是2029年的數據 , 我們有足夠的細節根據IDC關于其他領域和總體支出的信息做出猜測 。 這在我們看來似乎有點偏低 , 根據Vast Data聯合創始人Jeff Denworth的說法 , 確實如此 。
\"我認為新興云服務商的平均水平是3%到5% , \"Denworth告訴The Next Platform 。 \"原因是許多新興云服務商沒有一級云服務商通常具備的綜合數據處理平臺 , 后者構建了所有這些完善的數據服務 。 這是這些新興云服務商喜歡Vast Data的原因之一 , 因為產品經理正在尋找銷售不僅僅是按小時計費的浮點運算的方法 。 我們的能力讓他們不必拼湊十幾種不同的東西 。 \"
作為一個案例 , Denworth說他們正在與一個大型AI實驗室(我們稱之為模型構建者 , 但他不便透露具體是哪一家)合作 , 該實驗室正在對一個流行的AI服務進行強化學習 。 該服務產生100 GB/秒的事件流 , 這對存儲系統來說不算很大的I/O負載 , 但對Kafka流來說是很大的負載 。 在這種情況下 , Kafka事件I/O如此密集 , 以至于無法構建足夠大的Kafka集群來支持它 , 所以他們正在考慮開發自己的流處理系統 。 使用Vast Event Broker API更有意義 , 它讓Kafka應用程序以為自己在與Kafka對話 , 但實際上只是通過兼容的API與原生底層通用、分解式、共享一切閃存陣列對話 。 在相同的服務器硬件上 , Vast Event Broker可以處理10倍的Kafka流 , 正如公司在2月份推出這一AI操作系統層時告訴我們的 。
Vast Data的另一個特性——快速檢查點——將幫助新興云服務商的任何客戶避免原本非常昂貴的停機時間 , 當大型AI集群中的GPU、網卡或其他軟件錯誤導致故障時 。 在AI訓練運行中 , 當一個GPU無法進行數學運算時 , 訓練運行就會完全停止 。 Vast Data能夠支持KV緩存(提升AI推理性能)、數據庫表(包括從輸入Token創建的向量)、塊存儲或對象存儲 , 這意味著像CoreWeave這樣的新興云服務商可以在同一個分解式存儲上提供更多服務 。
雖然沒有具體說明 , 但這就是CoreWeave的計劃 , 該公司幾周前推出了一個對象存儲平臺 , 實際上將運行在Vast Data軟件上 。 Denworth說 , Vast Data和CoreWeave已經簽署了兩家公司工程團隊之間的合作協議 , 以開發CoreWeave可以銷售或捆綁在其產品中的服務 , 這預計將為Vast Data帶來現有產品的改進或全新功能 。
\"我不會代表CoreWeave發言——這是他們的服務產品 , \"Denworth說 。 \"但在工程層面 , 許多不同維度上都有大量積極的工作在進行 。 \"
這讓我們回到了五年前我們提出的觀點 , 那是在生成式AI熱潮發生之前的幾年 。 我們當時就在爭論 , 如果AI系統架構師希望提高這些極其昂貴的計算引擎的利用率 , 他們需要更多地思考存儲以及將其連接到GPU計算引擎的網絡 。 出于經濟和技術原因 , 他們都需要這樣做 , 因為數據中心中唯一與英偉達GPU一樣昂貴的就是IBM Systems z大型機上的單個內核 。 考慮到GPU系統的高成本 , 沒有人能承受GPU系統利用率不足的后果 。 IBM在這方面值得稱贊 , 因為大多數大型機用戶連續多年運行在98%以上的CPU利用率而不停機 , 這是因為輔助I/O子系統非常寬廣和快速 , 與\"主機\"中的內存和計算子系統以及在這些大型鐵器上使用的I/O密集型批處理和OLTP工作負載精確匹配 。
隨著GPU系統的縱向擴展和橫向擴展 , 對能夠跟上步伐的存儲的需求變得更加重要 。
這就是為什么我們認為AI集群成本的3%到5%之間的數據平臺支出似乎仍然是一個保守的估計 。 話雖如此 , 從現在到本十年末 , 基于英偉達聯合創始人兼首席執行官黃仁勛在8月份宣傳的最后一個數字 , AI集群支出大約在3萬億到4萬億美元之間 , 3%到5%仍然是一個非常大的數字——五年內用于AI系統數據平臺的支出在900億美元到2000億美元之間 。 根據IDC估計 , 整個OEM磁盤和閃存陣列市場今年將產生約352億美元的收入 , 按照目前約2.5%的年增長率 , 從2025年到2030年(含)將達到2250億美元的傳統存儲收入 。 因此 , AI系統存儲將占全球總存儲收入的30%到50% , 但AI存儲支出仍將被AI計算支出完全超越 。
除非情況發生變化 , 我們認為可能會如此 。 想象一下 , 如果有一個超融合平臺將AI存儲和AI計算真正地結合在同一個外殼下...
Q&A
Q1:Vast Data與CoreWeave簽署的11.7億美元協議具體包含什么內容?
A:這是一個多年期協議(估計為五年) , 涵蓋Vast Data\"通用存儲\"層的軟件許可證 , 該層運行在分解式閃存服務器上 , 還包括檢查點、KV緩存、流處理、數據庫等數據平臺服務 。 CoreWeave需要另外采購硬件來運行這些軟件 , 總投資價值達數十億美元 。
Q2:為什么新興云服務商在存儲方面的支出比例會更高?
A:根據Vast Data聯合創始人Jeff Denworth的說法 , 新興云服務商的存儲支出占比通常為3%到5% , 比預測的1.9%更高 。 這是因為新興云服務商缺乏一級云服務商那樣的綜合數據處理平臺 , 需要通過Vast Data這樣的解決方案避免拼湊十幾種不同的技術 。
Q3:Vast Data的技術相比傳統解決方案有什么優勢?
A:Vast Data提供多項關鍵優勢:其Event Broker API在相同硬件上可處理10倍的Kafka流;快速檢查點功能可避免GPU集群故障時的昂貴停機;支持KV緩存、數據庫、塊存儲和對象存儲等多種服務 , 讓客戶能在同一個分解式存儲平臺上提供更多服務 。


    推薦閱讀