Nvidia SCADA技術(shù)將存儲(chǔ)控制路徑轉(zhuǎn)移至GPU_英偉達(dá)|ssd|ai

【Nvidia SCADA技術(shù)將存儲(chǔ)控制路徑轉(zhuǎn)移至GPU】Nvidia SCADA方案正在為AI推理工作負(fù)載引入GPU控制的存儲(chǔ)IO ，相比GPUDirect ，它在小塊傳輸方面將更加快速。
什么是SCADA技術(shù)
SCADA是Nvidia在\"Storage-Next\"架構(gòu)中提出的術(shù)語，全稱為Scaled Accelerated Data Access（規(guī)模化加速數(shù)據(jù)訪問）。這是一種存儲(chǔ)數(shù)據(jù)IO方案， GPU服務(wù)器中的GPU可以直接啟動(dòng)和控制存儲(chǔ)IO 。這與Nvidia現(xiàn)有的GPUDirect協(xié)議形成對(duì)比，后者用于加速存儲(chǔ)IO 。
在最初的設(shè)計(jì)中， GPU被x86服務(wù)器視為輔助加速器，服務(wù)器控制著數(shù)據(jù)的流入和流出，同時(shí)擁有IO的控制路徑和數(shù)據(jù)路徑。 GPUDirect將數(shù)據(jù)路徑從x86 CPU中分離出來，通過RDMA技術(shù)實(shí)現(xiàn)GPU內(nèi)存與NVMe驅(qū)動(dòng)器之間的直接數(shù)據(jù)傳輸，但CPU仍然控制著控制路徑。而SCADA更進(jìn)一步，將控制路徑也從CPU中分離出來。
AI訓(xùn)練與推理的不同需求
AI訓(xùn)練通常需要大批量數(shù)據(jù)傳輸，傳輸?shù)目刂坡窂綍r(shí)間相對(duì)較小。而AI推理需要小塊IO（小于4KB），每次傳輸?shù)目刂坡窂綍r(shí)間相對(duì)較大。 Nvidia的研究發(fā)現(xiàn) ，讓GPU啟動(dòng)這類傳輸將減少時(shí)間并加速推理過程。 SCADA正是這一發(fā)現(xiàn)的產(chǎn)物， Nvidia在2025年FMS論文中對(duì)此進(jìn)行了詳細(xì)討論。
生態(tài)系統(tǒng)合作伙伴的支持
Nvidia正與存儲(chǔ)生態(tài)系統(tǒng)合作伙伴合作，將使用SCADA的SSD和控制器產(chǎn)品化。 SSD控制器制造商Marvell的閃存存儲(chǔ)產(chǎn)品營銷總監(jiān)Chander Chadha表示：\"AI基礎(chǔ)設(shè)施的需求促使存儲(chǔ)公司開發(fā)專門支持GPU的SSD、控制器、NAND等技術(shù) ，重點(diǎn)是為AI推理提供更高的IOPS（每秒輸入/輸出操作次數(shù)），這將與CPU連接驅(qū)動(dòng)器有根本不同，后者更關(guān)注延遲和容量。 \"
Chadha解釋說：\"GPU在SCADA框架內(nèi)啟動(dòng)存儲(chǔ)事務(wù) ，該框架圍繞內(nèi)存語義構(gòu)建\" ，這意味著SSD控制器必須響應(yīng)加載和存儲(chǔ)請(qǐng)求。
他指出，當(dāng)前的SSD在IOPS方面響應(yīng)速度不夠快， \"對(duì)于小于4KB的數(shù)據(jù)集，導(dǎo)致PCIe總線利用率不足，使GPU缺乏數(shù)據(jù)并浪費(fèi)周期。 \"GPU在推理工作負(fù)載中可能需要此類數(shù)據(jù)來維持超過1000個(gè)并行線程。相比之下，采用CPU啟動(dòng)傳輸?shù)腁I訓(xùn)練需要的并行線程較少。 Chadha說：\"GPU并行線程的數(shù)量要低得多——幾十個(gè)對(duì)幾千個(gè)——而且數(shù)據(jù)集規(guī)模更大。 \"
技術(shù)發(fā)展方向
更快的PCIe總線（如PCIe 6和7）將有所幫助，但SSD控制器也需要更新SCADA加速器功能和\"針對(duì)較小負(fù)載的最佳糾錯(cuò)方案。 \"
Chadha預(yù)計(jì)將出現(xiàn)能夠處理兩種類型工作負(fù)載的SSD控制器， \"能夠同時(shí)處理PCIe和以太網(wǎng)流量。 \"他還表示， \"預(yù)計(jì)未來將看到與高帶寬閃存或CXL網(wǎng)絡(luò)接口相關(guān)的工作。 \"
美光的SCADA實(shí)踐
NAND和SSD供應(yīng)商美光也積極參與SCADA開發(fā) 。該公司推出了PCIe Gen 6 SSD——9650 ，具有\(zhòng)"小塊操作優(yōu)化\"功能。 7.68TB型號(hào)可提供高達(dá)540萬隨機(jī)讀取IOPS 。美光在SC25展會(huì)上演示了44個(gè)這樣的SSD ，使用SCADA編程模型實(shí)現(xiàn)了2.3億IOPS 。
該設(shè)置使用連接到Broadcom PEX90000 PCIe Gen 6交換機(jī)的SSD ，安裝在H3 Platform Falcon 6048 PCIe Gen 6服務(wù)器中。該服務(wù)器包含三個(gè)Nvidia H100 PCIe Gen 5 GPU 。
美光表示，該系統(tǒng)\"展示了從1到44個(gè)SSD的線性擴(kuò)展。 \"演示的2.3億最大IOPS數(shù)字非常接近44個(gè)驅(qū)動(dòng)器聚合的540萬隨機(jī)讀取IOPS的理論最大值2.376億。
美光總結(jié)道：\"結(jié)合PCIe Gen6高性能SSD ，這種SCADA架構(gòu)實(shí)現(xiàn)了向量數(shù)據(jù)庫、圖神經(jīng)網(wǎng)絡(luò)和大規(guī)模推理流水線等工作負(fù)載的實(shí)時(shí)數(shù)據(jù)訪問。 \"
補(bǔ)充說明
SCADA縮寫傳統(tǒng)上用于監(jiān)督控制和數(shù)據(jù)采集，指的是遙測領(lǐng)域。 Nvidia的用法雖然不同，但具有相似性。
Q&A
Q1：Nvidia SCADA技術(shù)相比GPUDirect有什么優(yōu)勢？
A：SCADA技術(shù)將存儲(chǔ)控制路徑也轉(zhuǎn)移到GPU ，而GPUDirect只轉(zhuǎn)移了數(shù)據(jù)路徑。對(duì)于AI推理中常見的小于4KB的小塊數(shù)據(jù)傳輸， SCADA能夠顯著減少傳輸時(shí)間，提高推理速度，因?yàn)镚PU可以直接啟動(dòng)和控制存儲(chǔ)操作。
Q2：為什么AI推理和AI訓(xùn)練對(duì)存儲(chǔ)IO的需求不同？
A：AI訓(xùn)練通常需要大批量數(shù)據(jù)傳輸，控制路徑時(shí)間相對(duì)較小，并行線程數(shù)量較少（幾十個(gè)）。而AI推理需要小塊IO處理（小于4KB），每次傳輸?shù)目刂坡窂綍r(shí)間相對(duì)較大，需要維持超過1000個(gè)并行線程，因此對(duì)IOPS性能要求更高。
Q3：美光在SCADA技術(shù)演示中取得了什么成果？
A：美光使用44個(gè)PCIe Gen 6 SSD 9650 ，在H3 Platform Falcon 6048服務(wù)器上演示了2.3億IOPS的性能，接近理論最大值2.376億。這證明了SCADA架構(gòu)能夠?qū)崿F(xiàn)從1到44個(gè)SSD的線性擴(kuò)展，為向量數(shù)據(jù)庫和大規(guī)模推理流水線提供實(shí)時(shí)數(shù)據(jù)訪問。

Nvidia SCADA技術(shù)將存儲(chǔ)控制路徑轉(zhuǎn)移至GPU

推薦閱讀

云頂之弈9.15吃雞陣容配置推薦云頂之弈9.15版本什么陣容強(qiáng) 帝國野獸

內(nèi)蒙古哪里羊肉好吃

奧迪q5電池價(jià)格多少錢一輛奧迪q5最新價(jià)格

《看門狗2》最值得解鎖技能推薦

海馬玩模擬器怎么root

小米9怎么設(shè)置鎖屏通知時(shí)間小米9怎么設(shè)置鎖屏通知

1900年9月23日：第二國際巴黎代表大會(huì)召開

第一次用康寧玻璃鍋怎么使用康寧玻璃鍋首次使用注意什么

絕句江碧鳥逾白古詩翻譯絕句江碧鳥逾白古詩翻譯是什么

龍珠Z卡卡羅特女角色資料簡單介紹新女角色怎么樣

小米10s參數(shù)配置小米10s參數(shù)詳細(xì)參數(shù)配置。

重慶讀什么專科,普通女生讀什么專科專業(yè)好呢

藍(lán)色玫瑰花語是什么啊

褲子94A和94B有什么區(qū)別，褲子96a和94b有什么區(qū)別？

描寫家的最新經(jīng)典句子

我的夢(mèng)想的優(yōu)秀小學(xué)作文