
文章圖片
【英偉達Rubin平臺量產:整合6款全新芯片,推理Token成本降低10倍】
文章圖片

文章圖片

文章圖片

文章圖片
1月6日 , 英偉達(NVIDIA)首席執行官黃仁勛在CES2026展會發表主題演講 , 正式推出最新的英偉達Rubin平臺 , 并表示“已全面投入量產” 。
Rubin平臺由6款全新芯片組成 , 涵蓋Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4 DPU及Spectrum-6以太網交換機的極致協同設計 , 整合為一臺性能驚人的AI超級計算機 , 可以大幅縮短AI訓練時間并降低推理Token生成成本 。 目前 , 這六款芯片已從合作制造方處回廠 , 并通過部分關鍵測試 , 整體進度正按計劃推進 。
據英偉達公布的數據 , Rubin平臺的訓練性能達到前代Blackwell的3.5倍 , 運行AI軟件的性能提升5倍 。 此外 , 其推理每個代幣(Token)生成成本相較于英偉達Blackwell平臺可降低多達10倍 , 與前一代相比 , 英偉達Rubin平臺在訓練MoE模型時所需的GPU數量減少至原來的四分之一 , 進一步推動人工智能的普及應用 。具體來說 , Rubin平臺帶來了五項關鍵創新 , 包括最新一代的英偉達NVLink互連技術、Transformer引擎、機密計算(Confidential Computing)與RAS引擎 , 以及英偉達Vera CPU 。 這些突破將加速代理式人工智能、高級推理能力和超大規模混合專家(MoE)模型的推理 。
新一代Vera CPU基于新一代Armv9.2架構的定制化核心(代號Olympus) , 專為代理推理設計 , 總共集成了88個核心、176線程(支持英偉達空間多線程技術) , 配備1.8 TB/s NVLink-C2C一致性內存互聯通道 , 支持1.5 TB系統內存(為Grace平臺的3倍) , 通過SOCAMM LPDDR5X實現1.2 TB/s內存帶寬 , 并具備機架級機密計算能力 。 這些特性共同帶來相較于Grace平臺2倍的數據處理、壓縮及CI/CD性能提升 。
Rubin GPU集成第三代Transformer引擎 , 具備硬件加速自適應壓縮功能 , 可為AI推理提供50 petaflops的NVFP4算力 。 每個GPU帶寬達3.6TB/s , 而Vera Rubin NVL72機架的整體帶寬更提升至260TB/s 。
ConnectX-9 SuperNIC通過InfiniBand和以太網支持每端口800Gb/s的速度 , 為千兆級人工智能計算工作負載提供強大支持 。 它提供了極其快速、高效的網絡連接 , 顯著提升了人工智能工廠和云平臺的系統性能 。
強大的網絡連接助力 NVIDIA ConnectX-9 SuperNIC 推動加速、千兆級人工智能計算架構的下一波創新 。 ConnectX-9 SuperNICs 與下一代 NVIDIA Spectrum-X 以太網和 NVIDIA Quantum-X800 網絡平臺無縫集成 , 為 NVIDIA Rubin GPU 提供高達每秒 1.6 Tb/s 的吞吐量 。
這些平臺提供了萬億參數GPU計算、分解服務架構和代理式人工智能應用所需的穩健性、功能集和可擴展性 。 憑借增強的能效 , ConnectX-9 SuperNIC支持創建運營數十萬臺GPU的可持續人工智能數據中心 , 確保為人工智能的發展提供面向未來的基礎設施 。
ConnectX-9 SuperNIC還可提供增強的可編程輸入/輸出(IO)和基于遙測的擁塞控制功能 , 實現了業界領先的網絡性能和峰值人工智能(AI)工作負載效率 。 此外 , ConnectX-9 InfiniBand SuperNIC擴展了NVIDIA可擴展分層聚合與歸約協議(SHARP)?的功能 , 以增強NVIDIA在高性能計算環境中的網絡內計算能力 , 從而進一步提升科學計算工作負載、大規模訓練和推理的整體效率和性能 。
NVIDIA BlueField-4一款專為千兆級推理打造的新型人工智能原生存儲基礎設施所需的800G DPU , 可助力智能體人工智能的加速與擴展 。 其整合了64核心的Grace CPU和ConnectX-9 SuperNIC , 相比BlueField-3實現2倍網絡傳輸能力、6倍計算性能與3倍內存帶寬提升 。 據介紹 , 英偉達推理上下文內存存儲平臺通過擴展GPU內存容量 , 構建起上下文內存支撐架構 , 實現節點間的高速數據共享 。 相較于傳統存儲方案 , 該平臺可使每秒令牌處理量提升最高5倍 , 能效提升最高5倍 。
第六代NVLink交換機為Rubin平臺提供網絡架構 , 采用400G SerDes技術 , 每CPU支持3.6 TB/s全對全帶寬 , 總帶寬達28.8 TB/s , 支持14.4 TFLOPS FP8網絡內計算 , 并采用100%液冷設計方案 。
所有這些技術最終匯聚于英偉達Vera Rubin NVL72機架系統 , 集成了72顆英偉達Rubin GPU、36顆英偉達Vera CPU、英偉達NVLink 6、英偉達ConnectX-9 SuperNIC以及英偉達BlueField-4 DPU 。 相較Blackwell平臺實現顯著性能躍升 。
具體數據如下:NVFP4推理性能提升5倍(達3.6 EFLOPS)、NVFP4訓練性能提升3.5倍(達2.5 EFLOPS)、LPDDR5x內存容量提升2.5倍(達54 TB)、HBM4顯存容量提升1.5倍(達20.7 TB)、HBM4顯存帶寬提升2.8倍(達1.6 PB/s)、縱向擴展帶寬提升2倍(達260 TB/s) 。
英偉達同時還發布Spectrum-X以太網共封裝光學解決方案 , 提供102.4 Tb/s橫向擴展交換架構 , 集成200G硅光共封裝技術 , 在大規模部署中可實現95%的有效帶寬利用率 。 該系統能效提升5倍 , 可靠性增強10倍 , 應用程序運行效率提高5倍 。
此外 , 英偉達還推出了NVIDIA DGX SuperPOD?作為大規模部署Rubin系統的參考架構 , 集成了NVIDIA DGX Vera Rubin NVL72或DGX Rubin NVL8系統 , 并搭配了NVIDIA BlueField-4 DPU、NVIDIA ConnectX-9 SuperNIC、NVIDIA InfiniBand網絡以及NVIDIA Mission Control軟件 。
此外 , 針對主流數據中心市場 , 英偉達還將推出NVIDIA DGX Rubin NVL8配置方案 。 這是一款通過NVLink連接8顆Rubin GPU的服務器主板 , 用于支持基于x86的生成式AI平臺 。 HGX Rubin NVL8平臺可加速AI與高性能計算(HPC)工作負載的訓練、推理及科學計算 。
英偉達透露 , 包括亞馬遜AWS、谷歌云、微軟Azure和甲骨文云在內的多家云服務商將于2026年率先部署基于Vera Rubin的實例 。 此外 , CoreWeave、Lambda、Nebius和Nscale等云合作伙伴也將陸續跟進 。
編輯:芯智訊-浪客劍
推薦閱讀
- 黃仁勛CES放出大殺器:下一代Rubin架構推理成本降10倍
- 英偉達施壓存儲器廠商,探詢2026年16層HBM交貨可行性
- 新石器無人車開拓歐洲市場 與電動貨運提供商Luxmea達成戰略合作
- 史上最貴!蘋果A20芯片單價可能高達280美元
- 一加Turbo6已抵達門店,可上手體驗 即將發布
- 2025年最爛顯卡評選:英偉達三款、AMD一款!8GB顯存成眾矢之的
- 客戶需求超200萬顆?英偉達已要求臺積電增加H200產能
- 微星兩款32寸4K QD-OLED顯示器新品重磅推出!純黑表現提升達40%
- 英偉達30億美元收購AI21 Labs
- 以“表”傳情讓每份心意都能精準抵達,年末好禮選擇華為智能手表就對了
