英偉達深夜突放大招,全新GPU為長上下文推理而生

英偉達深夜突放大招,全新GPU為長上下文推理而生

文章圖片

英偉達深夜突放大招,全新GPU為長上下文推理而生

本文由半導體產業縱橫(ID:ICVIEWS)綜合
效率最高可達現有旗艦機架的7.5倍 。
英偉達于9月9日正式發布了一款專為處理海量上下文而打造的新型GPU——NVIDIA Rubin CPX , 旨在“以前所未有的速度和效率 , 賦能百萬級Token的軟件編碼、生成式視頻等復雜AI任務 。 ”
這款專用處理器將與NVIDIA Vera CPU及下一代Rubin GPU協同工作 , 共同構成全新的NVIDIA Vera Rubin NVL144 CPX集成平臺 。 該平臺在單個機柜內即可提供高達8 exaflops的AI算力 , 性能是當前NVIDIA GB300 NVL72系統的7.5倍 , 并配備100TB高速內存和每秒1.7 PB的內存帶寬 , 為AI推理設定了全新基準 。

NVIDIA創始人兼首席執行官黃仁勛在發布會上表示:“Vera Rubin平臺將標志著AI計算前沿的又一次飛躍 。 正如RTX徹底改變了圖形和物理AI , Rubin CPX是首款專為海量上下文AI打造的CUDA GPU , 在這種場景下 , 模型可以一次性對數百萬token的知識進行推理 。 ”
為解決推理瓶頸而生:分解式推理架構與專用加速英偉達表示 , 推理已成為人工智能復雜性的新前沿 。 現代模型正演變為能夠進行多步推理、擁有持久內存和長上下文的智能體系統 , 使其能夠處理軟件開發、視頻生成和深度研究等領域的復雜任務 。 這些工作負載對基礎設施提出了前所未有的要求 , 在計算、內存和網絡方面引入了新的挑戰 , 需要我們從根本上重新思考如何擴展和優化推理 。
在這些挑戰中 , 為特定類別的工作負載處理海量上下文變得日益關鍵 。 例如 , 在軟件開發中 , AI系統必須對整個代碼庫進行推理 , 維護跨文件的依賴關系 , 并理解代碼倉庫級別的結構——這正將編碼助手從自動補全工具轉變為智能協作者 。 同樣 , 長視頻和研究應用要求在數百萬token中保持持續的連貫性和記憶 。 這些需求正在挑戰當前基礎設施所能支持的極限 。
英偉達認為 , AI推理主要分為兩個階段:上下文階段(Context Phase)和生成階段(Generation Phase) 。 前者是計算密集型 , 需要高吞吐量處理海量輸入數據;后者是內存帶寬密集型 , 依賴高速數據傳輸逐個生成token 。 為優化效率 , NVIDIA采用了“分解式推理”架構 , 將兩個階段交由最適合的硬件獨立處理 。
而NVIDIA Rubin CPX正是為加速計算密集的“上下文階段”而設計的專用解決方案 。 它采用高成本效益的單片式芯片設計 , 提供高達30 petaflops的NVFP4精度算力 , 配備128GB GDDR7內存 , 并將注意力(attention)功能速度提升至GB300 NVL72的三倍 。 此外 , 它還在單芯片上集成了視頻編解碼器和長上下文推理處理功能 , 極大地提升了視頻搜索、高清視頻生成等應用的性能 。

NVIDIA指出 , 通過這種專用硬件 , 企業能夠以前所未有的規模創造價值 , 預計每投入1億美元資本 , 即可帶來高達50億美元的token收入 。
行業領導者積極擁抱 , 軟件生態全面支持新平臺已獲得行業創新者的廣泛關注 。 AI代碼編輯器開發商Cursor表示 , Rubin CPX將帶來“閃電般的代碼生成速度” , 改變軟件開發模式 。 生成式AI公司Runway認為 , 新平臺是“性能上的一次重大飛躍” , 將幫助創作者在視頻工作中獲得前所未有的速度與真實感 。 致力于軟件工程自動化的AI研究公司Magic也指出 , Rubin CPX能極大地加速其處理億級token上下文模型的計算工作負載 。
Rubin CPX將得到NVIDIA AI技術棧的全面支持 , 包括可高效擴展AI推理的NVIDIA Dynamo平臺、NVIDIA Nemotron多模態模型系列以及包含NIM微服務的NVIDIA AI Enterprise企業級軟件平臺 。
NVIDIA Rubin CPX平臺預計將于2026年底正式上市 。
GB300 NVL72系統基準最新測試結果公布在發布未來架構的同時 , NVIDIA于9月9日公布的最新MLPerf Inference v5.1行業基準測試結果中 , 再次彰顯了其在當前AI推理領域的領導地位 。
本輪測試中 , NVIDIA首次提交了基于全新Blackwell Ultra架構(通過GB300 NVL72系統)的成績 , 并立即刷新了所有新增基準測試的性能記錄 , 包括Llama 3.1 405B和Whisper等 。
尤其是在處理高達6710億參數的混合專家模型DeepSeek-R1時 , Blackwell Ultra的單GPU性能達到了上一代Hopper架構的約5倍 , 實現了巨大的性能飛躍 。 這一成就得益于NVIDIA的全棧優化能力 , 包括:廣泛應用NVFP4四位浮點格式進行加速、通過TensorRT-LLM等軟件庫實現先進的模型和KV緩存量化 , 以及為復雜模型開發的全新并行技術 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
【英偉達深夜突放大招,全新GPU為長上下文推理而生】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀