英偉達深夜突放大招，全新GPU為長上下文推理而生iPhone

文章圖片

本文由半導體產業縱橫（ID：ICVIEWS）綜合
效率最高可達現有旗艦機架的7.5倍。
英偉達于9月9日正式發布了一款專為處理海量上下文而打造的新型GPU——NVIDIA Rubin CPX ，旨在“以前所未有的速度和效率，賦能百萬級Token的軟件編碼、生成式視頻等復雜AI任務。 ”
這款專用處理器將與NVIDIA Vera CPU及下一代Rubin GPU協同工作，共同構成全新的NVIDIA Vera Rubin NVL144 CPX集成平臺。該平臺在單個機柜內即可提供高達8 exaflops的AI算力，性能是當前NVIDIA GB300 NVL72系統的7.5倍，并配備100TB高速內存和每秒1.7 PB的內存帶寬，為AI推理設定了全新基準。

NVIDIA創始人兼首席執行官黃仁勛在發布會上表示：“Vera Rubin平臺將標志著AI計算前沿的又一次飛躍。正如RTX徹底改變了圖形和物理AI ， Rubin CPX是首款專為海量上下文AI打造的CUDA GPU ，在這種場景下，模型可以一次性對數百萬token的知識進行推理。 ”
為解決推理瓶頸而生：分解式推理架構與專用加速英偉達表示，推理已成為人工智能復雜性的新前沿。現代模型正演變為能夠進行多步推理、擁有持久內存和長上下文的智能體系統，使其能夠處理軟件開發、視頻生成和深度研究等領域的復雜任務。這些工作負載對基礎設施提出了前所未有的要求，在計算、內存和網絡方面引入了新的挑戰，需要我們從根本上重新思考如何擴展和優化推理。
在這些挑戰中，為特定類別的工作負載處理海量上下文變得日益關鍵。例如，在軟件開發中， AI系統必須對整個代碼庫進行推理，維護跨文件的依賴關系，并理解代碼倉庫級別的結構——這正將編碼助手從自動補全工具轉變為智能協作者。同樣，長視頻和研究應用要求在數百萬token中保持持續的連貫性和記憶。這些需求正在挑戰當前基礎設施所能支持的極限。
英偉達認為， AI推理主要分為兩個階段：上下文階段（Context Phase）和生成階段（Generation Phase）。前者是計算密集型，需要高吞吐量處理海量輸入數據；后者是內存帶寬密集型，依賴高速數據傳輸逐個生成token 。為優化效率， NVIDIA采用了“分解式推理”架構，將兩個階段交由最適合的硬件獨立處理。
而NVIDIA Rubin CPX正是為加速計算密集的“上下文階段”而設計的專用解決方案。它采用高成本效益的單片式芯片設計，提供高達30 petaflops的NVFP4精度算力，配備128GB GDDR7內存，并將注意力（attention）功能速度提升至GB300 NVL72的三倍。此外，它還在單芯片上集成了視頻編解碼器和長上下文推理處理功能，極大地提升了視頻搜索、高清視頻生成等應用的性能。

NVIDIA指出，通過這種專用硬件，企業能夠以前所未有的規模創造價值，預計每投入1億美元資本，即可帶來高達50億美元的token收入。
行業領導者積極擁抱，軟件生態全面支持新平臺已獲得行業創新者的廣泛關注。 AI代碼編輯器開發商Cursor表示， Rubin CPX將帶來“閃電般的代碼生成速度” ，改變軟件開發模式。生成式AI公司Runway認為，新平臺是“性能上的一次重大飛躍” ，將幫助創作者在視頻工作中獲得前所未有的速度與真實感。致力于軟件工程自動化的AI研究公司Magic也指出， Rubin CPX能極大地加速其處理億級token上下文模型的計算工作負載。
Rubin CPX將得到NVIDIA AI技術棧的全面支持，包括可高效擴展AI推理的NVIDIA Dynamo平臺、NVIDIA Nemotron多模態模型系列以及包含NIM微服務的NVIDIA AI Enterprise企業級軟件平臺。
NVIDIA Rubin CPX平臺預計將于2026年底正式上市。
GB300 NVL72系統基準最新測試結果公布在發布未來架構的同時， NVIDIA于9月9日公布的最新MLPerf Inference v5.1行業基準測試結果中，再次彰顯了其在當前AI推理領域的領導地位。
本輪測試中， NVIDIA首次提交了基于全新Blackwell Ultra架構（通過GB300 NVL72系統）的成績，并立即刷新了所有新增基準測試的性能記錄，包括Llama 3.1 405B和Whisper等。
尤其是在處理高達6710億參數的混合專家模型DeepSeek-R1時， Blackwell Ultra的單GPU性能達到了上一代Hopper架構的約5倍，實現了巨大的性能飛躍。這一成就得益于NVIDIA的全棧優化能力，包括：廣泛應用NVFP4四位浮點格式進行加速、通過TensorRT-LLM等軟件庫實現先進的模型和KV緩存量化，以及為復雜模型開發的全新并行技術。
*聲明：本文系原作者創作。文章內容系其個人觀點，我方轉載僅為分享與討論，不代表我方贊成或認同，如有異議，請聯系后臺。
【英偉達深夜突放大招，全新GPU為長上下文推理而生】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析，關注我們！

英偉達深夜突放大招，全新GPU為長上下文推理而生

推薦閱讀

郁金香的功效和作用郁金香作用

石家莊好玩的地方

江上漁者的意思翻譯

極兔快遞會送到農村嗎

安全生產的重點行業領域包括哪些

客廳鋪瓷磚要注意什么

大赦天下到底是什么意思，大赦天下又分幾種方式？

海信冰箱哪個系列最好

西安都有什么特產值得買

3歲幼兒發型綁扎方法

中國中午12點是美國幾點

一加8t還值得入手嗎？一加8t差評為什么這莫多？

河蟹放水里能活幾天

蔡依林舞臺，蔡依林舞臺風堪比中國版的lady

高鐵票自取票和車站速取，12306訂的火車票顯示是自取不是互聯網是可以在自動取票機上取的

重癥肌無力的預防措施預防重癥肌無力到底有哪些方法