
文章圖片

文章圖片
克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
從DeepSeek R1到Kimi K2 , 從Qwen到GLM , 國產開源模型不僅在Hugging Face熱度榜等榜單上頻頻霸榜 , 更在推理能力、長文本處理、多模態理解等關鍵指標上持續刷新紀錄 。
性能飛躍的背后是參數規模的急劇膨脹 , 當前主流開源模型的參數量已經突破萬億大關 , DeepSeek-R1、Kimi-K2等模型動輒需要數TB的顯存空間 。
【浪潮信息發布新一代AI超節點,支持四大國產開源模型同時運行】更重要的是 , 隨著Agentic AI(代理式人工智能)成為新范式 , 多模型協同和復雜推理鏈帶來計算與通信需求的爆炸式增長 。
面對這一挑戰 , 浪潮信息發布了面向萬億參數大模型的超節點AI服務器“元腦SD200” 。
它可以在單機內同時運行DeepSeek R1、Kimi K2等四大國產開源模型 , 支持超萬億參數大模型推理以及多智能體實時協作 。
并且在實際測試中 , 其64卡整機推理性能實現了超線性擴展 , 是真正意義上的算力聚合突破 。
64張卡 , 1個超節點元腦SD200將64張卡融合成一個統一內存、統一編址的超節點 , 把“整機域”的邊界重新劃定在了多主機之上 。
它以3D Mesh開放架構為骨架 , 底層由自研的Open Fabric Switch貫通 , 將分散在多臺主機里的本土GPU拉進同一個高速互連域 。
在這個統一域里 , 通過遠端GPU虛擬映射技術 , 實現對64卡的統一編址 , 一次性把地址空間擴增到原來的8倍 , 整機實現4TB顯存與64TB內存的超大資源池 , 為長上下文與海量KV Cache提供了充足的空間 。
并且元腦SD200中的計算與數據在原生內存語義下對齊 , 實現了百納秒量級的低延遲通信 , 在小數據包通信這一推理常態場景里 , 端到端時延優于業界主流方案 。
這直接支撐起了元腦SD200單機承載超大模型的能力——在同一臺“超節點”里 , SD200可運行超萬億參數規模的大模型 。
除了硬件架構設計 , 元腦SD200也實現了系統與框架的協同優化 , 其中內置的Smart Fabric Manager會根據負載特征自動構建全局最優路由 , 把拓撲選擇、擁塞規避與算子模式的策略聯動起來 , 盡量把通信成本鎖在“局部最短路徑”上 。
此外 , 元腦SD200支持開放的PD分離框架 , 可以把大模型推理的Prefill與Decode解耦并行 , 能夠實現更高效的推理效率 , 使計算系統的算力性能得到充分發揮 。
軟件生態層面 , 它兼容PyTorch、vllm、SGLang等主流計算框架 , 可以快速遷移既有模型與智能體工作流 , 無需從頭改寫代碼 。
得益于軟硬協同優化 , 當64卡一同上陣進行全參推理時 , 元腦SD200對DeepSeek R1的推理性能實現了約3.7倍的超線性擴展 , 滿機運行Kimi K2全參模型推理性能超線性提升比為1.7倍 。
總之 , 元腦SD200容量夠大、延遲夠低、棧足夠開放 , 既能頂住萬億級模型的密集推理 , 也能支撐多智能體的高并發交互 。
Agentic AI時代 , Infra面臨新需求除了規模越來越大 , 推理能力越來越強 , 大模型也正在經歷從單純的文本生成到多模態、智能體的范式轉變 。
并且智能體AI不再是單一模型的獨立運行 , 而是需要通過多模型協同和復雜推理鏈來完成任務 。
一個典型的智能體任務可能需要調用代碼生成模型、邏輯推理模型、知識檢索模型等多個專業模型 , 它們之間需要實時交互、相互驗證、協同決策 。
這種新范式下 , 推理過程需要生成比傳統模型多近百倍的token , 計算量和通信量都呈現爆炸式增長 , 給整個系統架構帶來根本性困境 。
當參數規模快速突破萬億級別 , 模型必須拆分到幾十甚至上百張卡上時 , 原本在單機內部的高速通信變成了跨機的網絡傳輸 , 通信就成為了更嚴峻的挑戰 。
傳統的InfiniBand網絡雖然帶寬可觀 , 但在處理推理過程中大量的小數據包時 , 延遲問題變得極為突出 。 每一次跨機通信都可能帶來額外延遲 , 而在需要頻繁同步的推理過程中 , 這些延遲會累積成嚴重的性能瓶頸 。
智能體的多模型實時交互需求更是雪上加霜——當多個萬億級模型需要實時協作時 , 傳統架構已經完全無法應對 。
元腦SD200超節點的3D Mesh架構正是在這種背景下應運而生 。 它通過將多個主機的GPU資源整合成一個統一的計算域 , 從根本上解決了顯存容量和通信延遲的雙重困境 。
遠端GPU虛擬映射技術 , 讓分布在不同主機上的GPU能夠像在同一主機內一樣高效協作 , 8倍的地址空間擴增確保了即使是數萬億參數的模型也能完整加載和高效運行 。
隨著摩爾定律的放緩 , 硅基芯片面臨物理極限 , 繼續追求單芯片性能的大幅提升 , 將變得越來越困難和昂貴 。
Scale Out雖然在擴展性上看似無限 , 但其固有的高延遲問題在面對萬億模型的高頻通信需求時顯得力不從心 。
因此 , Scale Up成為了必然的選擇 , 元腦SD200也正是選擇Scale Up路徑 , 通過原生內存語義實現百納秒級低延遲 。
浪潮信息副總經理趙帥指出 , “超節點本質上是系統化思維的產物 , 它不是某一個點的突破 , 而是在現有技術、生態和成本約束下 , 從系統層面去最大化用戶價值” , 即在當前高速信號傳輸的物理限制下 , 需要在有限的物理空間內聚集盡可能多的計算資源 。
元腦SD200通過創新的系統化設計 , 在單機內實現了64路GPU的高速互聯 , 實現了超低延遲通信 , 這是對物理定律和工程實踐的有效平衡 。
推動“開源開放”生態鏈條除了優異的性能表現 , 元腦SD200從設計之初就全面采用了開放架構 。 整個系統基于OCM(開放算力模組)與OAM(開放加速模塊)兩大架構打造 。
OCM標準由中國電子技術標準化研究院發起 , 浪潮信息、百度等18家算力產業上下游企業共同參與編制 。
該架構圍繞支持“一機多芯”設計 , 可快速適配Intel、AMD、ARM等多種計算平臺 。
OAM則由開放計算項目(OCP)社區推動 , 是專為高性能計算與AI加速場景設計的開放模塊標準 。
該架構統一了加速卡的尺寸、電氣接口和散熱設計 , 使來自不同廠商的GPU、NPU等AI加速器可在同一系統中協同運行 。
通過高速互聯技術 , 來自不同廠商的加速卡不僅能夠兼容運行 , 更能實現低延遲直連 , 有效滿足大模型訓練與推理對帶寬的極致要求 。
浪潮信息將OCM與OAM架構有機融合 , 為業界提供了一種開放的超節點技術架構 , 使得上游算力廠商都有機會參與超節點共建 , 下游用戶也擁有更多的算力選擇 。
浪潮信息選擇開放架構不僅是技術選擇 , 更是產業戰略 。
這種開放性為用戶提供了多元化的選擇自由——通過提供多種算力方案 , 從應用角度給客戶更多選擇 。
另一個價值是低遷移成本 , 元腦SD200提供了算子級別的全面支持 , 基于PyTorch等主流框架開發的模型可以直接在其上運行 , 無需重新開發或大規模改造 。
元腦SD200的目標 , 是讓更多企業能夠用得起、用得好超節點系統 , 真正實現智能平權 。
元腦SD200通過開放架構與開源模型的深度結合 , 不僅為萬億參數大模型提供了可靠的基礎設施支撐 , 更推動了“智能平權”的加速落地 。
通過開放促進創新 , 通過創新推動系統性能提升 , 通過規模化降低成本 , 浪潮信息正在讓更多企業和開發者能夠便捷利用頂尖AI技術 , 共享智能時代的發展紅利 。
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態
推薦閱讀
- 紅米Turbo 5已完成備案:天璣8500+金屬中框,Q4季度發布
- 騰訊發布X-Omni:強化學習讓離散自回歸生成方法重煥生機
- 首款國產“Vision Pro”正式官宣,本月發布
- 智譜終于發布GLM-4.5技術報告,從預訓練到后訓練,細節大公開
- 京東攜手榮耀發布首款大屏AI手機:一鍵操作+方言識別
- 今年“618”具身機器人銷售額增長17倍!京東發布智能機器人產業加速計劃
- 小米平板8系列通過3C認證,將和小米16一同發布
- iPhone 17 Pro 即將發布,今年終于大變樣
- 微星發布PRO H810I WIFI:銀黑配色,入門級ITX規格主板
- 華為官宣!突破性成果將發布
