
文章圖片
元腦SD200以開放系統設計向上擴展支持64路本土GPU芯片 , 可實現單機內運行超萬億參數大模型 。
8月7日 , 浪潮信息發布面向萬億參數大模型的超節點AI服務器“元腦SD200” 。
據介紹 , 元腦SD200基于浪潮信息創新研發的多主機低延遲內存語義通信架構 , 以開放系統設計向上擴展支持64路本土GPU芯片 , 可實現單機內運行超萬億參數大模型 , 并支持多個領先大模型機內同時運行及多智能體實時協作與按需調用 , 目前已率先實現商用 。
在實際評測中 , 元腦SD200運行DeepSeek R1和Kimi K2等全參模型的64卡整機推理性能實現超線性擴展 。
【面向萬億參數大模型,浪潮信息發布“元腦SD200”超節點】當前 , 混合專家模型的高效架構正在驅動大模型參數規模持續擴展 , 國內外前沿大模型的參數量快速突破萬億規模 , 這給算力系統架構提出新的挑戰 。 一方面 , 模型參數量增加和序列長度增加帶來的鍵值緩存激增 , 需要智能計算系統具有超大顯存空間承載 , 依靠單芯片或節點的性能提升已難以為繼;且其推理過程作為通信敏感型計算 , 對分布式計算通信時延要求極高 , 需要構建更大向上擴展高速互連域 。 另一方面 , 智能體AI開啟多模型協作的新范式 , 其推理過程需要生成比傳統模型多近百倍的數據詞元 , 導致計算量激增 。
元腦SD200超節點AI服務器是面向萬億參數大模型AI時代而設計 , 基于開放總線交換技術構建 , 在單機內實現了64路GPU芯片的高速統一互連 , 成功解決萬億大模型對超大顯存空間和超低通信時延的核心需求 。 在開放架構之上 , 元腦SD200通過智能總線管理和開放的預填充-解碼分離推理框架實現軟硬件深度協同 , 智能化管理復雜AI計算任務 。
在架構層面 , 元腦SD200基于自主研發的開放總線交換技術首創多主機三維網格系統架構 , 實現64路本土GPU芯片高速互連;通過創新遠端GPU虛擬映射技術 , 突破多主機交換域統一編址難題 , 實現顯存統一地址空間擴增8倍 , 單機可以提供最大4TB顯存和64TB內存 , 為萬億參數、超長序列大模型提供充足鍵值緩存空間 。 同時 , 依托百納秒級超低延遲鏈路 , 構建64卡大高速互連域統一原生內存語義通信 , 實測結果表明 , 在推理過程常見的小數據包通信場景中 , 全規約(All Reduce)性能表現優異 , 顯著提升計算與通信效率 。
在系統層面 , 根據萬億參數大模型計算、通信需求特征 , 浪潮信息開發智能總線管理系統 , 實現超節點64卡全局最優路由的自動創建 , 支持不同拓撲切換 , 資源按需切分 。 對于全規約、全聚集(All Gather)等典型通信算子 , 開展不同數據量大小的細粒度通信策略設計 , 如多層級通信機制等 , 實現通信時延進一步降低 。 同時依托開放的PD分離框架 , 支持異步KV Cache高效傳輸與差異化并行策略 , 在提升業務服務級別目標的同時保持對多元算力的兼容性 , 實現計算與通信架構的深度協同優化 。
元腦SD200超節點AI服務器通過軟硬協同系統創新 , 成功向上擴展突破芯片性能邊界 , 在大模型場景中展示出優異的性能表現 。 結合優化的PD分離框架 , SD200超節點滿機運行DeepSeek R1全參模型推理性能超線性提升比為3.7倍 , 滿機運行Kimi K2全參模型推理性能超線性提升比為1.7倍 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!
推薦閱讀
- 微軟,能保住4萬億市值嗎?
- 玩具裝個“AI腦”售價飆十倍,這個萬億級賽道火了
- 一個模型超了DeepSeek R1、V3,參數671B,成本不到350萬美元
- REDMI Turbo系列新機首發,天璣8500參數曝光
- 給長輩買手機別只看參數!這3款不用教的才適合
- 4萬億芯片巨頭企業帶“毒”進入中國,人民日報怒斥:怎么信你?
- 榮耀X70熱銷,不在參數,在于拿捏人性!
- 什么是高性價比?什么是真香?單純考慮參數,就是耍流氓
- 佳能9月啟用新光刻機工廠,主要面向成熟制程及封裝應用
- 1.5B參數撬動“吉卜力級”全能體驗,國產開源多模態統一模型來了
