單卡2000W功耗也不怕!摩爾線程打造全新128卡節點 邁向10萬卡集群

單卡2000W功耗也不怕!摩爾線程打造全新128卡節點 邁向10萬卡集群
傳統服務器一般就是單機配2-8塊加速卡 , 但是智算集群的規模正在急劇膨脹 , 百卡、千卡、萬卡甚至十萬卡一路不停 , 所以具備強互聯能力的超節點架構正成為焦點 。
近日 , 依托OISA協同創新平臺 , 摩爾線程、中國移動研究院、之江實驗室等合作 , 正式發布了《OISA高密超節點參考設計技術規范》 。
該規范針對當前智算中心面臨的互聯瓶頸、供電壓力及散熱極限 , 提出了全棧式解決方案 , 支持構建自主可控、高性能的智算集群 。
OISA高密超節點大膽引入了大尺寸高密線纜方案 , 在主流32卡至64卡互聯的基礎上 , 實現了標準單寬機柜內128卡的全互聯 , 并支持通過并柜擴展實現256卡部署 。
核心協議層面 , 規范采用基于OISA 2.0版本的原生內存語義支持 , 可以實現跨節點的無障礙數據訪問 , 配合創新報文重構技術 , 將卡間帶寬推向TB/s級別 , 時延縮短至數百納秒 。
如今 , 單顆GPU算立卡的功耗已經攀升至700W甚至1000W以上 , 機柜功率則奔向350kW甚至更高 。
OISA參考設計重點變革了柜級供電、散熱管理兩個方面 。
在供電側 , 引入高壓直流系統與柜內集中供電、盲插技術 , 減少中間電力轉換層級 , 顯著降低能耗損耗 。
在散熱側 , 液冷技術在超節點架構中從“可選項”轉變為“原生標配” , 針對單GPU 2kW以上的散熱需求進行深度優化 , 將PUE值從風冷時代的1.4降至1.05~1.15 。
再結合全量監測流量、壓力、溫度的智能診斷系統 , 導熱效率提升了數千倍 。
展望未來 , OISA協同創新平臺將繼續融合Chiplet、光互連、內存池等前沿技術 , 探索計算的極限 。
【單卡2000W功耗也不怕!摩爾線程打造全新128卡節點 邁向10萬卡集群】

    推薦閱讀