8.9ms推理速度新紀錄!1元百萬token,浪潮信息加速智能體產業化

8.9ms推理速度新紀錄!1元百萬token,浪潮信息加速智能體產業化

文章圖片

8.9ms推理速度新紀錄!1元百萬token,浪潮信息加速智能體產業化

文章圖片

8.9ms推理速度新紀錄!1元百萬token,浪潮信息加速智能體產業化

文章圖片

8.9ms推理速度新紀錄!1元百萬token,浪潮信息加速智能體產業化

文章圖片


克雷西 henry 發自 凹非寺
量子位 | 公眾號 QbitAI
一百萬Token的輸出推理成本 , 只要一塊錢了 。
今年的人工智能計算大會上 , 浪潮信息發布了超擴展AI服務器元腦HC1000 , 把AI推理成本狠狠地打了下來 。
與此同時 , 浪潮信息還推出另一殺手锏——元腦SD200超節點 , 也將DeepSeek-R1的Token生成時間打到了毫秒量級 。
浪潮信息首席AI戰略官劉軍
隨著AI競賽進入智能體產業化階段 , 能力、速度和成本成為了決勝的核心三要素 。
浪潮信息打出的這套組合拳 , 針對的就是其中涉及到AI Infra的兩項關鍵指標——速度與成本 。

元腦SD200和元腦HC1000 , 將為多智能體協同與復雜任務推理的規?;涞?, 提供高速度、低成本的算力基礎設施 。
DeepSeek-R1推理進入10ms時代首先來看元腦SD200超節點AI服務器 。
它可以在單機內同時運行DeepSeek-R1、Kimi K2等四大國產開源模型 , 支持超萬億參數大模型推理以及多智能體實時協作 , 還支持同時運行64個AlphaFold3蛋白質預測模型 。
特別是在速度上 , 元腦SD200率先將大模型端到端推理延遲控制在了10ms以內 。
實測中 , 元腦SD200在運行DeepSeek-R1時 , TPOT(每Token輸出時間)僅有8.9ms , 領先了前SOTA(15ms)近一倍 , 還使DeepSeek-R1 671B的推理性能實現了最高16.3倍的超線性擴展率 。

并且元腦SD200并沒有因為速度而犧牲系統的穩定性與可靠性 , 而是分別在系統硬件層、基礎軟件層和業務軟件層等層面進行針對性設計和優化 , 保證整機運行高可靠設計 , 真正做到了“快而不亂” 。
為什么元腦SD200如此強調“速度”?
因為速度已經成為智能體時代AI競爭的關鍵變量 。
隨著AI進入智能體時代 , 交互方式發生了巨大改變 , 過去大模型只需進行人機對話 , 但現在還需要智能體與智能體之間的交流 , 對模型的生成速度更加敏感 。
特別是在實際應用場景中 , 智能體與智能體之間的交互輪次更多 , 延遲會隨這一過程不斷累積 , 導致整個系統運行速度無法被用戶接受 , 在競爭中將成為致命缺陷 。

除了用戶的直觀感受 , 造成商業場景對速度要求苛刻的原因還有許多 。
比如在金融交易當中 , 對響應時效的要求極為苛刻 , 反欺詐算法需要在10毫秒的時間里識別風險交易 , 否則后果不堪設想 。
因此 , Token生成速度不僅影響用戶體驗 , 更直接關乎商業產出的穩定性與可靠性 。
那么 , 制約Token生成速度提升的因素 , 又是什么呢?
問題主要出在了通信環節 。
當參數規模快速突破萬億級別 , 模型必須拆分到幾十甚至上百張卡上時 , 原本在單機內部的高速通信變成了跨機的網絡傳輸 , 通信就成為了更嚴峻的挑戰 。
特別是在處理推理過程中大量的小數據包時 , 延遲問題變得極為突出 , 而且每一次跨機通信都可能帶來額外延遲 , 當多個萬億級模型需要實時協作時 , 傳統架構已經完全無法應對 。
針對這些問題 , 元腦SD200先是在架構層面進行了革新 。
具體來說 , 元腦SD200采用了創新的多主機3D Mesh系統架構 , 由自研的Open Fabric Switch貫通 , 將多個主機的GPU資源整合成一個統一的計算域 , 并且當中能夠實現跨主機域全局統一編址 。
這一架構讓顯存統一地址空間擴增8倍 , 可實現單機64路的Scale up縱向擴展 , 最大可以提供4TB顯存和64TB內存 , 構建超大的KV緩存分級存儲空間 。
并且通過Smart Fabric Manager , 元腦SD200實現了超節點64卡全局最優路由的自主創建 , 保障AI芯片間通信路徑最短 , 進一步縮短基礎通信延遲 。

除了架構 , 在互聯協議方面 , 為了實現極低的Latency通信 , 元腦SD200采用了極簡的三層協議棧 , 無需網絡/傳輸層 , 僅憑物理層、數據鏈路層和事務層三層即可實現GPU直接訪問遠端節點的顯存或主存 。
這種模式無需“發送-接收”式的消息語義拷貝 , 將基礎通信的延遲打到了百納秒級 。
同時 , 為了實現穩定可靠通信 , 元腦SD200原生支持由硬件邏輯實現的鏈路層重傳 , 可將重傳延遲降低至微秒級;通過采用分布式、預防式流控機制 , 從根本上避免擁塞和丟包 。

此外 , 元腦SD200還通過采用通信庫優化、并行推理框架、PD分離策略及動態負載均衡等創新技術 , 充分發揮超節點的性能優勢 。
最終DeepSeek-R1 671B推理 , 從16卡擴展到64卡 , 實現了16.3倍超線性的擴展率 。
百萬Token推理只要一塊錢除了元腦SD200 , 浪潮信息還帶來了超擴展AI服務器元腦HC1000 。
元腦HC1000不僅支持極大推理吞吐量 , 還能讓單卡成本降低60%、均攤系統成本降低50% , 將每百萬Token輸出成本降低至1元 。

如果說速度是智能體應用的生命線 , 那么成本則決定了度過生存關的應用能否實現盈利 。
在智能體時代 , Token消耗量正在暴增 , 以輔助編程為例 , 每月消耗的Token數比一年前增長了50倍 。
如果從經濟角度考慮 , 企業每部署一個智能體 , 平均每個月消耗的Token成本將達到5000美元 。
并且隨著任務復雜度、使用頻率等指標不斷攀升 , 據浪潮信息預計 , 未來5年智能體應用帶來的Token消耗將呈現出指數級增長 。

Token數量只增不減 , 如果不把單個Token成本打下來 , 那么在高強度交互的智能體環境中 , Token成本必定成為規?;渴鸬钠款i 。
那么 , Token推理成本又為什么居高不下呢?
推理階段算效(MFU)低是主要原因 。
具體來說 , 在訓練時 , 模型的FLOPs的利用率可能達到50% , 但在推理階段 , 這個數值可能低出一個數量級 。
進一步的原因是推理的每個階段的運算特點均不相同 , 與算力不能實現有效匹配 。
元腦HC1000瞄準的出發點正在于此——
既然每個階段有不同的運算特點 , 那就將推理的計算流程拆解 , 對模型結構進行解耦 。
元腦HC1000不僅將推理過程的Prefill和Decode階段分離 , 還將Decode階段進一步分解成了注意力運算和FNN , 從而提高資源利用效率 。
解耦之后的另一個好處是 , 對于芯片的指標要求不再是“五邊形戰士” , 可以針對性地做進一步成本削減 , 節約成本的同時還能降低功耗 。
在硬件層面 , 元腦HC1000創新16卡計算模組設計、單卡“計算-顯存-互連”均衡設計 , 大幅降低單卡成本和每卡系統分攤成本 。 同時 , 全對稱的系統拓撲設計支持超大規模無損擴展 。
據測算 , 元腦HC1000的推理性能相比傳統RoCE提升1.75倍 , 單卡模型算力利用率最高提升5.7倍 。
另外 , 元腦HC1000還采用全對稱DirectCom極速架構 , 能夠以超低延遲直達通信 , 保障計算、通信實現1:1均衡分配 。
面向未來的AI創新計算架構面向智能體AI時代 , 浪潮信息通過元腦SD200與元腦HC1000兩大殺手锏 , 破解了智能體規?;涞刂械乃俣扰c成本兩大關鍵難題 。
一方面 , 在智能體商業化過程中 , Agent應用往往遵循“快殺慢”的規律——
面對海量選擇 , 用戶更傾向于選擇輸出速度更快、交付效率更高的工具;
另一方面 , 隨著應用規模擴大、交互頻次提升 , 行業關注的重點也從單純算力轉向總體擁有成本 , 尤其是直接影響商業可行性的單Token成本 。
基于此 , 浪潮信息面向未來智能體的商業化場景 , 在速度與成本上率先突圍 , 把“百萬Token上下文”從高成本的技術演示 , 轉化為可規?;\營的現實能力 。
然而 , AI算力的可持續發展依然面臨三大挑戰——系統規模接近工程極限、電力基礎設施壓力巨大 , 以及算力投入與產出不平衡 。
在此背后 , 是GPGPU主導的通用計算架構的局限性正在逐漸顯現 。
因此 , 有必要轉變思維 , 思考新的路徑 , 從規模導向轉為效率導向 , 重新規劃和設計AI計算架構 , 發展AI專用計算系統 。
浪潮信息首席AI戰略官劉軍指出:
通用架構效率低 , 但適應性強 , 易于產業化推廣;專用架構效率高 , 但應用面窄 , 不利于普及推廣 。 計算產業發展的歷程 , 就是一個專用與通用對立統一、交替發展的過程 。
這意味著 , 以GPGPU等主導的通用AI計算架構正在面臨多重挑戰 , 正在向細分化、專業化的應用階段加速轉型 。
順應這一趨勢 , 浪潮信息通過軟硬件協同設計與深度優化 , 面向具體應用 , 探索AI下半場的算力新路徑 。
目前 , 浪潮信息已經交出了元腦SD200和元腦HC1000這樣的答卷 。
未來 , 其將進一步針對核心算法算子進行硬件化、電路化設計 , 實現性能的數量級提升 , 從而有效應對未來Token規模持續增長所帶來的巨大計算需求 , 為智能體時代的高效落地提供可持續、可擴展的基礎設施保障 。
— 完 —
量子位 QbitAI · 頭條號簽約
【8.9ms推理速度新紀錄!1元百萬token,浪潮信息加速智能體產業化】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀