8.9ms推理速度新紀錄！1元百萬token，浪潮信息加速智能體產業化

2026-04-27 人工智能 ai 固態硬盤三星電子

文章圖片

文章圖片

文章圖片

文章圖片

克雷西 henry 發自凹非寺
量子位 | 公眾號 QbitAI
一百萬Token的輸出推理成本，只要一塊錢了。
今年的人工智能計算大會上，浪潮信息發布了超擴展AI服務器元腦HC1000 ，把AI推理成本狠狠地打了下來。
與此同時，浪潮信息還推出另一殺手锏——元腦SD200超節點，也將DeepSeek-R1的Token生成時間打到了毫秒量級。
浪潮信息首席AI戰略官劉軍
隨著AI競賽進入智能體產業化階段，能力、速度和成本成為了決勝的核心三要素。
浪潮信息打出的這套組合拳，針對的就是其中涉及到AI Infra的兩項關鍵指標——速度與成本。

元腦SD200和元腦HC1000 ，將為多智能體協同與復雜任務推理的規?；涞?，提供高速度、低成本的算力基礎設施。
DeepSeek-R1推理進入10ms時代首先來看元腦SD200超節點AI服務器。
它可以在單機內同時運行DeepSeek-R1、Kimi K2等四大國產開源模型，支持超萬億參數大模型推理以及多智能體實時協作，還支持同時運行64個AlphaFold3蛋白質預測模型。
特別是在速度上，元腦SD200率先將大模型端到端推理延遲控制在了10ms以內。
實測中，元腦SD200在運行DeepSeek-R1時， TPOT（每Token輸出時間）僅有8.9ms ，領先了前SOTA（15ms）近一倍，還使DeepSeek-R1 671B的推理性能實現了最高16.3倍的超線性擴展率。

并且元腦SD200并沒有因為速度而犧牲系統的穩定性與可靠性，而是分別在系統硬件層、基礎軟件層和業務軟件層等層面進行針對性設計和優化，保證整機運行高可靠設計，真正做到了“快而不亂” 。
為什么元腦SD200如此強調“速度”？
因為速度已經成為智能體時代AI競爭的關鍵變量。
隨著AI進入智能體時代，交互方式發生了巨大改變，過去大模型只需進行人機對話，但現在還需要智能體與智能體之間的交流，對模型的生成速度更加敏感。
特別是在實際應用場景中，智能體與智能體之間的交互輪次更多，延遲會隨這一過程不斷累積，導致整個系統運行速度無法被用戶接受，在競爭中將成為致命缺陷。

除了用戶的直觀感受，造成商業場景對速度要求苛刻的原因還有許多。
比如在金融交易當中，對響應時效的要求極為苛刻，反欺詐算法需要在10毫秒的時間里識別風險交易，否則后果不堪設想。
因此， Token生成速度不僅影響用戶體驗，更直接關乎商業產出的穩定性與可靠性。
那么，制約Token生成速度提升的因素，又是什么呢？
問題主要出在了通信環節。
當參數規模快速突破萬億級別，模型必須拆分到幾十甚至上百張卡上時，原本在單機內部的高速通信變成了跨機的網絡傳輸，通信就成為了更嚴峻的挑戰。
特別是在處理推理過程中大量的小數據包時，延遲問題變得極為突出，而且每一次跨機通信都可能帶來額外延遲，當多個萬億級模型需要實時協作時，傳統架構已經完全無法應對。
針對這些問題，元腦SD200先是在架構層面進行了革新。
具體來說，元腦SD200采用了創新的多主機3D Mesh系統架構，由自研的Open Fabric Switch貫通，將多個主機的GPU資源整合成一個統一的計算域，并且當中能夠實現跨主機域全局統一編址。
這一架構讓顯存統一地址空間擴增8倍，可實現單機64路的Scale up縱向擴展，最大可以提供4TB顯存和64TB內存，構建超大的KV緩存分級存儲空間。
并且通過Smart Fabric Manager ，元腦SD200實現了超節點64卡全局最優路由的自主創建，保障AI芯片間通信路徑最短，進一步縮短基礎通信延遲。

除了架構，在互聯協議方面，為了實現極低的Latency通信，元腦SD200采用了極簡的三層協議棧，無需網絡/傳輸層，僅憑物理層、數據鏈路層和事務層三層即可實現GPU直接訪問遠端節點的顯存或主存。
這種模式無需“發送-接收”式的消息語義拷貝，將基礎通信的延遲打到了百納秒級。
同時，為了實現穩定可靠通信，元腦SD200原生支持由硬件邏輯實現的鏈路層重傳，可將重傳延遲降低至微秒級；通過采用分布式、預防式流控機制，從根本上避免擁塞和丟包。

此外，元腦SD200還通過采用通信庫優化、并行推理框架、PD分離策略及動態負載均衡等創新技術，充分發揮超節點的性能優勢。
最終DeepSeek-R1 671B推理，從16卡擴展到64卡，實現了16.3倍超線性的擴展率。
百萬Token推理只要一塊錢除了元腦SD200 ，浪潮信息還帶來了超擴展AI服務器元腦HC1000 。
元腦HC1000不僅支持極大推理吞吐量，還能讓單卡成本降低60%、均攤系統成本降低50% ，將每百萬Token輸出成本降低至1元。

如果說速度是智能體應用的生命線，那么成本則決定了度過生存關的應用能否實現盈利。
在智能體時代， Token消耗量正在暴增，以輔助編程為例，每月消耗的Token數比一年前增長了50倍。
如果從經濟角度考慮，企業每部署一個智能體，平均每個月消耗的Token成本將達到5000美元。
并且隨著任務復雜度、使用頻率等指標不斷攀升，據浪潮信息預計，未來5年智能體應用帶來的Token消耗將呈現出指數級增長。

Token數量只增不減，如果不把單個Token成本打下來，那么在高強度交互的智能體環境中， Token成本必定成為規?；渴鸬钠款i 。
那么， Token推理成本又為什么居高不下呢？
推理階段算效（MFU）低是主要原因。
具體來說，在訓練時，模型的FLOPs的利用率可能達到50% ，但在推理階段，這個數值可能低出一個數量級。
進一步的原因是推理的每個階段的運算特點均不相同，與算力不能實現有效匹配。
元腦HC1000瞄準的出發點正在于此——
既然每個階段有不同的運算特點，那就將推理的計算流程拆解，對模型結構進行解耦。
元腦HC1000不僅將推理過程的Prefill和Decode階段分離，還將Decode階段進一步分解成了注意力運算和FNN ，從而提高資源利用效率。
解耦之后的另一個好處是，對于芯片的指標要求不再是“五邊形戰士” ，可以針對性地做進一步成本削減，節約成本的同時還能降低功耗。
在硬件層面，元腦HC1000創新16卡計算模組設計、單卡“計算-顯存-互連”均衡設計，大幅降低單卡成本和每卡系統分攤成本。同時，全對稱的系統拓撲設計支持超大規模無損擴展。
據測算，元腦HC1000的推理性能相比傳統RoCE提升1.75倍，單卡模型算力利用率最高提升5.7倍。
另外，元腦HC1000還采用全對稱DirectCom極速架構，能夠以超低延遲直達通信，保障計算、通信實現1：1均衡分配。
面向未來的AI創新計算架構面向智能體AI時代，浪潮信息通過元腦SD200與元腦HC1000兩大殺手锏，破解了智能體規?；涞刂械乃俣扰c成本兩大關鍵難題。
一方面，在智能體商業化過程中， Agent應用往往遵循“快殺慢”的規律——
面對海量選擇，用戶更傾向于選擇輸出速度更快、交付效率更高的工具；
另一方面，隨著應用規模擴大、交互頻次提升，行業關注的重點也從單純算力轉向總體擁有成本，尤其是直接影響商業可行性的單Token成本。
基于此，浪潮信息面向未來智能體的商業化場景，在速度與成本上率先突圍，把“百萬Token上下文”從高成本的技術演示，轉化為可規?；\營的現實能力。
然而， AI算力的可持續發展依然面臨三大挑戰——系統規模接近工程極限、電力基礎設施壓力巨大，以及算力投入與產出不平衡。
在此背后，是GPGPU主導的通用計算架構的局限性正在逐漸顯現。
因此，有必要轉變思維，思考新的路徑，從規模導向轉為效率導向，重新規劃和設計AI計算架構，發展AI專用計算系統。
浪潮信息首席AI戰略官劉軍指出：
通用架構效率低，但適應性強，易于產業化推廣；專用架構效率高，但應用面窄，不利于普及推廣。計算產業發展的歷程，就是一個專用與通用對立統一、交替發展的過程。
這意味著，以GPGPU等主導的通用AI計算架構正在面臨多重挑戰，正在向細分化、專業化的應用階段加速轉型。
順應這一趨勢，浪潮信息通過軟硬件協同設計與深度優化，面向具體應用，探索AI下半場的算力新路徑。
目前，浪潮信息已經交出了元腦SD200和元腦HC1000這樣的答卷。
未來，其將進一步針對核心算法算子進行硬件化、電路化設計，實現性能的數量級提升，從而有效應對未來Token規模持續增長所帶來的巨大計算需求，為智能體時代的高效落地提供可持續、可擴展的基礎設施保障。
— 完 —
量子位 QbitAI · 頭條號簽約
【8.9ms推理速度新紀錄！1元百萬token，浪潮信息加速智能體產業化】關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：3999元起！石頭P20活水版上市：滾筒活水洗地、毛發0纏繞

下一篇：真我GT8 Pro鏡頭模組支持DIY！可拆、可拼、可換