破解300倍算力增長瓶頸,華為云Tokens服務全面接入384超節點

破解300倍算力增長瓶頸,華為云Tokens服務全面接入384超節點

文章圖片

破解300倍算力增長瓶頸,華為云Tokens服務全面接入384超節點

文章圖片


智東西
作者 | 王涵
編輯 | 漠影
智東西8月27日報道 , 今天下午 , 在第四屆828 B2B企業節開幕式上 , 華為云宣布其Tokens服務全面接入CloudMatrix384超節點 。
借助xDeepServe架構創新 , 該服務單芯片最高可實現2400TPS的吞吐量與50ms的TPOT(Token處理時延) 。

一、中國日均Token消耗量暴增超300倍 , 接入超節點突破性能瓶頸數據顯示 , 過去18個月中國AI算力需求呈指數級增長 。 2024年初中國日均Token消耗量為1000億 , 截至2025年6月底 , 這一數據已突破30萬億 , 1年半內增長超300倍 , 這對算力基礎設施提出了更高要求 。
2025年3月 , 華為云在傳統按卡時計費模式基礎上 , 推出基于MaaS(模型即服務)的Tokens服務 , 提供在線版、進線版、離線版及尊享版等多種規格 , 適配不同應用場景的性能與時延需求 。
此次接入CloudMatrix384超節點后 , 依托超節點原生的xDeepServe框架 , Tokens服務吞吐量從2025年初的1920TPS提升至2400TPS 。
華為云認為 , 大算力構建需全棧創新 , 涵蓋硬件、軟件、算子、存儲、推理框架及超節點等環節 。
其中 , CloudMatrix384超節點通過計算架構創新突破性能瓶頸;CANN昇騰硬件優化算子與通信策略;EMS彈性內存存儲打破AI內存限制;xDeepServe分布式推理框架則以架構提升算力效率 。

二、xDeepServe架構拆解模型 , 優化算力調用作為CloudMatrix384超節點的原生服務 , xDeepServe采用Transformerless極致分離架構 , 將MoE大模型拆解為Attention、FFN、Expert三個可獨立伸縮的微模塊 , 分配至不同NPU同步處理 , 再通過微秒級XCCL通信庫與FlowServe自研推理引擎整合 , 形成Tokens處理“流水線” 。
經優化后 , 單卡吞吐從非超節點的600tokens/s提升至2400tokens/s 。
CANN作為硬件加速計算中間層 , 包含算子庫、XCCL高性能通信庫等組件 。 其中XCCL專為超節點大語言模型服務設計 , 可發揮CloudMatrix384擴展后UB互聯架構的潛力 , 為架構分離提供帶寬與時延支持 。
FlowServe分布式引擎將CloudMatrix384劃分為自治的DP小組 , 每個小組配備Tokenizer、執行器、RTC緩存與網絡棧 , 可實現千卡并發無擁堵 。
華為云透露 , xDeepServe已實現MA分離 , 下一步計劃將Attention、MoE、Decode改造為數據流 , 并擴展至多臺超節點 , 以線性提升推理吞吐 。

三、支持主流大模型與Agent平臺 , 已落地多行業場景目前 , 華為云MaaS服務已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型 , 以及versatile、Dify、扣子等主流Agent平臺 。
在模型性能優化方面 , 文生圖大模型通過Int8量化、旋轉位置編碼融合算子等方式 , 在輕微損失畫質下 , 出圖速度達到業界主流平臺的2倍 , 最大支持2K×2K尺寸 。
文生視頻大模型通過量化、通算并行等手段 , 降低延遲與顯存占用 , 性能較友商提升3.5倍 。
應用層面 , 華為云已與超100家伙伴合作 , 在調研分析、內容創作、智慧辦公、智能運維等領域開發AI Agent 。
例如 , 基于MaaS平臺的今日人才數智員工解決方案 , 集成自然語言處理、機器學習等技術 , 可提升服務效率與客戶滿意度;北京方寸無憂科技開發的無憂智慧公文解決方案 , 能助力政企辦公智能化轉型 。

結語:華為云超節點讓算力更適配AI應用需求當前 , AI技術正從模型研發向產業滲透加速邁進 , 而算力作為核心基礎設施 , 其性能、成本與適配能力將直接決定著產業智能化的推進速度 。
【破解300倍算力增長瓶頸,華為云Tokens服務全面接入384超節點】隨著后續更多超節點擴展計劃的推進 , 以及更多行業場景的深度適配 , 這類AI基礎設施的升級 , 或將進一步降低企業接入AI技術的門檻 , 讓技術更加深度地融入生活 。

    推薦閱讀