浪潮信息劉軍:AI產業不降本難盈利,1元/百萬Token的成本仍偏高

浪潮信息劉軍:AI產業不降本難盈利,1元/百萬Token的成本仍偏高

文章圖片

浪潮信息劉軍:AI產業不降本難盈利,1元/百萬Token的成本仍偏高

文章圖片

浪潮信息劉軍:AI產業不降本難盈利,1元/百萬Token的成本仍偏高

文章圖片



當前全球AI產業已從模型性能競賽邁入智能體規模化落地的“生死競速”階段 , “降本” 不再是可選優化項 , 而是決定AI企業能否盈利、行業能否突破的核心命脈 。 在此大背景下 , 浪潮信息推出元腦HC1000超擴展AI服務器 , 將推理成本首次擊穿至1元/每百萬token 。 這一突破不僅有望打通智能體產業化落地“最后一公里”的成本障礙 , 更將重塑AI產業競爭的底層邏輯 。
浪潮信息首席AI戰略官劉軍強調 , 當前1元/每百萬token的成本突破僅是階段性勝利 , 面對未來token消耗量指數級增長、復雜任務token需求激增數十倍的必然趨勢 , 現有成本水平仍難支撐AI的普惠落地 。 未來 , AI要真正成為如同 “水電煤” 般的基礎資源 , token成本必須在現有基礎上實現數量級跨越 , 成本能力將從“核心競爭力”進一步升級為“生存入場券” , 直接決定AI企業在智能體時代的生死存亡 。
智能體時代 , token成本就是競爭力
回顧互聯網發展史 , 基礎設施的“提速降費”是行業繁榮的重要基石 。 從撥號上網以Kb計費 , 到光纖入戶后百兆帶寬成為標配 , 再到4G/5G時代數據流量成本趨近于零——每一次通信成本的顯著降低 , 都推動了如視頻流媒體、移動支付等全新應用生態的爆發 。
當前的AI時代也處于相似的臨界點 , 當技術進步促使token單價下滑之后 , 企業得以大規模地將AI應用于更復雜、更耗能的場景 , 如從早期的簡短問答 , 到如今支持超長上下文、具備多步規劃與反思能力的智能體……這也導致單任務對token的需求已呈指數級增長 。 如果token成本下降的速度跟不上消耗量的指數增長 , 企業將面臨更高的費用投入 。 這昭示著經濟學中著名的“杰文斯悖論”正在token經濟中完美重演 。
來自多方的數據也有力佐證了token消耗量的指數級增長趨勢 。 火山引擎最新披露的數據顯示 , 截至今年12月 , 字節跳動旗下豆包大模型日均token使用量突破50萬億 , 較去年同期增長超過10倍 , 相比2024年5月剛推出時的日均調用量增長達417倍;谷歌在10月披露 , 其各平臺每月處理的token用量已達1300萬億 , 相當于日均43.3萬億 , 而一年前月均僅為9.7萬億 。

谷歌公布其token處理量變化
當使用量達到“百萬億token/月”的量級時 , 哪怕每百萬token成本只下降1美元 , 也可能帶來每月1億美元的成本差異 。 劉軍認為:“token成本就是競爭力 , 它直接決定了智能體的盈利能力 。 要讓AI真正進入規?;栈蓦A段 , token成本必須在現有基礎上繼續實現數量級的下降 。 ”

深挖token成本“暗箱”:架構不匹配是核心瓶頸
當下 , 全球大模型競賽從“盲目堆算力”轉向“追求單位算力產出價值”的新階段 。 單位算力產出價值受到能源價格、硬件采購成本、算法優化、運營成本等多種因素的影響 , 但不可否認的是 , 現階段token成本80%以上依然來自算力支出 , 而阻礙成本下降的核心矛盾 , 在于推理負載與訓練負載截然不同 , 沿用舊架構會導致算力、顯存與網絡資源難以同時最優 , 造成嚴重的“高配低效” 。
一是算力利用率(MFU)的嚴重倒掛 。 訓練階段MFU可達50%以上 , 但在推理階段 , 特別是對于追求低延遲的實時交互任務 , 由于token的自回歸解碼特性 , 在每一輪計算中 , 硬件必須加載全部的模型參數 , 卻只為了計算一個token的輸出 , 導致昂貴的GPU大部分時間在等待數據搬運 , 實際MFU往往僅為5%-10% 。 這種巨大的算力閑置是成本高企的結構性根源 。
二是“存儲墻”瓶頸在推理場景下被放大 。 在大模型推理中 , 隨著上下文長度的增加 , KV Cache呈指數級增長 。 這不僅占用了大量的顯存空間 , 還導致了由于訪存密集帶來的高功耗 。 這種存算分離不僅帶來數據遷移功耗和延遲 , 還必須配合使用價格高昂的HBM , 已經成為阻礙token成本下降的重要瓶頸 。
三是網絡通信與橫向擴展代價愈發高昂 。 當模型規模突破單機承載能力時 , 跨節點通信成為新瓶頸 。 傳統RoCE或InfiniBand網絡的延遲遠高于芯片內部的總線延遲 , 通信開銷可能占據總推理時間的30%以上 , 導致企業被迫通過堆砌更多資源來維持響應速度 , 推高了總擁有成本(TCO) 。
對此 , 劉軍指出 , 降低token成本的核心不是“把一臺機器做得更全” , 而是圍繞目標重構系統:把推理流程拆得更細 , 支持P/D分離、A/F分離、KV并行、細粒度專家拆分等計算策略 , 讓不同計算模塊在不同卡上按需配置并發 , 把每張卡的負載打滿 , 讓“卡時成本”更低、讓“卡時產出”更高 。
基于全新超擴展架構 , 元腦HC1000實現推理成本首次擊破1元/每百萬token
當前主流大模型的token成本依然高昂 。 以輸出百萬token為例 , Claude、Grok等模型的價格普遍在10-15美元 , 國內大模型雖然相對便宜 , 也多在10元以上 。 在天文數字級別的調用量下 , 如此高的token成本讓大規模商業化應用面臨嚴峻的ROI挑戰 。 要打破成本僵局 , 必須從計算架構層面進行根本性重構 , 從而大幅提升單位算力的產出效率 。

主流LLM的百萬token價格
(注:9月26日(AICC2025大會當日)數據 , 9月29日DeepSeek發布V3.2 Exp價格降為3元/每百萬Token)
為此 , 浪潮信息推出元腦HC1000超擴展AI服務器 。 該產品基于全新設計的全對稱DirectCom極速架構 , 采用無損超擴展設計 , 可高效聚合海量本土AI芯片 , 支持極大推理吞吐量 , 推理成本首次擊破1元/每百萬token , 為智能體突破token成本瓶頸提供極致性能的創新算力系統 。

元腦HC1000超擴展AI服務器
劉軍表示:“我們看到原來的AI計算是瞄著大而全去建設的 , 五臟俱全 , 各種各樣的東西都在里面 。 但是當我們聚焦降低token成本這一核心目標之后 , 我們重新思考系統架構設計 , 找到系統瓶頸 , 重構出一個極簡設計的系統 。 ”
元腦HC1000創新設計了DirectCom極速架構 , 每計算模組配置16顆AIPU , 采用直達通信設計 , 解決傳統架構的協議轉換和帶寬爭搶問題 , 實現超低延遲;計算通信1:1均衡配比 , 實現全局無阻塞通信;全對稱的系統拓撲設計 , 可以支持靈活的PD分離、AF分離方案 , 按需配置計算實例 , 最大化資源利用率 。

全對稱DirectCom極速架構
同時 , 元腦HC1000支持超大規模無損擴展 , DirectCom架構保障了計算和通信均衡 , 通過算網深度協同、全域無損技術實現推理性能1.75倍提升 , 并且通過對大模型的計算流程細分和模型結構解耦 , 實現計算負載的靈活按需配比 , 單卡MFU最高可提升5.7倍 。

超大規模無損擴展
此外 , 元腦HC1000通過自適應路由和智能擁塞控制算法 , 提供數據包級動態負載均衡 , 實現KV Cache傳輸和All to All通信流量的智能調度 , 將KV Cache傳輸對Prefill、Decode計算實例影響降低5-10倍 。
【浪潮信息劉軍:AI產業不降本難盈利,1元/百萬Token的成本仍偏高】劉軍強調 , 當前“1元/每百萬token”還遠遠不夠 , 面對未來token消耗量的指數級增長 , 若要實現單token成本的持續、數量級下降 , 需要推動計算架構的根本性革新 。 這也要求整個AI產業的產品技術創新 , 要從當前的規模導向轉為效率導向 , 從根本上重新思考和設計AI計算系統 , 發展AI專用計算架構 , 探索開發大模型芯片 , 推動算法硬件化的專用計算架構創新 , 實現軟硬件深度優化 , 這將是未來的發展方向 。

    推薦閱讀