大模型訓練“練兵千日”,別輸在AI推理“用兵一時”

大模型訓練“練兵千日”,別輸在AI推理“用兵一時”

文章圖片

大模型訓練“練兵千日”,別輸在AI推理“用兵一時”

文章圖片

大模型訓練“練兵千日”,別輸在AI推理“用兵一時”

2025年被認為是AI智能體的元年 , 是AI走向大規模應用的開始 。 隨著AI應用爆發 , 算力的需求邏輯也正在被重塑:AI推理——而不是訓練 , 將成為未來算力需求的核心增長點 。

這種趨勢在剛剛結束的2025年世界人工智能大會(WAIC)多有體現 。 一方面 , 主流大模型玩家紛紛推動成熟產品“瘦身” , 以輕量化模型適配更多終端設備 。 另一方面 , 多家AI Infra創企押注AI推理芯片 , 搶抓AI模型從實驗室走向生產場景的紅利 。
中信建投在2025 WAIC期間發布的白皮書指出 , 隨著AI算力消耗從訓練向推理的結構性轉變 , 國內算力消耗正快速增長(如字節跳動每三個月Token消耗接近翻一倍 , 5月底為16.4萬億Token) , 按此趨勢主流云服務商將很快感受到算力緊張、出現算力缺口 。
就在這個節骨眼上 , 中美AI推理體驗的鴻溝已經顯現 。 相比以美國為代表的領先國家 , 中國大模型的推理體驗(包括時延、準確度、上下文推理等方面)已大幅落后;風靡一時的DeepSeek等國內開源大模型 , 活躍用戶數遭遇了嚴重下滑 。
如果說大模型訓練是“練兵千日” , 那么推理就是“用兵一時” 。 站在2025這個本該兌現AI商用價值的關鍵時刻 , 推理算力卻成了新的“吞金獸” , 不持續“堆芯片”用戶體驗就難以為繼 , 這要求全球各國、各行各業都引起高度重視 , 找到推理體驗與算力成本的平衡點 。
尤其是對于高端算力芯片受限、軟件及生態薄弱的中國AI產業來說 , 我們必須在“戴著鐐銬跳舞”的現實中尋求新的突破、找到新的解法 , 別讓中美AI競爭輸在“最后一公里”!
Token經濟時代:打不起的價格戰 , 輸不得的體驗戰
在AI商業化過程中 , Token(詞元)被迅速推至臺前 。 它既是大模型訓練及推理過程中處理的最小語義單元 , 也是最基礎的計量計費單位 , 用于衡量AI產品服務使用量和商業化收費標準 , 因而AI時代也被稱為Token經濟時代 。

類似于移動通信數據流量伴隨3G-4G-5G升級而大幅提升 , 隨著模型逐漸復雜化和業務場景不斷豐富 , 用戶的Token消耗量也在與日俱增 。 比如 , 智能體(Agent)執行一次任務平均消耗的Token已達到10萬量級;海量用戶匯聚使得單個頭部大模型日均Token消耗量已達百億級 , 推理成本持續攀升 。
這種成本攀升折射到國內市場 , 可以發現去年打得火熱的Token價格戰到今年已經趨于冷靜 , 主流大模型廠商已從單純降價轉向技術升級與場景優化結合(包括支持超長文本處理、多模態推理等差異化能力) , 避免淪為芯片廠商的“打工人” , 甚至賠本賺吆喝 。
即便如此 , 受限于高端芯片供給和資本開支差距 , 中國大模型的推理體驗已經落后于美國領先大模型 。 資料顯示 , OpenAI O3 mini、Google Gemini等模型的單用戶輸出速度已進入200 Tokens/s區間(時延5ms) , 中國普遍小于60 Tokens/s(時延50~100ms) 。 比如OpenAI O3 mini每秒能輸出的Token(214個)約為DeepSeek(21個)的10倍 , 用戶會直接感受到OpenAI給出回答的時間要比DeepSeek快很多 。

體驗掉隊的代價是巨大的 。 有數據顯示 , 相比其他頂尖模型用戶數持續增長 , DeepSeek用戶數自發布后絕對流量一直在下降 , 其使用率已從年初的50%暴跌至當前的3%左右 , 用戶正在從DeepSeek流失轉向其他模型應用 。
一言以蔽之 , 不同于邊際成本極低的互聯網時代 , 算力成本高企(GPU價格昂貴且超負荷使用兩三年就得換新)的Token經濟時代 , Token量越大越是打不起價格戰 , 當然也輸不得體驗戰 。 要在AI時代健康可持續發展 , 必須解決推理體驗與算力成本平衡的難題 。
“戴著鐐銬跳舞”:GPU+HBM被鎖死 , 軟件生態也旁落
面對這一難題 , 在以美國為首的算力充沛國家 , 中高端GPU搭載HBM(高帶寬內存)的產品形態已成為主流趨勢 。 MLPerfTM基準測試顯示 , HBM可使推理速度提升30-60%;反之 , HBM不足時 , 推理體驗會明顯下降 , 如出現任務卡頓、響應慢等問題 。
背后的技術邏輯在于 , AI推理需要頻繁讀取模型參數和輸入數據 , 而HBM是解決“數據搬運”的關鍵 。 作為一種通過3D堆疊和超寬接口實現極高數據傳輸帶寬的先進內存技術 , HBM可顯著提升內存與GPU、NPU等處理器之間傳輸數據的速度 , 確保計算核心以極高的速度獲取所需的數據 , 從而最大限度利用AI加速器的強大算力 , 提高推理吞吐量 。

然而 , 和中高端GPU一樣 , 全球HBM市場也高度集中并掌握在國外頭部廠商手里 。 它們與先進芯片一起被納入美國“長臂管轄”的銷售管制清單 , 中國廠商無法獲?。 ㄌ毓┌鍳PU和HBM能力都被嚴重“閹割”) , 導致中國大模型的推理體驗提升受到極大制約 , “錢花了還辦不成事” 。
【大模型訓練“練兵千日”,別輸在AI推理“用兵一時”】更觸目驚心的是 , “戴著鐐銬跳舞”(比如使用英偉達的低端H20產品)的中國模型服務商 , 正匍匐在一條將應用生態構筑在別人“地基”(比如英偉達CUDA)之上的老路 。 當英偉達通過“硬件迭代→軟件優化→生態綁定”構建起推理時代的“鐵三角”時 , 中國廠商連對方的低端產品也很難離開(調研顯示從英偉達等生態遷移至國產平臺需重構70%代碼 , 成本相當于三個程序員年薪) , 完全陷入美國編織的AI秩序里 。
這里面涉及的技術賬、經濟賬、安全賬都是十分沉重的 , 必須引起高度的重視!從技術效率上講 , 低端技術長期看肯定打不過中高端技術 , 必然導致產品競爭力下降;從經濟成本看 , “質次價高”的特供芯片 , 絕非平衡推理體驗與算力成本的優選方案;從供應鏈安全角度看 , 國產化遷移改造的歷史進程 , 絕對容不得算力芯片漏洞后門的掣肘 。
破局之道暢想:從單點突破到系統創新 , 重視軟件及生態
何以破局?參照我國在AI訓練階段的突圍之道(比如昇騰384超節點以集群方式突破性能極限) , AI推理或許也可以從單點突破走向系統創新 , 重視軟件能力并及早培育生態 , 彌補硬件物理層面的不足和限制 , 探尋一條可持續、可復制的最佳路徑 。
從技術層面看 , AI推理的關鍵在于鍵值緩存(KV Cache) , 其好比一份“上下文備忘錄”——緩存前面所有內容的關鍵信息(Key和Value) , 讓AI生成下一個詞時不用重復計算歷史信息 , 從而大幅加速推理過程 。 但KV Cache需要占用GPU的顯存(如HBM) , 生成的文本越長 , 緩存的數據量就越大 , 容易觸發容量限制 , 導致推理時延增加、吞吐量下降 。 業界可以考慮通過硬件+軟件系統創新的方式 , 將KV Cache緩存至存儲層 , 以AI存儲方案加速AI推理 , 減少對昂貴HBM的依賴 。

從生態層面看 , 面對國產化改造和AI推理爆發的巨大機遇 , 業界龍頭廠商、行業頭部用戶要站出來先行先試 , 驗證技術方案 , 打造聯盟生態 , 別讓“樓房建起來了再去重構地基” , 費時費力又費錢 。 特別是數字化程度高、數據密度大、AI應用場景豐富的金融、醫療、教育等行業 , 一定要從一開始便算好技術賬、經濟賬和安全賬 , 以生態之力護航AI轉型行穩致遠 。
回顧過去 , 美國憑借龍頭企業技術引領+產業生態深度協同的“組合拳” , 統治了計算產業從專用計算到通用計算的大部分時期 。 就在7月下旬 , 美國又發布了《贏得AI競賽:美國AI行動計劃》 , 再次顯露主導全球人工智能發展的野心 。 此時此刻 , 在AI大模型“練兵千日 , 用兵一時”的歷史拐點 , 產業各界必須警覺起來 , 別讓中美AI競爭輸在“最后一公里”!

    推薦閱讀