大模型訓練“練兵千日”，別輸在AI推理“用兵一時”_ai|人工智能

文章圖片

文章圖片

2025年被認為是AI智能體的元年，是AI走向大規模應用的開始。隨著AI應用爆發，算力的需求邏輯也正在被重塑：AI推理——而不是訓練，將成為未來算力需求的核心增長點。

這種趨勢在剛剛結束的2025年世界人工智能大會（WAIC）多有體現。一方面，主流大模型玩家紛紛推動成熟產品“瘦身” ，以輕量化模型適配更多終端設備。另一方面，多家AI Infra創企押注AI推理芯片，搶抓AI模型從實驗室走向生產場景的紅利。
中信建投在2025 WAIC期間發布的白皮書指出，隨著AI算力消耗從訓練向推理的結構性轉變，國內算力消耗正快速增長（如字節跳動每三個月Token消耗接近翻一倍， 5月底為16.4萬億Token），按此趨勢主流云服務商將很快感受到算力緊張、出現算力缺口。
就在這個節骨眼上，中美AI推理體驗的鴻溝已經顯現。相比以美國為代表的領先國家，中國大模型的推理體驗（包括時延、準確度、上下文推理等方面）已大幅落后；風靡一時的DeepSeek等國內開源大模型，活躍用戶數遭遇了嚴重下滑。
如果說大模型訓練是“練兵千日” ，那么推理就是“用兵一時” 。站在2025這個本該兌現AI商用價值的關鍵時刻，推理算力卻成了新的“吞金獸” ，不持續“堆芯片”用戶體驗就難以為繼，這要求全球各國、各行各業都引起高度重視，找到推理體驗與算力成本的平衡點。
尤其是對于高端算力芯片受限、軟件及生態薄弱的中國AI產業來說，我們必須在“戴著鐐銬跳舞”的現實中尋求新的突破、找到新的解法，別讓中美AI競爭輸在“最后一公里”！
Token經濟時代：打不起的價格戰，輸不得的體驗戰
在AI商業化過程中， Token（詞元）被迅速推至臺前。它既是大模型訓練及推理過程中處理的最小語義單元，也是最基礎的計量計費單位，用于衡量AI產品服務使用量和商業化收費標準，因而AI時代也被稱為Token經濟時代。

類似于移動通信數據流量伴隨3G-4G-5G升級而大幅提升，隨著模型逐漸復雜化和業務場景不斷豐富，用戶的Token消耗量也在與日俱增。比如，智能體（Agent）執行一次任務平均消耗的Token已達到10萬量級；海量用戶匯聚使得單個頭部大模型日均Token消耗量已達百億級，推理成本持續攀升。
這種成本攀升折射到國內市場，可以發現去年打得火熱的Token價格戰到今年已經趨于冷靜，主流大模型廠商已從單純降價轉向技術升級與場景優化結合（包括支持超長文本處理、多模態推理等差異化能力），避免淪為芯片廠商的“打工人” ，甚至賠本賺吆喝。
即便如此，受限于高端芯片供給和資本開支差距，中國大模型的推理體驗已經落后于美國領先大模型。資料顯示， OpenAI O3 mini、Google Gemini等模型的單用戶輸出速度已進入200 Tokens/s區間（時延5ms），中國普遍小于60 Tokens/s（時延50~100ms）。比如OpenAI O3 mini每秒能輸出的Token（214個）約為DeepSeek（21個）的10倍，用戶會直接感受到OpenAI給出回答的時間要比DeepSeek快很多。

體驗掉隊的代價是巨大的。有數據顯示，相比其他頂尖模型用戶數持續增長， DeepSeek用戶數自發布后絕對流量一直在下降，其使用率已從年初的50%暴跌至當前的3%左右，用戶正在從DeepSeek流失轉向其他模型應用。
一言以蔽之，不同于邊際成本極低的互聯網時代，算力成本高企（GPU價格昂貴且超負荷使用兩三年就得換新）的Token經濟時代， Token量越大越是打不起價格戰，當然也輸不得體驗戰。要在AI時代健康可持續發展，必須解決推理體驗與算力成本平衡的難題。
“戴著鐐銬跳舞”：GPU+HBM被鎖死，軟件生態也旁落
面對這一難題，在以美國為首的算力充沛國家，中高端GPU搭載HBM（高帶寬內存）的產品形態已成為主流趨勢。 MLPerfTM基準測試顯示， HBM可使推理速度提升30-60%；反之， HBM不足時，推理體驗會明顯下降，如出現任務卡頓、響應慢等問題。
背后的技術邏輯在于， AI推理需要頻繁讀取模型參數和輸入數據，而HBM是解決“數據搬運”的關鍵。作為一種通過3D堆疊和超寬接口實現極高數據傳輸帶寬的先進內存技術， HBM可顯著提升內存與GPU、NPU等處理器之間傳輸數據的速度，確保計算核心以極高的速度獲取所需的數據，從而最大限度利用AI加速器的強大算力，提高推理吞吐量。

然而，和中高端GPU一樣，全球HBM市場也高度集中并掌握在國外頭部廠商手里。它們與先進芯片一起被納入美國“長臂管轄”的銷售管制清單，中國廠商無法獲?。ㄌ毓┌鍳PU和HBM能力都被嚴重“閹割”），導致中國大模型的推理體驗提升受到極大制約， “錢花了還辦不成事” 。
【大模型訓練“練兵千日”，別輸在AI推理“用兵一時”】更觸目驚心的是， “戴著鐐銬跳舞”（比如使用英偉達的低端H20產品）的中國模型服務商，正匍匐在一條將應用生態構筑在別人“地基”（比如英偉達CUDA）之上的老路。當英偉達通過“硬件迭代→軟件優化→生態綁定”構建起推理時代的“鐵三角”時，中國廠商連對方的低端產品也很難離開（調研顯示從英偉達等生態遷移至國產平臺需重構70%代碼，成本相當于三個程序員年薪），完全陷入美國編織的AI秩序里。
這里面涉及的技術賬、經濟賬、安全賬都是十分沉重的，必須引起高度的重視！從技術效率上講，低端技術長期看肯定打不過中高端技術，必然導致產品競爭力下降；從經濟成本看， “質次價高”的特供芯片，絕非平衡推理體驗與算力成本的優選方案；從供應鏈安全角度看，國產化遷移改造的歷史進程，絕對容不得算力芯片漏洞后門的掣肘。
破局之道暢想：從單點突破到系統創新，重視軟件及生態
何以破局？參照我國在AI訓練階段的突圍之道（比如昇騰384超節點以集群方式突破性能極限）， AI推理或許也可以從單點突破走向系統創新，重視軟件能力并及早培育生態，彌補硬件物理層面的不足和限制，探尋一條可持續、可復制的最佳路徑。
從技術層面看， AI推理的關鍵在于鍵值緩存（KV Cache），其好比一份“上下文備忘錄”——緩存前面所有內容的關鍵信息（Key和Value），讓AI生成下一個詞時不用重復計算歷史信息，從而大幅加速推理過程。但KV Cache需要占用GPU的顯存（如HBM），生成的文本越長，緩存的數據量就越大，容易觸發容量限制，導致推理時延增加、吞吐量下降。業界可以考慮通過硬件+軟件系統創新的方式，將KV Cache緩存至存儲層，以AI存儲方案加速AI推理，減少對昂貴HBM的依賴。

從生態層面看，面對國產化改造和AI推理爆發的巨大機遇，業界龍頭廠商、行業頭部用戶要站出來先行先試，驗證技術方案，打造聯盟生態，別讓“樓房建起來了再去重構地基” ，費時費力又費錢。特別是數字化程度高、數據密度大、AI應用場景豐富的金融、醫療、教育等行業，一定要從一開始便算好技術賬、經濟賬和安全賬，以生態之力護航AI轉型行穩致遠。
回顧過去，美國憑借龍頭企業技術引領+產業生態深度協同的“組合拳” ，統治了計算產業從專用計算到通用計算的大部分時期。就在7月下旬，美國又發布了《贏得AI競賽：美國AI行動計劃》，再次顯露主導全球人工智能發展的野心。此時此刻，在AI大模型“練兵千日，用兵一時”的歷史拐點，產業各界必須警覺起來，別讓中美AI競爭輸在“最后一公里”！

大模型訓練“練兵千日”，別輸在AI推理“用兵一時”

推薦閱讀

蜈蚣是害蟲還是益蟲啊蜈蚣屬于害蟲還是益蟲

2022廣州住房公積金利率調整后有什么好處？

枕巾多久洗一次枕巾什么時候洗一次

結婚為什么吃烤乳豬不好結婚為什么吃烤乳豬

小提琴是什么調

成都歡樂谷門票價格成都歡樂谷門票多少錢一張

求鑒定阿迪達斯貝殼頭小熊鞋

如何注銷申請的刷寶賬號

上海虹口區公租房入住流程

回水排氣閥不出水也不出氣怎么處理

特斯拉充電樁安裝有哪些條件

其實我不在乎初三作文

python考勤管理系統 Python上課點名系統附源碼

助人為樂手抄報我是小天使幫助他人手抄報怎么畫

怎樣調出一杯好喝的咖啡

西餐擺盤怎么擺s型