AI推理進入深水區，先進存力成“提速降本”關鍵

2026-01-03 寧夏光伏產業低空經濟

當前，人工智能正邁向場景落地的關鍵階段。隨著大模型數量逐漸收斂、推理應用爆發式增長，以Token數為量綱的AI推理成本與效率問題日益凸顯。在這一背景下，先進存力作為數據要素的核心載體，成為提升AI推理效能、控制成本的關鍵。
11月4日，在中國信息通信研究院組織的“存力中國行”北京站活動上，來自信通院、中國移動云、華為、硅基流動等機構與企業的嘉賓，深入探討了AI時代下先進存力對AI大模型發展的支撐作用和未來發展趨勢。
AI推理面臨成本與效率之困
“大模型落地元年”中，各行各業不再滿足于擁有龐大的模型，而是迫切希望將模型能力無縫融入實際業務場景。從投研分析、卷宗分析到智能客服、醫療影像輔助診斷等， AI推理正深入千行百業發揮作用。然而，隨著Token調用量爆發式增長，推理成本持續攀升， “推不動、推得慢、推得貴”成為行業共性難題。
與會專家指出，當前， AI推理已不再是簡單的單次問答，而是處理海量、多模態、動態增長數據的持續過程。數據類型的多樣性要求存儲系統能同時高效處理文、圖、音、視頻乃至傳感器數據。同時，構建高質量數據集也成為關鍵。
“AI時代， IT基礎設施能力面臨‘管不好’的數據、‘喂不飽’的算力、‘降不下’的成本三大挑戰。 ”在華為數據存儲產品線戰略與業務發展部總裁王旭東看來，推理數據來源多樣難以形成高質量、可持續供應的數據集，存儲系統的帶寬和IOPS（每秒讀寫次數）不足，導致GPU等昂貴算力資源長時間空閑。傳統存儲架構難以兼顧高吞吐、低時延及異構數據融合的需求，造成業務發展瓶頸，阻礙AI應用落地。
要打破推理困境，還需突破“內存墻”與“容量墻”兩道技術關卡。與會專家介紹，昂貴的HBM（高帶寬內存）雖然性能強悍，但價格極高，無法無節制擴展，這限制了模型的理解長度，也推高了硬件成本，可以通過高性能的AI SSD ，對HBM進行更好的擴展，同時，用大容量AI SSD替代HDD 。
除此之外，綠色、可靠、安全的數據存儲解決方案，也成為企業的剛性需求。
先進存力成破局關鍵
新京報貝殼財經記者從會上了解到，在AI場景中，我國存儲技術取得技術突破，并具備全球領先的實力。通過技術創新和生態協同的模式，加速在千行百業的落地應用。
中國移動云能力中心項目總師周宇表示，移動云針對性采用分層緩存調度、高速數據互聯技術提升帶寬、多模數據專屬存儲與標準化、架構池化重組等技術破局，還通過高密全閃存儲、數據縮減、自研SPU高密服務器提高存儲效能和降低成本。未來趨勢上，移動云推動存儲從被動存儲轉向智算協同，分階段落地高密全閃存儲、數據高速互聯、存算一體等技術，長遠構建池化多體存儲體系，同時強調技術整合與生態協同。
王旭東介紹，華為發布了針對AI推理的UCM推理記憶數據管理技術，通過“集中高質數據、提速AI訓練、優化推理效能”三個角度，打造AI推理加速解決方案。據悉， UCM可將首Token時延最高降低90% ，系統吞吐率最高可提升22倍，上下文推理的窗口擴展10倍以上。
北京硅基流動科技有限公司解決方案總監唐安波表示，硅基流動構建的AI infra工具鏈，核心推理框架適配多模態模型與國內外算力，適配昇騰并優化DeepSeek模型實現性價比提升。從推理框架延伸至MaaS服務平臺，部署主流開源模型，通過推理加速和API向開發者提供服務，聚焦提升算力利用率。解決方案上，結合UCM技術卸載KVCache釋放顯存、提升性能，還通過智能網關優化調度、彈性擴縮容應對長上下文等痛點，基于存儲的KVCache方案可大幅提升系統吞吐。
中國信息通信研究院首席專家石友康表示，信通院在政策研究、標準制定、測試服務等方面開展多項工作，并聯合產業鏈企業成立“算力產業發展方陣先進存力AI推理工作組” 。同時，他提出了三點建議：鼓勵前沿存儲技術研發創新，推動存算運深度融合，加強存算協同產業生態建設。其呼吁業界同仁凝聚共識，共同推動我國存算協同發展。
新京報貝殼財經記者韋博雅
編輯楊娟娟
【AI推理進入深水區，先進存力成“提速降本”關鍵】校對穆祥桐

推薦閱讀

上一篇：今年雙十一最大的贏家是這張表

下一篇：OPPO Find N6大折疊曝光，續航升級更輕薄