AI推理進入深水區,先進存力成“提速降本”關鍵


當前 , 人工智能正邁向場景落地的關鍵階段 。 隨著大模型數量逐漸收斂、推理應用爆發式增長 , 以Token數為量綱的AI推理成本與效率問題日益凸顯 。 在這一背景下 , 先進存力作為數據要素的核心載體 , 成為提升AI推理效能、控制成本的關鍵 。
11月4日 , 在中國信息通信研究院組織的“存力中國行”北京站活動上 , 來自信通院、中國移動云、華為、硅基流動等機構與企業的嘉賓 , 深入探討了AI時代下先進存力對AI大模型發展的支撐作用和未來發展趨勢 。
AI推理面臨成本與效率之困
“大模型落地元年”中 , 各行各業不再滿足于擁有龐大的模型 , 而是迫切希望將模型能力無縫融入實際業務場景 。 從投研分析、卷宗分析到智能客服、醫療影像輔助診斷等 , AI推理正深入千行百業發揮作用 。 然而 , 隨著Token調用量爆發式增長 , 推理成本持續攀升 , “推不動、推得慢、推得貴”成為行業共性難題 。
與會專家指出 , 當前 , AI推理已不再是簡單的單次問答 , 而是處理海量、多模態、動態增長數據的持續過程 。 數據類型的多樣性要求存儲系統能同時高效處理文、圖、音、視頻乃至傳感器數據 。 同時 , 構建高質量數據集也成為關鍵 。
“AI時代 , IT基礎設施能力面臨‘管不好’的數據、‘喂不飽’的算力、‘降不下’的成本三大挑戰 。 ”在華為數據存儲產品線戰略與業務發展部總裁王旭東看來 , 推理數據來源多樣難以形成高質量、可持續供應的數據集 , 存儲系統的帶寬和IOPS(每秒讀寫次數)不足 , 導致GPU等昂貴算力資源長時間空閑 。 傳統存儲架構難以兼顧高吞吐、低時延及異構數據融合的需求 , 造成業務發展瓶頸 , 阻礙AI應用落地 。
要打破推理困境 , 還需突破“內存墻”與“容量墻”兩道技術關卡 。 與會專家介紹 , 昂貴的HBM(高帶寬內存)雖然性能強悍 , 但價格極高 , 無法無節制擴展 , 這限制了模型的理解長度 , 也推高了硬件成本 , 可以通過高性能的AI SSD , 對HBM進行更好的擴展 , 同時 , 用大容量AI SSD替代HDD 。
除此之外 , 綠色、可靠、安全的數據存儲解決方案 , 也成為企業的剛性需求 。
先進存力成破局關鍵
新京報貝殼財經記者從會上了解到 , 在AI場景中 , 我國存儲技術取得技術突破 , 并具備全球領先的實力 。 通過技術創新和生態協同的模式 , 加速在千行百業的落地應用 。
中國移動云能力中心項目總師周宇表示 , 移動云針對性采用分層緩存調度、高速數據互聯技術提升帶寬、多模數據專屬存儲與標準化、架構池化重組等技術破局 , 還通過高密全閃存儲、數據縮減、自研SPU高密服務器提高存儲效能和降低成本 。 未來趨勢上 , 移動云推動存儲從被動存儲轉向智算協同 , 分階段落地高密全閃存儲、數據高速互聯、存算一體等技術 , 長遠構建池化多體存儲體系 , 同時強調技術整合與生態協同 。
王旭東介紹 , 華為發布了針對AI推理的UCM推理記憶數據管理技術 , 通過“集中高質數據、提速AI訓練、優化推理效能”三個角度 , 打造AI推理加速解決方案 。 據悉 , UCM可將首Token時延最高降低90% , 系統吞吐率最高可提升22倍 , 上下文推理的窗口擴展10倍以上 。
北京硅基流動科技有限公司解決方案總監唐安波表示 , 硅基流動構建的AI infra工具鏈 , 核心推理框架適配多模態模型與國內外算力 , 適配昇騰并優化DeepSeek模型實現性價比提升 。 從推理框架延伸至MaaS服務平臺 , 部署主流開源模型 , 通過推理加速和API向開發者提供服務 , 聚焦提升算力利用率 。 解決方案上 , 結合UCM技術卸載KVCache釋放顯存、提升性能 , 還通過智能網關優化調度、彈性擴縮容應對長上下文等痛點 , 基于存儲的KVCache方案可大幅提升系統吞吐 。
中國信息通信研究院首席專家石友康表示 , 信通院在政策研究、標準制定、測試服務等方面開展多項工作 , 并聯合產業鏈企業成立“算力產業發展方陣先進存力AI推理工作組” 。 同時 , 他提出了三點建議:鼓勵前沿存儲技術研發創新 , 推動存算運深度融合 , 加強存算協同產業生態建設 。 其呼吁業界同仁凝聚共識 , 共同推動我國存算協同發展 。
新京報貝殼財經記者 韋博雅
編輯 楊娟娟
【AI推理進入深水區,先進存力成“提速降本”關鍵】校對 穆祥桐

    推薦閱讀