Gartner 解讀:AI 浪潮下的基礎設施戰略,企業如何平衡創新與韌性

Gartner 解讀:AI 浪潮下的基礎設施戰略,企業如何平衡創新與韌性

文章圖片

Gartner 解讀:AI 浪潮下的基礎設施戰略,企業如何平衡創新與韌性
【Gartner 解讀:AI 浪潮下的基礎設施戰略,企業如何平衡創新與韌性】作者 | 趙鈺瑩
在當前生成式 AI 引領的技術浪潮中 , 動輒“千卡、萬卡”的智算中心(AIDC)建設已成為焦點 , 但技術的高速發展也給企業帶來了關于戰略布局、風險防范與成本控制的復雜挑戰 。 在近日 Gartner 舉辦的一場線上分享會中 , 分析師 Elaine Zhang 圍繞最新的基礎設施技術成熟度曲線 , 深入剖析了企業應如何制定兼具前瞻性與務實性的 AI 基礎設施戰略 。
Elaine Zhang 指出 , 今年的基礎設施戰略成熟度曲線延續了去年的核心框架 , 依然圍繞四大主題趨勢展開 , 這些趨勢為企業決策者提供了宏觀的思考坐標 。
1 Gartner 基礎設施戰略成熟度曲線四大主題解讀
基礎設施自主可控進程加快
鑒于當前地緣政治格局的演變 , 中國企業正日益傾向于采納自主研發的基礎設施軟硬件及工具 , 以有效規避可能的風險 。 在此背景下 , 國內軟硬件廠商的研發實力亦實現了顯著提升 , 并獲得了廣泛應用 。 在今年的技術成熟度曲線中 , 一系列本土創新技術 , 例如國產人工智能處理器(Homegrown AI Processors)、自主可控的數據庫管理系統(DBMS Self-Sufficiency)、國產服務器虛擬化軟件(Revirtualization in China)以及國產芯片服務器(Local Chip Servers)等 , 均呈現出顯著的加速發展態勢 。
特別值得關注的是國產 AI 芯片領域 。 根據 Gartner 于 8 月發布的中國芯片新興技術報告預測:至 2030 年 , 中國本土 AI 芯片廠商有望在中國國內 AI 芯片市場中占據逾半數份額 , 同時在海外市場也將獲得超過 10% 的市場份額 。 這一預測進一步印證了我們所提及的自主可控戰略 , 特別是在關鍵技術領域的加速推進與實施 。
生成式 AI 的加速采用
今年上半年 , 特別是年初以來 , 生成式人工智能(Generative AI)領域取得了顯著進展 , 其變革性潛力正逐步顯現 。 其中 , DeepSeek R1 模型的發布尤其引人注目 。 該模型作為一款高效的推理型人工智能模型 , 成功地顯著降低了人工智能推理所需的計算資源投入 , 從而有效優化了成本并提升了部署效率 。 這一技術突破促使眾多企業開始積極探索并應用 DeepSeek 模型 , 以部署各類人工智能應用 。
與此同時 , 在近幾個月內 , 人工智能代理(AI Agent)技術亦成為業界焦點 , 引發了廣泛討論和高度關注 。 AI Agent 旨在通過賦予人工智能系統規劃、決策與執行任務的能力 , 使其能夠自主或半自主地完成復雜指令 , 從而有望大幅提升工作自動化與智能化水平 。 這項創新技術吸引了大量企業的積極關注 , 并促使它們紛紛投入到實際的應用探索與實踐中 。
然而 , 隨著這些前沿人工智能技術在企業級應用中的深入部署 , 對底層基礎設施的服務交付能力提出了更為嚴苛的要求和新的挑戰 。 企業在實施這些技術時 , 不可避免地對高性能計算資源、彈性伸縮能力、數據處理效率、成本效益以及穩定可靠性等方面的基礎設施服務提出了更為迫切的需求 。
數字化底座的穩定性與韌性升級
隨著企業廣泛采納人工智能應用 , 以及深入運用各類云服務(包括公有云與私有云)和國產軟硬件技術 , 其應用系統的復雜性及數量均顯著增加 。 這種增長對企業的基礎設施及其運維團隊提出了更為嚴苛的要求與挑戰 , 尤其體現在對系統“穩定性”和“韌性”的追求上 。
鑒于此 , 我們觀察到各行各業正積極推進數字化轉型 。 在此轉型過程中 , 基礎設施作為承載所有數字化進程的基石 , 其具備高可用性和卓越韌性的能力至關重要 。 這里的“韌性”是指當底層平臺和應用系統面臨不確定性問題或外部沖擊時 , 它們能夠有效抵抗、迅速恢復 , 并持續提升自身適應性的能力 。
為了進一步增強基礎設施的性能和韌性 , Gartner 今年特別引入并關注了兩項創新技術:低軌衛星通信(LEO Satellite Communication)和安全訪問服務邊緣(SASE) 。 這兩項技術分別從網絡和安全維度提供解決方案 , 旨在引導基礎設施團隊在構建技術架構時 , 將這些新興技術納入考量 , 以確?;A設施在應對未來挑戰時 , 能展現出更強的性能和更高的韌性 。
企業應保持運營效率
企業在基礎設施方面的投入 , 其主要開銷集中于維持日常運營效率 。 然而 , 近年來 IT 預算的增長乏力 , 甚至呈現出縮減趨勢 , 這對負責基礎設施的部門帶來了雙重壓力:即在提升運營效率的同時 , 還需進一步嚴格控制并削減運營開支 。 在此背景下 , 我們觀察到一系列新興技術和創新方案能夠被有效利用 , 從而助力這些部門更高效地運營 。 這些技術創新有助于全面提升效率并顯著降低運營成本 , 從而應對預算緊縮所帶來的挑戰 。
2 熱點聚焦:AI 基礎設施、GPU 即服務、生成式 AI 一體機、國產芯片、分布式混合基礎設施
AI 基礎設施建設:注重 ROI 與內部人才、技能儲備
隨著人工智能技術的飛速發展和日益普及 , 企業對強大且靈活的 AI 基礎設施的需求變得尤為迫切 。 這不僅是為了支持 AI 解決方案的開發與運行 , 更關鍵在于能夠將其高效部署至特定應用場景或企業指定的物理位置 。 值得注意的是 , 我國政府高度重視 AI 產業發展 , 已將其提升至國家戰略層面 , 旨在推動 AI 深度融入各行各業 , 促進整體經濟增長 , 提升數字生產力 , 并有效應對社會挑戰 。
根據 Gartner 的定義 , AI 基礎設施是一個涵蓋廣泛需求的概念 。 它被界定為支持人工智能和機器學習(ML)工作負載的開發、部署與管理所必需的完整技術棧和技術系統 。 這套基礎設施由多種協同組件構成 , 旨在提供高效執行 AI 任務所需的計算能力、網絡能力、存儲能力 , 以及關鍵的 AI 工程化工具 , 如中間件和模型庫等 。
AI 基礎設施的一大顯著特點是其部署的靈活性與適應性 。 根據實際需求 , 不同的 AI 工作負載可以被部署在最優化或最具戰略意義的位置 , 包括本地數據中心(On-premises)、公有云環境 , 乃至邊緣計算節點 。 鑒于不同企業或行業的特定需求 , AI 基礎設施的部署模式呈現多樣化 , 可以是純公有云部署、本地部署、托管式邊緣部署 , 亦或是混合部署模式 , 每種模式均需堅實的 AI 基礎設施提供支撐 。 因此 , AI 基礎設施被視為當代人工智能進步的基石 , 能夠支持極其多樣化的應用場景 。
然而 , 對于企業而言 , 基礎設施部門在規劃并投入 AI 基礎設施建設時 , 必須審慎評估其潛在風險與回報 。 首先 , AI 基礎設施的初期投資通常十分巨大 , 因此確保合理的投資回報率(ROI)是企業必須關注的核心問題 。
其次是人才與技能儲備的挑戰 。 傳統的企業數據中心管理團隊可能對現有架構駕輕就熟 , 但構建和維護專門支持 AI 工作負載的數據中心環境則面臨新的技術挑戰 。 這不僅涉及底層硬件的革新 , 還包括上層軟件環境的變化 , 對運維人員的技術能力提出了更高的要求 。
此外 , 隨著國內自主可控產品和國產替代方案的涌現 , 企業內部可能面臨異構架構的復雜性 。 在 AI 生態系統尚未完全成熟的背景下 , 通過軟件實現統一調度與資源管理變得尤為關鍵 , 但這對于企業而言往往是一項艱巨的任務 。
綜上所述 , 企業在制定 AI 基礎設施戰略或采納相關創新技術時 , 必須全面考量自身的需求、現有能力與未來發展規劃 , 力求精準投資 , 避免過度投入 , 從而最大化 AI 基礎設施的戰略價值 。
生成式 AI 一體機:謹慎選擇 , 避免重復性投資
今年初開始 , 市場涌現出諸多大模型一體機產品 , 甚至一度出現供不應求的局面 。 值得指出的是 , “一體機”并非新生概念 , 早在數年前 , 集成式解決方案已在不同技術領域有所呈現 。 在此背景下 , 生成式 AI 一體機(Generative AI All-in-One Machine)特指一種為運行 AI 工作負載而設計的集成計算設備 。 這類設備通常集成了 GPU、AI 加速器、服務器管理系統 , 以及上層的基礎軟件、模型庫、AI 工程化工具 , 并可選擇性地預裝 AI 應用 。 它們旨在為不同用戶群體和企業提供“開箱即用”(Out-of-the-Box)的體驗 , 從而顯著縮短 AI 部署周期 , 降低對專業技能的要求 , 并滿足數據本地化的合規需求 , 因此獲得了眾多企業機構的關注與采納 。
在投資此類技術時 , 企業需審慎考量其內部 AI 部署戰略以及對未來基礎設施的整體規劃 。 鑒于市場技術的快速迭代 , 一體機的價值可能面臨迅速貶值的風險 , 其技術門檻和適用場景也具有一定的局限性 。 因此 , 在投資一體機之前 , 建議企業與 AI 項目團隊及相關業務利益方緊密協作 , 明確具體的 AI 用例 。 這包括厘清何時適用一體機、何時需依賴數據中心資源來支撐 AI 運營 , 并規劃當未來需部署多個 AI 應用時如何進行選擇 , 避免重復性投資 。 此外 , 由于進入該領域的廠商眾多 , 其商業模式、服務能力、技術水平及長期支持策略差異顯著 。 因此 , 企業在選擇一體機供應商時 , 務必進行全面評估 , 確保供應商能提供產品整個生命周期的持續支持 , 而非僅限于一次性銷售 。
GPU 即服務:新興 AI 算力模式的戰略考量
如前所述 , AI 應用的部署地點因數據隱私、安全要求、應用規模等因素而異 , 可能涵蓋企業自建數據中心、辦公室(如一體機) , 或公共云環境 。 在各類部署模式中 , 一項今年新納入技術成熟度曲線的創新技術是“GPU 即服務”(GPU as a Service) , 它隨著近年來生成式 AI 的蓬勃發展 , 已在市場上涌現出諸多服務提供商 。
“GPU 即服務”本質上是一種基于云計算的消費模式 , 允許企業按需獲取 GPU 算力資源 。 這種服務通常由公有云或專用云提供商提供 , 而非在本地部署 。 在中國市場 , 提供“GPU 即服務”的廠商多以提供國產 AI 加速卡或美國 GPU 卡為主 , 旨在為 AI 推理和訓練任務提供高效的計算資源環境 。 “GPU 即服務”使企業能夠按需付費地訪問市場上難以直接采購的高性能 GPU 和 AI 加速卡資源 , 特別適用于短期模型微調等場景 , 并能突破超大規模云服務商的地域限制 。 此外 , 相較于大型云服務商 , 其解決方案的成本通常更低 , 復雜度也相對較小 。 這種資源提供方式不僅適用于 AI 應用 , 在游戲、加密貨幣挖礦、高性能計算(HPC)及圖形渲染等領域也獲得了快速采納 。
然而 , Gartner 認為這項創新仍處于相對早期階段 , 建議企業優先考慮成熟度較高的云服務產品 , 即大型云廠商提供的公有云服務 。 僅當大型云廠商的服務無法滿足企業特定需求時 , 再審慎考慮“GPU 即服務”這一創新技術 。 此外 , 企業還需評估“GPU 即服務”提供商的當前發展狀況及其長期投入意愿 , 以確保服務的可持續性 。 這為企業部署 AI 工作負載提供了又一種選擇場景 。
國產 AI 芯片:異構挑戰與部署策略
高性能計算(HPC)在模型訓練中扮演著至關重要的角色 。 然而 , 我們觀察到當前市場發布的大語言模型(LLMs)訓練對算力需求極高 , 但持續投入更多算力所帶來的推理結果差異化已呈現邊際效應遞減的趨勢 。 這意味著單純依靠無休止的訓練投入來獲得突破性進展的效用正在減弱 。 相應地 , 企業對模型訓練的需求正在趨緩 , 而更多精力則轉向 AI 應用的實際部署與落地 。 在此過程中 , 對高性能計算的需求相應降低 , 取而代之的是對推理算力更為迫切的需求 。
針對中國芯片產業而言 , 當前主要面臨的挑戰在于高性能訓練算力的支持相對不足 , 尤其是在與國際頂尖水平相比之下 。 然而 , 在推理 AI 芯片領域 , 國產廠商的能力已顯著提升 。 以華為等廠商發布的 AI 推理芯片和算力節點為例 , 其與英偉達(NVIDIA)等國際領先芯片的性能差距正在逐步縮小 。 但隨之而來的是一個現實問題:國內芯片廠商數量眾多 , 導致企業在實際部署中面臨復雜的異構芯片環境管理挑戰 。 這不僅涉及底層硬件兼容性 , 更關乎上層應用管理與基礎設施調度工具如何有效適配和兼容如此多樣化的芯片架構 。
因此 , Gartner 建議企業在芯片選型上采取更為集中的策略 , 鎖定 1-2 家核心芯片廠商進行產品部署 , 而非追求全面覆蓋所有廠商的產品 。 若試圖兼容所有廠商的芯片 , 將導致每一個工具層都需要進行繁瑣的適配 , 無疑會給企業內部帶來巨大的管理與運維挑戰 。 相反 , 聚焦于少數幾家芯片產品 , 并深入其生態系統進行兼容性測試 , 有助于降低復雜性 。 同時 , 這也使得企業員工能夠更專注于對這些特定產品的學習與掌握 , 從而逐步提升自身的技術能力和適應性 。
分布式混合基礎設施(DHI):賦能企業按需部署
除了 AI 相關的熱點話題 , 在整個基礎設施領域 , Gartner 今年將“分布式混合基礎設施(DHI)”創新納入技術成熟度曲線 。 這項相對較新的技術具備“原生特性” , 即其產品可根據客戶的具體需求 , 在本地、邊緣計算環境或公有云上進行靈活部署與運行 。
“分布式混合基礎設施(DHI)”創新能夠構建統一的基礎設施框架 , 并在多樣化的環境中加以應用 。 由于其核心在于“云”為中心的運營模式 , 它顯著提升了公有云在傳統基礎設施范圍之外的工作負載部署的靈活性與便捷性 。 企業可借此享受到類似于公有云的基礎設施優勢 , 同時又能確保對部署位置的精準管控 。 例如 , 企業可將分布式云服務部署至邊緣節點或自有數據中心 , 抑或通過此服務實現混合云管理 。 總體而言 , 分布式混合基礎設施技術為企業帶來了極大的便捷性 。
然而 , 我們也必須認識到 , 各云服務商提供的解決方案及商業模式存在顯著差異 。 因此 , 在投資此創新技術時 , 企業需根據自身主要應用和部署場景來明確需求 , 并審慎評估云服務商的能力是否能滿足具體要求 , 例如平臺運維的控制權歸屬 , 以及解決方案是否支持離線運行等特定需求 。 在權衡不同廠商的產品特性和商業模式之余 , 企業還需結合自身的財務制度偏好進行考量 。 例如 , 部分企業可能傾向于持有資產 , 這就需要評估特定云服務商的產品是否支持這種資產持有模式 。
通過這項技術創新 , 企業能夠更好地發展其基礎設施 。 尤其值得一提的是 , 以往多見于公有云的按需付費模式 , 現在在分布式混合基礎設施的框架下 , 也能在私有環境中得以實現 , 這無疑是一大優勢 。 此外 , 針對不愿在公有云上部署 AI 能力的企業 , 公有云廠商亦可通過分布式混合基礎設施產品 , 將其 AI 平臺、模型及開發環境部署至企業指定的自有數據中心 。
3 結語
最后 , Elaine Zhang 強調 , 在審視整個技術成熟度曲線時 , 不僅要關注各項技術所處的位置及其大致的成熟階段、企業采納能力 , 以及對其期望值 。 更重要的是 , Gartner 會為每項技術創新設定一個時間區間 , 這并非簡單地與其在曲線上的位置線性關聯 。 技術達到主流采納成熟度所需的時間各異 , 因此 , 在解讀技術成熟度曲線時 , 另一個關鍵維度便是“優先級” 。
在今年的基礎設施技術成熟度曲線上 , Gartner 尚未發現能在兩年內帶來重大顛覆性變革的技術 。 然而 , Gartner 關注那些在兩年內有望對企業產生較高影響力的技術 , 例如 SD-WAN(軟件定義廣域網) 。 雖然 SD-WAN 已相對成熟 , 并已抵達“生產力高原”階段 , 成為成熟產品 , 它尚未引發企業翻天覆地的變革 , 但其對企業運營的影響力已然顯著 。 其次 , Gartner 關注那些對企業具有重大影響 , 但仍需 2-5 年時間才能趨于成熟的技術 。 當然 , 這并非意味著其他技術不重要 , 而是強調在審視技術成熟度曲線時 , 除了關注技術的位置 , 更要考量其距離達到真正成熟所需的時間 , 并在企業應用時設定合理的期望值 。
今日好文推薦
叮!極客邦 2025 秋招“通關文牒”已送達!

    推薦閱讀