AI狂飆,地基不牢

AI狂飆,地基不牢

文章圖片

AI狂飆,地基不牢

文章圖片



甲骨文正在經歷其歷史上規模最大的重組 。
這家軟件巨頭 , 計劃投入高達16億美元的重組成本 , 包括向離職員工支付遣散費 。 這次重組的規模遠超甲骨文此前披露的任何類似計劃 。 加利福尼亞州和華盛頓州最近的WARN文件顯示 , 已有超過500名員工收到裁員通知 , 而實際影響的員工數量可能超過3000人 。
重組的背后是甲骨文業務重心的根本性轉變 , 公司正從傳統軟件制造商轉型為AI基礎設施提供商 。 為了履行與OpenAI和Meta等公司簽署的大規模云基礎設施協議 , 甲骨文需要租賃數據中心 , 配置先進的英偉達芯片 , 并為這些設施供電 。
根據彭博一致預期估算 , 甲骨文未來幾年將投入數千億美元用于基礎設施建設 。 僅在德克薩斯州西部的一個數據中心 , 甲骨文就計劃每年投入超過10億美元用于現場燃氣發電 。
這些巨額投資使得甲骨文的現金流在2025年首次轉為負值 , 這也是該公司自1992年以來的首次為負 。 分析師預計這一指標在未來一年將繼續惡化 , 直到2029年才能重新轉正 。
01
甲骨文的經歷并非個例 。 微軟在投入數百億美元建設數據中心并承諾控制成本后 , 今年裁員約15000人 。 通過裁員來抵消AI投資成本 , 已經成為主要科技公司普遍采用的策略 。 根據行業追蹤平臺Layoffs.fyi的數據 , 2025年前三個季度已有超過83000名科技工作者失業 , 涉及194家公司 。
甲骨文多年來在競爭激烈的云基礎設施市場中遠遠落后于前三大供應商亞馬遜、微軟和谷歌 。 如今簽署了重要的云協議 , 作為前期成本的“負現金流”就成為了入場門票 。
甲骨文的股價在2025年上漲近90% , 既有可能超過自1999年以來的最佳年度表現 。 根據Forrester的預測 , 甲骨文將花費16億美元進行重組 , 截至8月31日僅花費了4.15億美元 , 以用于給予那些被辭退的員工 , 而12月底還將有大約10000個職位面臨裁減 。

AI基礎設施建設的邏輯與傳統軟件開發截然不同 。 軟件可以快速迭代 , 應用可以靈活部署 , 但數據中心建設需要長期規劃 , 芯片采購需要提前預訂 , 電力供應需要穩定保障 。 當軟件的發展速度遠超硬件的供給能力時 , 整個產業就會遭遇基礎設施瓶頸的根本性制約 。
甲骨文2025年9月10日發布的財報數據為這個問題提供了最直觀的證明 。 4550億美元的訂單積壓 , 股價單日盤中暴漲41% , 市值增加近千億美元 。 甲骨文的AI基礎設施收入實現了55%的顯著增長 。 公司預計這一增長勢頭將持續 , 并預測本財年該業務收入將達到180億美元 , 五年內將達到1440億美元 。
事實上 , 雖然訂單業的數額很大 , 但理解起來并不復雜 。 就拿甲骨文和OpenAI的大訂單為例 , 甲骨文主要提供OpenAI提供數據中心 , 讓OpenAI可以把數以PB級別的原始數據放在這個數據中心的數據庫里 。
這些數據結構包括文本、代碼、JSON文件 , 還有圖片 。 OpenAI要對這些原始數據進行清洗、去重、標注和格式化 , 進而訓練自己的大模型 。 于是甲骨文就要提供一個足夠大的數據庫 , 以存儲這些數據 。
然而還有一個問題 , 大模型并不能直接理解數據 , 它只能理解Tokens 。 所以甲骨文還要通過這個數據庫 , 將所有的原始數據轉換為Tokens , 將其“向量化” , 因此這個數據庫也被稱作是向量數據庫 。
甲骨文的數據中心另一大作用就是幫助OpenAI實現調用 。 因為一個萬億參數的模型本身可能就占用數TB的顯存 。 沒有任何單一的GPU能裝下它 。 因此 , 模型被“切片”后 , 分布加載到這4096個GPU的顯存中 。
那么 , 當OpenAI請求一個例如包含4096個NVIDIA H100 GPU的計算集群 , 那么甲骨文的數據中心就要能第一時間響應這個請求 , 點亮并調用這些GPU 。
財報顯示 , 甲骨文與亞馬遜、谷歌和微軟合作的多云數據庫服務收入增長率高達1529% 。 更夸張地是 , 甲骨文最近還和OpenAI簽署的協議價值高達3000億美元 。
【AI狂飆,地基不牢】甲骨文現在要做的 , 是新一代的AI基礎設施 。 以Oracle AI Database為例 。 這個產品可以讓客戶在甲骨文數據庫上直接使用各種大型語言模型 , 因此 , 客戶不需要單獨采購計算資源、存儲資源和AI模型 , 跳過了原先復雜的部署階段 。
這種數據庫與AI模型的深度集成代表了基礎設施服務的新方向 , 不再是簡單的計算資源租賃 , 而是提供完整的AI解決方案平臺 。 通過將企業數據進行向量化處理 , 使ChatGPT、Gemini等主流大模型能夠輕松理解和運用企業數據 。
甲骨文的成功揭示了AI基礎設施競爭的新邏輯 。 甲骨文首席財務官Safra Catz透露 , 公司能夠在一周內完成客戶原本預期需要數月時間的大型數據中心交付 。 能與OpenAI、xAI和Meta等AI巨頭簽署數十億美元合同 , 快速交付和成本優化才是關鍵因素 。
什么叫成本優化呢?
數據中心的地理分布和網絡架構設計對AI應用的性能影響巨大 。 AI訓練需要大量數據在不同節點間傳輸 , 推理服務需要低延遲的響應能力 。 甲骨文通過優化數據中心的網絡拓撲和互聯架構 , 實現了更高的數據傳輸效率和更低的延遲表現 。
甲骨文的網絡數據傳輸速度優勢 , 使得按小時計費的客戶成本減半 。
這無疑不再釋放著一個信號:行業不再僅僅圍繞模型發布或消費者應用 , AI基礎設施成為了最重要的參考系 。
當海外云巨頭還在為產能不足發愁時 , 甲骨文通過更高效的資源調度和更靈活的部署模式 , 成功搶占了市場份額 。 在這個需求爆發式增長、供給嚴重不足的時代 , 甲骨文的成功本質上是基礎設施稀缺的直接體現 。
表面上看 , 海外云巨頭都在創造訂單奇跡 。 根據Canalys的最新數據 , 全球云基礎設施支出在2025年第二季度同比增長22% , 達到953億美元 , 這是連續第四個季度增長超過20% 。 谷歌云1060億美元訂單積壓 , 微軟Azure 3680億美元履約義務 , AWS 1950億美元訂單積壓 。
表面上看 , 巨額訂單積壓 , 表明市場對產品或服務的旺盛需求 。 然而事實卻恰恰相反 。
AWS公司管理層明確表示 , 需要幾個季度的時間才能重新平衡供需關系 。 就相當于現在下單 , 要到2025年底或2026年初才能完工 。 微軟則至少要到2026年上半年才能完工 。
AI基礎設施的核心在于計算資源的高效調度和數據處理能力的優化 。 傳統的云服務更多關注存儲和網絡 , 而AI基礎設施需要專門針對機器學習工作負載進行優化 。 這包括GPU集群的管理、模型訓練的資源分配、推理服務的負載均衡等專業能力 。
也正是因此 , 海外云巨頭正在經歷一場史無前例的產能危機 , 手握大量訂單卻無法及時交付 。
02
2025年9月 , 螞蟻數科在外灘大會上宣布推出按“效果付費”的新型商業模式 , 支持企業客戶根據大模型應用的實際效果來付費 , 而非傳統的項目制或訂閱制模式 。
傳統云服務的商業邏輯正在被AI應用徹底顛覆 。 客戶關注的不再是租用了多少臺服務器 , 而是完成了多少次模型訓練或處理了多少推理請求 。
在傳統云服務模式下 , 企業按照CPU核數、內存容量、存儲空間等硬件資源付費 。 但AI應用的特殊性在于 , 相同的硬件配置在不同場景下的實際效果可能相差數倍 。 一次GPT-4級別的大模型訓練可能需要數千張GPU卡運行數周 , 而同樣的硬件用于推理服務可能每秒處理數百次請求 。
AI模型訓練過程可能持續數天甚至數周 , 任何中斷都會造成巨大損失 。 推理服務需要7x24小時穩定運行 , 任何故障都會直接影響業務連續性 。 這要求AI基礎設施具備更強的容錯能力、更快的故障恢復能力和更完善的監控預警機制 。 AI基礎設施的安全性和可靠性要求遠超傳統云服務 。

這種差異催生了全新的計費模式 。 客戶開始按照“訓練完成的模型數量”、“推理請求的處理次數”、“模型精度的提升幅度”等實際業務指標付費 。
“按效付費”模式正在成為行業新標準 。
亞馬遜計劃在2025年的資本支出超過1000億美元 , 重點不再是簡單的服務器擴容 , 而是針對AI工作負載的專門優化 。 這包括定制AI訓練芯片Amazon Trainium和Inferentia的大規模部署 , 以及在美國超過300億美元的新一代數據中心投資 。
微軟宣布的800億美元基礎設施擴張計劃 , 核心是構建“AI-first”的云服務架構 。 不同于傳統數據中心的通用計算能力 , 新架構專門針對大模型訓練和推理場景進行優化 , 能夠顯著提升AI任務的執行效率 。
谷歌將2025年資本支出目標從750億美元提高到850億美元 , 增量部分主要用于TPU集群擴建和AI專用網絡架構升級 。
不過我們得認清一個事實 , 產能危機的根源在于AI基礎設施的特殊性需求 。 與傳統云服務不同 , AI基礎設施需要專門的GPU集群管理、模型訓練的資源分配、推理服務的負載均衡等專業能力 。 這些需求無法通過簡單的橫向擴展來滿足 , 而需要針對性的架構設計和硬件配置 。
更嚴重的是 , AI基礎設施面臨多重供應鏈瓶頸 。 英偉達GPU短缺、臺積電CoWoS封裝產能不足、數據中心電力供應緊張等問題相互疊加 , 形成了系統性的供應制約 。 即使云巨頭擁有充足的資金 , 也難以在短期內大幅擴充有效產能 。
03
2024年10月 , 美國商務部進一步收緊對華芯片出口管制 , 英偉達H20芯片面臨停產風險 。 這款專門為中國市場設計的閹割版芯片 , 性能相比H100大幅削減 , 但仍然是中國企業能夠合法采購的最先進AI芯片之一 。
時間來到2025年的7月15日 , 黃仁勛在中國高調宣布 , 美國政府已批準英偉達H20芯片在華銷售許可 , 并表示“中國市場規模龐大、充滿活力且極具創新性 , 美國企業扎根中國市場的確至關重要” 。
半個月后 , 國家互聯網信息辦公室約談英偉達公司 , 要求其就對華銷售的H20算力芯片漏洞后門安全風險問題進行說明并提交相關證明材料 。 網信辦指出 , 美國議員曾呼吁要求美出口的先進芯片必須配備追蹤定位功能 , 美國人工智能領域專家透露英偉達算力芯片追蹤定位和遠程關閉技術已經成熟 。
這次約談并非空穴來風 。 2025年5月 , 美國眾議院提出《芯片安全法案》 , 要求美國商務部強制受出口管制的芯片植入位置驗證和遠程控制功能 。 7月 , 美國白宮發布《人工智能行動計劃》 , 要求企業建立芯片位置驗證機制 , 通過技術手段阻止高端AI計算芯片流入“密切關注國家” 。

根據伯恩斯坦報告 , 2025年中國AI芯片市場規模達到380億美元 , 國產芯片銷售額從60億美元躍升至160億美元 , 市場占比從29%提升到42% 。
國產AI芯片雖然數量增長迅速 , 但配套體系還不夠完善 。 大多數企業在選擇AI基礎設施時 , 需要對性能和成本進行權衡 , 一些關鍵的訓練 , 仍然離不開英偉達產品 。
國產AI芯片的替代方案被統稱為“類CUDA” 。 這是因為英偉達為AI提供算力 , 需要通過物理設備GPU , 以及軟件系統CUDA共同完成 。 沒有CUDA , GPU強大的并行計算能力就無法被釋放 , 對于AI開發者來說 , 沒有CUDA的GPU就是一塊廢鐵 。
全球數百萬的AI開發者、科研人員都是在CUDA環境下學習和工作的 。 他們的代碼、項目、經驗和習慣都和CUDA深度綁定 , 遷移到另一個平臺的學習成本和時間成本極高 。
國內的AI芯片廠商 , 比如華為的昇騰 , 百度的昆侖芯 , 他們造出的芯片 , 在理論峰值算力上可能已經可以追趕甚至在某些指標上超越英偉達的同代產品 , 可在軟件生態上 , 必須向CUDA看齊 。
但是CUDA不僅僅是一個編程框架 , 而是一個包含編譯器、調試器、性能分析工具、數學庫在內的完整開發生態系統 。 英偉達用了17年時間構建這個生態 , 中國企業想要做出一個包含編譯器、驅動 , 還有庫的軟件棧 , 去做CUDA平替 , 這是一個非常困難的事情 。
英偉達下一代Vera Rubin系統將于2026年下半年上線 , 屆時性能優勢將進一步擴大 。 如果國產AI芯片無法在CUDA生態替代上取得突破性進展 , 技術差距只會越來越大 。
時間很緊迫!

    推薦閱讀