
【IBM專攻推理加速,打造企業AI基礎設施護城河】當OpenAI、谷歌和其他科技巨頭追求更大模型規模 , 每月都聲稱創下新的基準分數記錄時 , 企業面臨著一個更安靜但更實際的挑戰:推理 。
運行訓練好的AI模型來分析新數據并生成答案的過程在理論上聽起來簡單 , 但在規模化應用時 , 這正是大多數公司遇到困難的地方 。 GPU最初是為圖形渲染設計的 , 在原始計算方面表現出色 , 但在數百萬實時查詢的重壓下卻表現不佳 。 這導致了成本飆升、延遲問題和巨大的能源需求 。
IBM一直將自己定位為企業計算的架構師 , 正在填補這一空白 。 IBM沒有追求更大的模型 , 而是將自己定位為AI推動者 , 成為將智能轉化為執行的連接層 。 其最新的生態系統押注專注于現代AI不可見但關鍵的基?。 和評砘∩枋?。
通過與Anthropic和加利福尼亞初創公司Groq的新合作伙伴關系 , 后者以其語言處理單元(LPU)而聞名 , IBM旨在重新構想企業AI在生產環境中的運作方式 。
\"數據無處不在 , 多個云、邊緣、本地部署 , 企業AI必須能夠在混合環境中工作 。 我們有一個分層模型策略 , 平衡IBM自主創新與戰略合作伙伴關系以加速成果 , \"IBM高級副總裁兼首席商務官Rob Thomas告訴記者 。 \"我們利用各種模型 , 像Granite這樣的小語言模型、來自Mistral和Meta等合作伙伴的大語言模型 , 以及通過與Anthropic合作獲得的前沿模型 , 為每個用例使用最佳模型 。 \"
通過將Groq的推理硬件集成到IBM的watsonx Orchestrate中 , 該公司聲稱企業可以運行智能體AI系統 , 速度比傳統的基于GPU的設置快5倍 , 成本效率更高 。
\"AI仍然停留在'撥號上網'時代——模型可以給出準確答案 , 但要給出高質量的研究級答案可能意味著等待長達10分鐘 , 而大語言模型或智能體則在思考 , \"Groq首席執行官兼創始人Jonathan Ross說 。 \"更快的處理還會推高使用量 , 從而增加計算成本 , 因此速度必須與成本效率相結合 。 \"
Ross解釋說 , 傳統GPU在并行、批處理導向的工作負載(如模型訓練)方面表現出色 。 但當涉及到低延遲、多步推理 , 即智能體AI所需的動態執行時 , GPU就顯得力不從心 。 LPU使用軟件控制的流水線架構 , 以確定性流程移動數據 , 消除GPU中常見的瓶頸 , 提供實時AI性能 。
\"智能體AI通過將任務分解為一系列明確步驟并按順序執行每個步驟來改善大語言模型輸出 。 這種'分步思考'的方法產生更好的結果 , 盡管它也成倍增加了所需的計算量 , 推高了延遲和成本 , \"他告訴記者 。 \"GPU是訓練或創建AI模型的正確工具 。 LPU是推理或運行AI模型的正確工具 。 \"
IBM的AI賦能技術棧內部構造
隨著企業從AI實驗走向生產 , IBM通過其watsonx平臺統一了現代AI棧的三個基本層:智能、推理和治理 。
在智能層 , IBM與Anthropic的合作將Claude模型引入棧中 , 提供透明的推理能力 , 這對需要可解釋系統而非不透明黑盒的受監管行業來說是關鍵優勢 。 在此之下 , Groq的確定性LPU取代了耗電的GPU , 在規模上提供低延遲推理 , 跟上現實世界企業工作負載的步伐 。 錨定系統的是IBM的治理基礎 , 由Red Hat OpenShift提供支持 , 確保每次AI交互在混合和本地環境中都保持可審計、合規和安全 。
\"IBM的策略目前看起來是有效的 , \"Forrester高級云分析師Dario Maisto告訴記者 。 \"從長遠來看 , 它是否會促進可持續增長是另一個問題 。 好的方面是 , 這種工作方式讓IBM在利用新的AI解決方案和合作伙伴關系方面具有更多的機會性靈活性 。 \"
IBM表示 , 其策略已經在有大量推理需求的客戶中找到了支持 。 例如 , 一家大型健康保險提供商使用watsonx Orchestrate同時處理數千個患者和提供商查詢 。 通過在Groq的LPU上運行AI智能體 , 系統現在能夠以幾乎零延遲提供實時答案 , 有助于提高患者滿意度并加速理賠審批 。
\"我們的角色是為企業提供運營AI所需的完整技術棧 。 我們的Watsonx產品組合加速核心工作流程的投資回報率 。 我們的Granite模型對于需要控制和定制的企業特定任務仍然至關重要 。 來自Anthropic等合作伙伴的前沿模型則推動了可能性的邊界 , \"Thomas補充道 。 \"三年后 , 我相信IBM將成為使AI在整個企業技術資產中發揮作用的賦能層 。 \"
IBM的模塊化策略對比超大規模廠商主導地位
下一場AI競賽可能取決于誰能最智能地部署AI , 而IBM正在繪制一條不同的路線 。 雖然微軟和谷歌已經圍繞其基礎模型和云構建了緊密集成的生態系統 , 但IBM的策略在設計上是模塊化和混合的 , 避免了生態系統鎖定 。
微軟嚴重依賴OpenAI的前沿模型 , 將GPT副駕駛嵌入到Microsoft 365、Azure、GitHub和Windows中 。 據報道 , 該公司現在持有OpenAI約27%的股份 , 在最近的資本重組中估值約為1350億美元 。 這一股份幫助推動了強大的反饋循環 , 增強了其模型并確保了企業忠誠度 , 推動了截至2025年第三季度1230億美元的年化云收入運行率 。
谷歌追求垂直整合 , 結合專有的Gemini和開源Gemma模型為Vertex AI和搜索、安卓等平臺提供支持 。 其TPU和數據控制實現了AI棧的端到端所有權 , 貢獻了大約610億美元的云收入 。
與此同時 , IBM專注于編排而非所有權 。 其watsonx平臺和小語言模型(SLM)支持混合和本地環境 , 而Red Hat OpenShift支持跨云或安全的隔離系統部署 。 擁有大約2%云份額的IBM正在加倍押注下一代推理和可靠性 。
\"每個超大規模廠商都想擁有入口 , 企業想要自由 , 跨云、主權區域和邊緣站點 , \"Rafay首席執行官兼聯合創始人Haseeb Budhani說 。 \"獲勝者是讓這種體驗在任何地方都感覺相同的平臺:無論是公有云、本地還是新云 。 這是一個很高的標準 。 如果IBM能達到 , 很好 。 如果不能 , 多云仍然是幻燈片 , 而不是系統 。 \"
Budhani補充說 , 在AI基礎設施中 , 經濟學而非硬件將有助于贏得競賽 。 \"GPU不會自己銷售;體驗才會 , \"他說 。 當編排改善利用率并實現可預測支出 , 特別是跨主權和區域云時 , 采購決策會發生轉變 。
在被認為在AI軍備競賽中過于謹慎多年后 , IBM現在旨在通過掌握使AI實用的基礎設施來開辟出一個領導地位 。
\"實驗很容易 。 生產很難 。 公司在試圖從AI獲得投資回報率時遇到三個關鍵挑戰:速度、成本和可靠性 。 這就是IBM的完整技術棧 , 包括我們與Groq的新合作伙伴關系 , 改變游戲規則的地方 , \"Thomas說 。 \"我們給客戶選擇權 。 \"
Q&A
Q1:IBM在AI推理方面有什么創新?
A:IBM通過與Groq和Anthropic的合作 , 開發了基于LPU(語言處理單元)的推理基礎設施 。 LPU使用軟件控制的流水線架構 , 以確定性流程處理數據 , 比傳統GPU在AI推理方面快5倍且更具成本效益 , 特別適合智能體AI的多步推理需求 。
Q2:IBM的watsonx平臺有什么特色?
A:watsonx平臺統一了AI的三個基本層:智能層(集成Claude等模型)、推理層(采用Groq的LPU技術)和治理層(基于Red Hat OpenShift) 。 這種模塊化混合設計避免了生態系統鎖定 , 支持跨云、本地和邊緣環境部署 , 確保AI交互的可審計性和合規性 。
Q3:IBM的AI策略與微軟谷歌有什么不同?
A:IBM專注于編排而非所有權 , 采用模塊化策略避免生態鎖定 。 微軟深度依賴OpenAI并緊密集成到其產品生態 , 谷歌追求端到端垂直整合 。 IBM則通過合作伙伴關系提供靈活選擇 , 讓企業在不同云環境和本地部署中自由使用AI服務 。
推薦閱讀
- AI推理進入深水區,先進存力成“提速降本”關鍵
- 中關村學院新發現:輕量級驗證器可解鎖LLM推理最優選擇
- IBM宣布2025年第四季度全球裁員計劃,至少影響2700名員工
- AEPO:智能體熵平衡策略優化,讓探索更穩,推理更深!
- 英偉達幫你省錢,讓大模型推理「短而精」,速度快5倍
- 達摩院推出多智能體框架ReasonMed,打造醫學推理數據生成新范式
- 營收翻番、現金流轉正,云天勵飛在“推理芯片+場景落地”中走出確定性
- IBM發布小型開源Granite 4模型,專為移動設備和瀏覽器設計
- 以判別式監督學習強化推理LLM,解決難度偏差和熵崩塌難題
- 垃圾數據侵蝕AI大腦!大模型新研究:Llama推理能力大降,自戀水平翻倍
