Agent運行提速10倍!斯坦福教授押注異構推理,破解AI推理瓶頸

Agent運行提速10倍!斯坦福教授押注異構推理,破解AI推理瓶頸

過去兩年 , 我們已經習慣了與大模型對談 , 但 AI 的進化并未止步于此 。 現在 , 行業正集體轉向一個更具野心的目標——AI Agent 。 不同于只會見招拆招的聊天機器人 , AI Agent 更像是一個擁有自主行動能力的“數字員工”:它會自主上網搜集情報、多維分析海量數據、甚至跨平臺調用各種專業工具完成復雜的業務閉環 。

但問題來了 , 在一次完整的執行流中 , Agent 會產生海量的計算步驟 , 且各環節對硬件的需求存在本質差異:邏輯推理階段依賴極速計算 , 知識檢索階段渴求高帶寬存儲 , 而工具調用則對網絡 I/O 的響應時延有著近乎苛刻的要求 。

這種復雜的、多階段的任務特性 , 導致了當前算力架構中一個極其尷尬的悖論:由于缺乏精細化的調度能力 , 開發者往往只能將所有任務都扔到同一種硬件(通常是高端 GPU)上跑 , 而硬件性能與任務需求其實并不匹配 。

據統計 , 目前全球數據中心硬件的平均利用率僅維持在 15%-30% 之間 。 這意味著 , 在 AI 浪潮狂熱擴張的背后 , 每年有價值數百億美元的算力資源正處于隱性的閑置與浪費之中 。

為了打破這種桎梏 , 一個被視為下一代 AI 基礎設施核心的理念——“異構推理”應運而生 。 異構推理就是讓 AI 在推理時 , 不再只盯著一種芯片使勁 , 而是根據任務的不同需求 , 把工作拆開 , 分給最適合的多種硬件去協同完成 。

權威 IT 研究與顧問咨詢公司 Gartner 預測 , 到 2028 年 , 40% 的領先企業會采用混合計算架構 , 把 CPU、GPU、ASIC、甚至不同代際的芯片混在一起用 。 同時 , 2026 年全球 AI 基礎設施支出預計將達到約 1.36 萬億美元 , 推理部分占比正快速超過訓練 , 成為 AI 計算的主戰場 。

近日 , 總部位于美國舊金山的 AI 基礎設施初創公司 Gimlet Labs 宣布完成 8000 萬美元 A 輪融資 。 此輪由知名風投 Menlo Ventures 領投 , 至此 , 該公司累計融資達到 9200 萬美元 。

天使投資人包括紅杉資本的合伙人比爾·科夫蘭(Bill Coughran)、斯坦福大學教授及網絡專家尼克·麥基翁(Nick McKeown)、VMware 前首席執行官拉古·拉古拉姆(Raghu Raghuram)以及英特爾首席執行官陳立武(Lip-Bu Tan) 。 值得注意的是 , 英特爾前首席技術與人工智能官 Sachin Katti(薩欽·卡蒂)參與其中 , 擔任 Gimlet 的顧問 , 他曾與創始人兼首席執行官 Zain Asgar(扎因·阿斯加)在斯坦福共同授課并合作相關研究 。
【Agent運行提速10倍!斯坦福教授押注異構推理,破解AI推理瓶頸】
Gimlet 針對上述問題推出了一個無服務器的 AI 推理云平臺 Gimlet Cloud 。 它就像是一個聰明的“云端指揮部” , 會自動將復雜的 AI Agent 工作拆解成很多環節 , 然后根據每個環節的需求 , 精準地分配給最合適的硬件 。 比如計算重的用高端 GPU , 內存重的找加速器 , 聯網重的用帶快網的機器 。 甚至能把英偉達、AMD、英特爾、ARM 等不同廠商、不同代際的芯片混在一起協同工作 。

根據 Gimlet 官方披露的數據 , 這種異構調度方式能讓同樣的 AI Agent 在不增加電費和硬件投入的情況下 , 運行速度提升 3 到 10 倍 , 顯著降低每 token 成本 , 同時解鎖原本閑置的老舊算力 。

為了讓模型在各種新舊、不同品牌的芯片上都能絲滑運行 , Gimlet 還開發了一款工具 kforge , 它能用 AI 自己幫模型寫出最優的底層代碼 , 讓不同硬件自動跑得更順 , 省掉程序員大量手動調試的功夫 。

正如阿斯加所言 , “我們的目標基本上是設法將當今 AI 工作負載的效率提升 10 倍 。 ”

阿斯加是斯坦福大學的兼職教授 , 曾在英偉達擔任 GPU 架構師、在谷歌擔任軟件工程師 。 他與其他三位聯合創始人曾共同創辦了知名可觀測性平臺 Pixie Labs , 后被 New Relic 收購 。 而就在被收購的兩個月前 , 該公司剛剛完成了由 Benchmark 領投的 900 萬美元 A 輪融資 。


圖 | 創始團隊(來源:Gimlet )

在宣布融資的同時 , Gimlet 還透露 , 公司目前營收已達八位數 , 自結束隱身模式以來客戶群增長了兩倍 , 其客戶群在過去四個月內增長了一倍以上 , 目前包括一家頂尖的前沿模型實驗室和一家超大規模云服務商 , 但并未透露兩家公司的名稱 。

此外 , 該公司還與包括 AMD、ARM、Cerebras、d-Matrix、英特爾和英偉達在內的領先人工智能芯片公司開展合作 。

參考鏈接:
1.https://gimletlabs.ai/blog/announcing-series-a
2.https://www.gartner.com/en/newsroom/press-releases/2025-10-20-gartner-identifies-the-top-strategic-technology-trends-for-2026

運營/排版:何晨龍

    推薦閱讀