火山引擎作為「AI 原生」基礎設施,變得更強了

火山引擎作為「AI 原生」基礎設施,變得更強了

文章圖片

火山引擎作為「AI 原生」基礎設施,變得更強了

文章圖片


今天的 AI , 在對話框里「無所不能」 , 在現實世界里卻常?!甘ъ`」 。
前者讓人驚艷:三秒成詩、五秒成文 , 天文地理、法律醫學樣樣精通 , 像是拿了幾十個學位的神童;而后者卻頻頻掉鏈子:AI 玩具答非所問 , AI 眼鏡識別場景不準 , 哪怕是最基本的實時翻譯 , 效果也常常一言難盡 。
如果說大模型是 AI 的「大腦」 , 那么要讓這個「大腦」真正處理現實中的復雜任務 , 還需要一整套「感知器官」和「神經系統」配合運作 。 對 AI 來說 , 不僅是麥克風、攝像頭這樣的傳感器是否可靠 , 更關鍵的是背后的數據傳輸、多模態模型的識別與生成、跨模態的理解與聯動 , 乃至整個端到端的系統工程是否穩定高效 。
換句話說 , 現實世界的 AI 應用不只是「一個聰明大腦」能搞定的事情 。 它的效果不僅取決于大模型本身 , 更取決于承載它的整個系統 。 這也標志著我們正在邁入一個與傳統云計算時代完全不同的基礎設施時代 , AI infra 不再只是提供存儲、計算和 API 接口 , 而要具備多模態感知、上下文理解、跨端部署等系統能力 。
今天 , 大型云計算廠商正在快速轉向 AI 時代的基礎設施 , 火山引擎是最早擁抱這一趨勢的云廠商之一 。 7 月 30 日 , 火山在廈門開啟 2025 年度的 AI 創新巡展 , 與一個多月前的春季 Force 大會相比 , 火山引擎的多個 AI 基礎設施能力又迎來了進化 。
火山引擎總裁譚待發布新模型丨來自:火山引擎

三款模型更新:快速強化 AI 的「神經系統」這次火山引擎一共更新了三款模型 , 覆蓋圖像生成、同聲傳譯和通用語言理解三大領域 , 分別是豆包·圖像編輯模型 3.0、豆包·同聲傳譯模型 2.0 , 以及全面升級的豆包大模型 1.6 系列 。
首先是圖像編輯模型 3.0 。 圖像生成和編輯是當下使用最廣泛的 AI 應用場景 , 在電商廣告、內容創作等領域都有著廣泛應用 , 但也是 AI 最容易「失靈」的環節之一 , 用戶希望 AI 能像設計師一樣理解需求——「去掉背景人群」「把照片里的冬天換成春天」 , 但經常遇到 AI 聽不懂、改不對的問題 。
而這一版本強化了指令遵循、圖像保持和美感生成三方面能力 , 能在保持原圖人物結構的同時 , 精準完成光影、風格、材質等細節調整 , 已經能支撐包括廣告、電商、影像創作等專業 P 圖場景 。 比如下面這張演示 , 當命令 AI 將照片里的場景換成冬天 , 過去 AI 會把整個照片覆蓋上白雪 , 并不符合真實 , 而新模型就更加符合現實的冬景 。
圖像編輯模型的美感提高丨來自:火山引擎
準確率和美感的提高 , 不僅意味著在專業人士手中更加好用 , 也意味著 AI 修圖可以解鎖更多應用 。 比如在當下很火的 AI 眼鏡/AR 眼鏡領域 , 可以開發一個基于語音交互的 AI 修圖工具 , 并在拍完后直接上傳社交軟件 , 直接在眼鏡端側完成從拍攝到修圖、發布的閉環 。
還有更驚艷的同聲傳譯模型 2.0 , 則切中多語言會議與跨境溝通的「延遲」與「音色錯位」問題 。 傳統 AI 同傳依賴模塊級聯 , 往往延遲長達 8-10 秒 , 還用統一的機械女聲輸出 , 既慢也「出戲」 。 而新一代模型基于全雙工實時語音框架 , 將延遲壓縮至 2-3 秒 , 并實現「0 樣本聲音復刻」 , 也就是說——AI 在聽你說話的同時就能抓住音色并生成同步譯文 , 用「你的聲音」說出外語 。
豆包·同聲傳譯模型 2.0丨來自:火山引擎
不論是用于跨語言的直播、遠程多人會議 , 還是在端側的 AI 眼鏡、AI 耳機中實時同傳 , 更新后的豆包同傳 2.0 模型都有著更大的想象空間 。 甚至從長遠來看 , 就像大模型出現后 , 跨語言「讀寫」的門檻幾乎被抹平 , 一個能真正實現同傳的模型 , 結合通話軟件和智能耳機硬件 , 未來「聽說」的門檻也將消失 , 這意味著外語學習的必要性可能都會逐漸消失 。
如果說前兩個模型更像「感知系統的升級部件」 , 那第三款模型豆包 1.6 系列的極速版 Seed-1.6-flash , 就是一塊能大規模部署的「神經中樞」 。 此前 6 月的 Force 大會上火山引擎發布了豆包 1.6 大模型 , 而此次發布的是兼顧低延遲、強通用能力和超低成本的 flash 版 , 特別適配對性能極致要求的場景 , 如智能巡檢、手機助手、家用安防等 。 在智能監控企業螢石的落地案例中 , 引入該模型后 , 系統時延下降 50% , 成本下降 92% 。
此外 , 火山引擎還在會上發布了新一代的全模態向量模型 Seed1.6-Embedding 。 新模型能把文本、圖像、視頻轉化為統一的語義向量 , 實現模態間的「互相理解」 。 這意味著文本可以精確檢索圖像 , 視頻可以被語義性地標注 , 圖文信息能共同參與知識構建與推理 。 同時 , 新模型還支持混合模態檢索 , 讓企業可以構建真正統一的、多模態知識庫 , 提升 AI 系統的內容理解深度和響應準確度 。
三款模型的進步迭代 , 不僅是「點狀功能升級」 , 更像是為 AI 基礎設施裝上了更靈敏、更協調的「神經系統」——從而讓大模型不再只是一個「聰明大腦」 , 而是能真實理解用戶意圖、快速反應場景挑戰、并以可部署的方式持續工作的一整套閉環系統 。

重寫 AI 基礎設施的「付費邏輯」 【火山引擎作為「AI 原生」基礎設施,變得更強了】如果說模型是大腦、感知模型是神經系統 , 那真正支撐這些「器官」長期穩定運行的 , 是一整套更底層、更工程化的基礎設施 。 這正是火山引擎在此次活動上強調的另一條主線:不只是「讓模型更強」 , 而是「讓模型更可用」 , 真正成為企業構建 AI 應用的底座 。
首先是開發平臺 。 此前火山引擎宣布開源旗下的 Agent 開發平臺扣子 , 火山引擎在會上介紹 , 此次開源涵蓋扣子開發平臺 Coze Studio 與全鏈路管理工具扣子羅盤 Coze Loop , 并采用 Apache 2.0 協議 , 這意味著開發者無需復雜配置即可快速搭建 Agent , 并完成從模型調用到邏輯編排、從部署上線再到后續監控運維 。
同時 , 火山引擎的企業級 Agent 平臺 HiAgent 也同步支持與扣子開源版對接 , 可調用扣子開源版提供的智能體搭建和運維能力 , 并通過共享 Agent 標準 , 支持扣子開源版智能體的納管 。
而在基礎設施層面 , 過去 AI 部署一個最大痛點是「算力貴且不靈活」 , 尤其是經過微調的企業自有專用模型 , 托管云計算平臺時 , 大多數時候只能用以租用 GPU 的方式計費 , 相比按照 Tokens 計費的方式不夠靈活 , 容易造成資源的浪費 。
更靈活的企業自有模型托管方案丨來自:火山引擎
火山此次發布的企業自有模型托管方案 , 解決了這一難題:企業可將自訓練模型托管至火山方舟 , 無需自己管理 GPU 調度等復雜操作 , 甚至能按需選擇部署機型與推理性能指標 , 在業務低峰期自動釋放資源、無需為閑置資源買單 , 實現更高的資源利用效率 。
此外 , 升級后的 Responses API 也值得一提 。 它具備原生上下文管理能力 , 支持多輪對話的鏈式管理 , 可以無縫銜接文本、圖像、混合模態數據 。 結合緩存能力后 , 能降大幅低延遲和成本 , 整體成本下降幅度可達 80% 。
這些進展背后折射出的 , 其實是一場「AI 基礎設施」的重構 。 過去十年 , 云計算的付費邏輯是「租用一臺機器」 , 到了 AI 時代 , 邏輯正在變成「調用一次智能」 。 火山引擎正在將整個技術堆棧 , 從底層的訓練推理框架 , 到上層的 Agent 開發接口 , 乃至交付環節的計費模式 , 全部重新適配 AI 原生的使用方式 。

    推薦閱讀