火山引擎發布豆包大模型1.8，多模態Agent能力進入全球第一梯隊

2026-04-26 榮耀高德地圖小米科技

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者 | ZeR0
編輯 | 漠影
智東西12月18日報道，今日，火山引擎在FORCE原動力大會上正式發布豆包大模型1.8及音視頻創作模型Seedance 1.5 pro 。評測數據顯示，豆包大模型在多模態理解、生成能力及Agent能力上，已躋身全球第一梯隊。
火山引擎總裁譚待稱，截至今年12月，豆包大模型日均token使用量突破50萬億，較去年同期增長超過10倍。

目前其已有超過100家企業客戶累計token使用量超過1萬億。

Seedance 1.5 pro音視頻創作模型則實現了毫秒級的音畫同步輸出，支持多人多語言對話，口型對齊精準，而且生成的視頻可展現出影視級敘事張力。
會后，譚待在接受媒體采訪時進一步分享了Seedance 1.5 pro的優勢，音畫同步要不僅是聲音和畫面同步，還要做到與語義的同步，這需要很好的視頻模型、大語言模型、語義模型作為基礎，而豆包在這些領域均表現領先。
他透露， Seedance系列很快將上線“Draft樣片”功能，通讓預覽視頻更快，成本也更低。
一、豆包大模型1.8：更強Agent能力、升級多模態理解、更靈活上下文管理作為豆包家族的最新旗艦模型，豆包大模型1.8（Doubao-Seed-1.8）面向多模態Agent場景進行了定向優化。

其工具調用能力、復雜指令遵循能力及OS Agent能力均得到增強，提升了模型在處理復雜任務時的規劃與執行水平。

在視覺理解方面，豆包1.8的單次視頻理解幀數從640幀倍增至1280幀。模型支持以低幀率理解超長視頻，并能調用工具對關鍵片段進行高幀率理解。該能力可廣泛用于在線教育、產品質檢等場景中。

豆包1.8支持256K上下文，擁有更靈活的上下文管理，擅長復雜多步任務。

二、多模態理解、GUI Agent、數學與推理評測分數領先在多項公開評測中，豆包1.8展現出具有競爭力的全面表現：在視覺推理、通用視覺問答、空間理解及視頻理解等任務中，均獲得最佳或接近最佳成績；在通用智能體測評集BrowserComp上表現全球領先；在數學與推理等基礎能力維度上，整體水平已接近全球頂尖的通用模型。

具體來看，在數學、推理和知識理解等核心基礎能力維度上，豆包1.8的整體水平接近業界頂級通用模型。

該模型在多項復雜指令基準中保持了與業界領先模型接近的表現。

它還將能力驗證擴展至由真實專家定義、具有明確經濟價值的應用場景，包括教育輔導、客服問答、信息處理、意圖識別、信息抽取以及多步驟復雜工作流等任務類型，驗證了模型在真實使用環境中的適用性。

評測結果顯示，豆包1.8具備業界領先的GUI Agent能力，在電腦、網頁、移動端三類環境中，均展現出在不同系統和界面中執行多步任務的可靠性。

其搜索任務中表現同樣突出，在多組公開Agent搜索評測基準中保持業界第一梯隊水平，比如在BrowseComp-en基準測試中得分高達67.6 ，超過Gemini-3-Pro等其他頂級模型。

在Agentic Coding相關基準測試中，豆包1.8展現出了面向真實軟件工程場景的穩定能力，表明其具備在真實開發環境中持續推進任務的Agent編程能力。

FinSearchComp和XpertBench的測評顯示，該模型在處理金融商業相關任務時相對穩定和高效。該模型在WorldTravel多模態應用任務中得分達47.2 ，表明它在處理旅行規劃、用戶需求分析等真實場景需求時具有可靠性。

此外，豆包1.8在多模態推理任務中超越了前代模型Seed1.5-VL ，在大部分任務中接近目前最先進的Gemini-3-Pro 。
在被認為難度極高的視覺推理測試ZeroBench中，豆包1.8獲得11.0的最高得分。

在通用視覺問答任務中，該模型在VLMsAreBiased基準測試中取得了62.0的分數，大幅領先其他模型。

豆包1.8在2D及3D空間理解的多個基準測試中表現優秀，在處理3D空間理解和復雜任務時，特別是在動態和復雜數據集上，表現出較好的適應性和推理能力。

在視頻理解領域，該模型表現出色，尤其在視頻推理、運動與感知、長視頻理解等任務中展現出較強的適應性。它在動態場景和實時感知任務中也分數領先，展現了模型在復雜感知任務中的能力，尤其是在處理實時信息時的高效性。

豆包1.8在長視頻理解任務中同樣表現突出。

在視頻處理中，它還實現了Token Efficiency的顯著提升，既帶來了更強的理解能力，又將提供更低延遲的實時視頻處理體驗。

豆包1.8通過引入多種Thinking Modes ，嵌入了動態調節思考深度的能力。用戶可根據任務的不同需求，靈活調整模型的推理深度和計算負載。

項目主頁：
https://seed.bytedance.com/seed1_8
部分為該模型研發構建的評測數據集已開源，或將在未來開源。
三、Seedance 1.5 pro：音畫高精同步，支持多人多語言對話針對日益增長的視頻創作需求，火山引擎推出了Seedance 1.5 pro音視頻創作模型。該模型不僅具備影視級的敘事張力，能夠精準捕捉運動細節并細膩呈現人物情緒，更是展現出在音畫高精同步方面的技術實力。

Seedance 1.5 pro采用創新的原生音視頻聯合生成架構，支持環境音、背景音樂、人聲等多種元素，實現了毫秒級的音畫同步輸出。

在對白處理上，模型支持多人多語言對話，口型對齊精準，覆蓋中文方言、英文及小語種，提升了視頻內容的真實感與全球化創作潛力。

該模型可生成具有影視級敘事張力的視頻效果。

為進一步降低創作門檻與成本， Seedance系列即將上線“Draft樣片”功能。創作者可先生成低分辨率樣片進行預覽，其關鍵要素與最終成片高度一致，真正做到“預覽即所得” 。
數據顯示，該功能可幫助創作者提升65%的整體效率，并減少60%的無效創作成本。

目前，個人用戶已可在豆包、即夢AI等平臺體驗該模型。企業用戶則可從12月23日起，通過火山引擎API接入Seedance 1.5 pro模型服務。

四、升級AI云原生架構，構建Agent規?；涞鼗T待認為，傳統的IT架構已無法滿足Agent時代的需求，以模型為中心的AI云原生架構正在形成，并圍繞Agent的開發與運營進行重構。

在Agent開發層面，火山引擎全面升級了企業級AI Agent平臺——AgentKit 。該平臺覆蓋了Agent從開發、部署到管控的全生命周期，旨在解決企業在Agent落地中面臨的身份權限管理、模型確定性及系統集成等核心挑戰。

在Agent運營層面，火山引擎推出了HiAgent智能體工作站。該工作站通過構建統一的企業AI任務調度中心、提供一系列開箱即用的通用智能體，以及支持個性化定制智能體應用，幫助企業實現Agent的規?；芾砼c應用。

此外，為降低企業使用門檻，火山引擎推出了業內首個“AI節省計劃” 。該計劃覆蓋所有按量后付費的大模型產品，通過階梯式折扣，幫助企業最高節省47%的成本。

結語：從模型到基礎設施升級，推動AI應用向復雜Agent生態演進面向AI ，火山引擎的AI云原生基礎設施持續進化。

【火山引擎發布豆包大模型1.8，多模態Agent能力進入全球第一梯隊】譚待談道，通過從模型能力到基礎設施的全面革新，火山引擎正在推動AI應用從單一的模型調用向復雜的Agent智能體生態演進，加速AI能力在各行各業的深度落地。

推薦閱讀

上一篇：谷歌發布Gemini 3 Flash，口述即原型，速度堪比搜索引擎

下一篇：馬斯克再畫“大餅”：旗下xAI最早2026年實現AGI