火山引擎密集上新:豆包全新視頻生成模型、視覺深度思考模型,Trae多個重點功能升級

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者 | ZeR0
編輯 | 漠影
智東西5月14日報道 , 在5月13日的火山引擎AI創新巡展·上海站活動上 , 火山引擎曬出大模型全景圖 , 發布豆包·視頻生成模型Seedance 1.0 lite、豆包1.5·視覺深度思考模型 , 升級豆包·音樂模型 。 同時 , Data Agent正式亮相 , 國內首款AI原生IDE產品Trae接入豆包深度思考模型并升級多個重點功能 。
目前 , 火山方舟已覆蓋語言、深度思考、視覺理解、視覺、語音、GUI Agent等多類模型 。
火山引擎副總裁張鑫在會上談道 , 模型、算力、數據、安全構成了AI時代的新基建 , 火山引擎同時對外提供這“四要素”:
模型方面 , 豆包大模型支撐了50多個內部真實場景、30多個行業外部企業共創 , 截至4月份 , 日均tokens調用量超過12.7萬億 。
算力方面 , 火山引擎AI云原生提供了強有力的系統承載力 , 包括充沛算力、推理層優化、系統調度能力的乘積 。
數據方面 , 數據飛輪2.0和Data Agent , 讓用戶可以基于動態的多模態數據湖 , 以智能重塑數據關系 。
安全方面 , 大模型安全方案提供PCC私密云計算平臺 , 可解決端云協同計算過程中的數據泄露問題 , 并通過大模型防火墻消除一系列攻擊隱患 。
一、視頻生成模型:效果好、生成快、更便宜新發布的豆包視頻生成模型Seedance 1.0 lite , 支持文生視頻、圖生視頻 , 視頻生成時長支持5s、10s , 分辨率提供480P、720P 。
企業用戶可在火山方舟平臺使用該模型API , 個人用戶也可在豆包App、即夢體驗 。
作為豆包視頻生成模型系列的小參數量版本 , Seedance 1.0 lite模型實現了兩大突破:影視級的視頻生成質量、視頻生成速度大幅提升 , 兼顧效果、速度、性價比 。
(1)更精準的指令遵循:通過強大的語義理解 , 可精細控制人物外貌氣質、衣著風格、表情動作等 , 并在多主體動作解析、嵌入式文本響應、程度副詞和鏡頭切換響應方面具有優勢 。
(2)更豐富的影視級運鏡:支持360度環繞、航拍、變焦、平移、跟隨、手持等多種鏡頭語言 , 具備細膩高清的基礎畫質和影視級美感 。
(3)更合理的運動交互:分析動作時序與空間關系 , 提升人物、物體間自然流暢的交互動作 , 運動軌跡、受力反饋更加契合現實規律 。
Seedance 1.0 lite模型可廣泛應用于電商廣告、娛樂特效、影視創作、動態壁紙等場景 。 例如在電商領域 , 該模型可幫助商家快速生成高質量的營銷視頻素材 , 精準匹配產品展示、活動推廣等場景 , 降低制作成本與周期 。
二、豆包1.5·視覺深度思考模型:在60項評測中取得38項第一新發布的豆包1.5·視覺深度思考模型(Doubao-1.5-thinking-vision-pro) , 激活參數僅20B , 但具備強大的多模態理解和推理能力 , 在60個公開評測基準中有38個取得SOTA表現 , 在視頻理解、視覺推理、GUI Agent能力等方面均處于第一梯隊 。 該模型已在火山方舟上線 。
在視頻理解方面 , 豆包1.5·視覺深度思考模型支持動態幀率采樣 , 視頻時序定位能力顯著增強 , 結合向量搜索 , 可精準定位視頻中與文本描述相對應的片段 。
同時 , 該模型新增視頻深度思考能力 , 學習了數萬億多模態標記數據 , 掌握廣泛視覺知識 , 結合強化學習 , 使視覺推理能力大幅提升 。 例如 , 在復雜的圖形推理題中 , 模型提出假設 , 進行推理檢驗 , 當發現和假設不一樣時 , 還能進行不斷反思 , 提出新的猜測 , 直到得出正確答案 。
豆包1.5·視覺深度思考模型還新增了GUI Agent能力 , 基于強大的GUI定位性能 , 可在PC端、手機端等不同環境中完成復雜交互任務 , 例如可對新開發的App功能進行自動化檢測 。 該功能已應用于字節跳動多款App產品的開發測試中 。
去年 , 火山引擎推出了豆包·音樂模型 。 基于該模型 , 用戶僅通過一張圖、一句話 , 就能創作10多種不同風格的高品質音樂 。 此次大會上 , 豆包·音樂模型升級 , 不僅支持英文歌曲創作 , 還可以通過理解視頻 , 自動適配純音樂BGM 。
豆包·音樂模型已全量上線 , 個人和企業用戶可在海綿音樂、火山引擎官網體驗 。
三、火山方舟:免登錄 , 低價推理 , 3分鐘搞定DeepSeek滿血版部署火山引擎旗下的一站式大模型服務平臺火山方舟 , 提供了語言、視覺、語音等模型的精調、推理、評測等功能與服務 , 通過豐富的插件生態和安全可信的方案 , 讓企業及開發者的AI應用更易落地 。
開發者可在免登錄的情況下 , 極速體驗模型能力 。 對于要長期使用的實名制用戶 , 火山方舟簡化了模型接入鏈路 , 無需多頁面跳轉 , 2分鐘即可完成模型接入 。 在安心推理體驗模式下 , 火山方舟不會主動消耗付費資源 , 并支持按模型分配tokens 。
火山方舟推出了兩種離線批量推理方案 。 其一 , 從存儲中批量讀取數據 , 以進行離線推理;其二 , 直接調用類似于在線聊天的模型接口 , 對批量請求的動態負載實施精準控制 , 幾分鐘便可完成開發適配 。
針對每個用戶 , 火山方舟提供每日不少于100億個token的批量推理額度 , 并提供更低價格 。 相比在線推理 , 批量推理的價格降低了50%;如果使用前綴緩存 , 命中部分價格再降40%;存儲費用為0元 。
火山方舟還提供超低延遲的小時級推理保障包 。 用戶可依據業務實際流量曲線來精細地規劃所需資源 , 無需為業務低谷期付費 , 從而節約成本節約 。 例如 , Deepseek-R1的推理保障包能穩定提供20ms的每token延遲 , 豆包1.5 Pro的推理保障包可將推理延遲降低到15ms 。
極致的性能是充沛算力、深度技術優化、系統調度能力的乘積 。 火山方舟用充沛的資源和先進的系統工程能力 , 提供高并發算力保障和極致的服務體驗 。 在多方測評中 , 火山方舟Deepseek-R1服務始終保持最低的延遲表現 。
這得益于火山方舟多年來在算子層、框架層和調度層開展的深度優化工作:通過Prefill Decode分離式部署(即PD分離)、存算分離、kernel優化、秒速擴容等技術 , 在異構硬件協同優化與通信開銷中實現極致性能 , 確保方舟推理既快速又穩定 。
有模型定制、部署及推理需求的企業客戶 , 可以使用火山引擎機器學習平臺 。 該平臺與方舟共享相同的大模型推理引擎 , 具備業內領先的生產級可用的PD分離、分布式KV Cache能力 。
火山方舟機器學習平臺突破了傳統部署的復雜流程 , 通過預置模型和鏡像以及PD分離部署方式 , 僅需1- 3分鐘即可一鍵啟動預置模型服務 , 完成DeepSeek推理集群的部署 。
憑借高性能文本推理框架xLLM以及分布式系統優化 , 機器學習平臺將TPOT(吐字間隔)優化至20ms 。在使用兩臺8卡H20的情況下 , xLLM推理性能在DeepSeek-R1 671B模型上 , 相較于開源SGLang方案實現了4.5倍的吞吐量(tokens/s)提升 , 同時每token延遲降低至1/3 。
基于自研DiT推理框架veFuser , 該平臺可在15秒內生成一個5秒480P的視頻 , 相比行業平均水平 , 推理效率提升4.5倍 。
火山方舟還提供全周期安全可信方案 , 通過鏈路全加密、數據高保密、環境強隔離、操作可審計四個安全模塊 , 確保會話無痕 。
火山方舟應用實驗室為客戶和開發者提供完整的場景化解決方案和完整的源代碼:面向應用插件、多模態、終端等場景 , 提供超過20個開源應用;面向具有專業開發能力的企業開發者 , 提供大模型應用開發所需的工具集和流程集 , 支持快速開發和定制匹配業務場景的大模型相關應用;支持超過60個大模型產品 , 用戶可輕松將方舟大模型集成到主流軟件 。
火山方舟應用實驗室廣場還有非常多有趣的應用 , 比如幫助網店運營的智能導購、豆包模型與DeepSeek協作的長期記憶方案、整合多模態和硬件能力的實時對話AI硬件、提供標準化解題鏈路的教師分身等 。
【火山引擎密集上新:豆包全新視頻生成模型、視覺深度思考模型,Trae多個重點功能升級】
四、Data Agent助攻企業挖掘數據資產 , 新版Trae接入豆包深度思考模型Data Agent是火山引擎推出的企業數據全場景智能體 。 它就像一個企業級AI數字專家 , 具備主動思考、洞察、分析、行動能力 , 可深入幫助企業挖掘數據資產價值 , 功能覆蓋數據分析、智能營銷等關鍵領域 。
在數據分析上 , Data Agent能融合企業內結構化與非結構化數據 , 結合聯網知識 , 精準理解業務需求 , 快速生成專業深度研究報告 。
通過自動化制定分析方案、追溯指標波動、運用自助分析工具及搭建預警系統 , Data Agent實現數據處理全流程智能化 , 可將復雜報表生成的時間從2天縮短至30分鐘 , 顯著提升數據獲取與決策效率 。
在智能營銷領域 , Data Agent實現從策略制定到執行優化的全鏈路閉環管理 , 高效完成人群圈選與策略拆解 , 基于個性化引擎實現精準營銷 。
此外 , 其智能會話輔助與自動復盤優化功能 , 可不斷提升轉化率與客戶滿意度 , 動態迭代營銷策略 。
打造高智商的智能體 , 不是一次性搭建的靜態結果 , 而是數據、模型、工程、業務動態耦合的持續迭代過程 。 因此 , 智能體還需要持續的全生命周期管理 。 HiAgent發布的Agent Devops體系 , 打通了從開發、運營調優到用戶使用的全鏈路 。
通過統一的AI交互入口 , 企業員工可以更好地使用更多的智能體 。 比如企業的管理員可登錄HiAgent , 選擇要發布的智能體 。 發布后 , 員工可根據意圖和需要 , 喚醒和使用不同的助手 , 如任務助手、差旅助手、報銷助手、會議助手等 。 隨著員工更多使用智能體 , 企業也能夠積累越來越多的數據和用戶的行為偏好 , 讓AI越來越懂企業 , 越用越聰明 。
最新版本的Agent Devops近期全面適配MCP協議 , 提供了更好的開放性 , 也集成了火山引擎安全防火墻 , 提供了更好的安全加固能力 。 此外 , 火山引擎還基于自身以及客戶、合作伙伴共同沉淀的知識與實踐 , 打造了一套HiAgent應用樣板間 , 以幫助客戶快速搭建好貼合業務屬性的智能體 。
為幫助開發者更便捷地利用AI提升開發效率 , 國內首款AI原生IDE產品Trae也帶來多個重點功能升級 , 例如統一的AI對話面板(所有交互僅需一個對話框)、支持自定義@Agent(構建專屬AI團隊)、新增聯網搜索 #Web和文檔 #Doc 的上下文理解類型(AI執行需求更準確高效)、通過MCP讓AI主動調用外部工具等 。
目前 , Trae已配置豆包1.5·深度思考模型(Doubao-1.5-thinking-pro) , 基于模型主動深度思考和20毫秒極低延遲 , 讓代碼生成的質量更好、效率更高 。
Trae團隊預測未來會有兩個主要趨勢:一是復雜度上 , 隨著模型能力增強 , AI編程會從復雜度較低的代碼片段生成 , 往復雜度更高的軟件生成、項目生成方向演進;二是交互邏輯上 , AI編程會從原先在IDE等工具里嵌入AI方式 , 逐漸往AI使用各種工具來實現軟件各種各樣的開發需求 。
后續 , Trae將逐步開放智能體的一些底層能力 , 支持開發者做更深層次的自定義專屬智能體 , 并將提供更好的人與AI協作機制 , 來激發人的創作 , 同時發揮AI的生產力 。
五、豆包大模型產業落地加速 , 為游戲、醫藥行業拓界增效豆包大模型已在汽車、智能終端、互聯網、金融、教育科研、零售消費等行業廣泛落地 , 覆蓋4億終端設備、八成主流車企、70%系統重要性銀行和數十家證券基金公司、近七成的C9頂級高校和100多家科研院所 。
在游戲行業 , 巨人網絡正在借助大模型能力重塑游戲體驗和玩法創新 。 通過火山方舟接入豆包大模型及DeepSeek , 巨人網絡今年3月在旗下《太空殺》中推出Al原生游戲玩法“內鬼挑戰” , 通過接入火山方舟DeepSeek-R1及豆包大模型的深度思考等能力 , 打造AI玩家 , 與真實玩家進行實時策略對抗 , 重新定義了社交推理游戲的智能邊界 。
同時 , 《原始征途》也接入大模型能力打造AI智能NPC“小師妹” , 在游戲策略指導、情感陪伴等方面提供更智能、更人性化的交互體驗 , 顯著提升了玩家粘性 。
此外 , 借助火山引擎機器學習平臺所提供的大模型訓練及資源保障 , 巨人網絡亦推進了自研視頻生成大模型、游戲音效生成大模型的迭代優化 。
在醫療行業 , 禮來制藥搭建了專屬AI應用開發平臺 , 支撐從藥物研發到疾病診療的全場景創新 。
通過可視化的拖拉拽工作流編排 , 禮來制藥搭建了HCP Chatbot、地區經理輔導報告等智能體 , 在學術溝通、銷售培訓、疾病教育等多個場景中形成應用 , 實現了企業AI資產的沉淀與持續化運營 。
六、全鏈路、全場景AI云原生推理套件 , 幫助企業加速AI轉型與升級隨著DeepSeek熱度高漲 , 火山引擎MaaS流量也迎來了新一輪增長 。 當前火山引擎MaaS服務所服務的Deepseek和豆包大模型 , 支持了每天峰值千卡級別的GPU彈性能力、500萬初始TPM(每分鐘token數)、超過3萬的RPM(每分鐘請求數) , 日均Tokens使用量達到12.7萬億 。
火山引擎AI云原生推理套件相關產品為這些能力提供了支持 。
在第三方測評排行榜上 , 火山引擎DeepSeek服務在首token、推理速度、生成速度上均表現最優 , 在同樣硬件資源上運行DeepSeek-R1滿血版 , 相比開源SGLang , 可將TPS吞吐提升5倍 , GPU使用成本降低80% 。
對于不同的模型 , 火山引擎提供了多樣化的接入和使用方式 , 包括方舟MaaS平臺、機器學習平臺、AI云原生推理套件 。
面向大模型推理的AI云原生推理套件ServingKit , 能夠幫助企業實現從模型部署、推理到運維的全鏈路提效 。
在部署階段 , 鏡像下載和加載的加速服務 , 使得首次部署和擴容階段能快速拉起業務進行業務發展 。 Onion鏡像權重加速引擎可實現DeepSeek-R1滿血版模型109秒下載、40秒緩存預熱、13秒權重加載 。
在推理階段 , 通過GPU算子加速器、APIG AI網關、VKE編排調度、KVCache緩存服務等能力升級 , 來優化推理性能 。 其中算子優化后 , R1滿血版的TPS提升了2.4倍;智能路由可以TTFT降低60%;KVCache在長文本推理場景 , KVCache命中率相比GPU Local提升了10倍 。
在運維階段 , 觀測平臺APM和VMP全面升級 , 支持推理業務無侵入式透明埋點 , 從資源層到推理業務層實現全鏈路、全場景的觀測指標覆蓋 。
火山引擎與英特爾合作 , 通過“云實例+鏡像”的方式 , 提供一個低門檻、高效率的大模型開發入場券 , 并將持續提升大模型部署效率、降低算力成本 。
結語:從模型矩陣到智能體工具 , 推動AI應用落地普及根據火山引擎副總裁張鑫的分享 , 企業應在AI落地過程中走好業務價值、模型基建、智能體應用三段旅程 。 業務價值可分階段實現 , 首先是達成戰略共識(-1→0) , 然后選擇技術成熟度高、數據就緒度高、業務價值明顯的場景進行場景驗證(0→1) , 在此過程中逐漸構建自己的AI能力中心和沉淀企業知識庫 , 為后續實現擴量復制(1→N)、價值重構(N→∞)打好基礎 。
在整段旅程中 , 企業要構建的核心競爭力 , 來源于結合AI做到極致的產品體驗設計 , 沉淀企業獨有的領域知識庫甚至專業模型 , 打造面向AI的人才組織和文化 。
技術落地的過程遠不止引入一個大模型那么簡單 , 而是包含多個不同維度 , 涉及模型選擇、效果評估、數據知識工程、算力準備、開發平臺搭建、模型接入、效果評估、模型基建的落地旅程、數據知識工程、算力準備、開發平臺搭建、模型接入、效果調優、性能安全測試等環節 。
火山引擎計劃以更全面的模型矩陣、更豐富的智能體工具 , 幫助企業打通從業務到智能體的應用鏈路 , 進一步推動AI普及 , 希望與更多企業一起將AI科技落地的方式從以前的手工編寫“Hello World”代碼變成更輕松的對Agent Say “Hi” 。
推薦閱讀
- 四大引擎來襲,20個應用連續啟動0卡頓,魅族Flyme AIOS2再確認
- 美歐聯手的芯片前進引擎,要熄火了,該怎么辦?
- Flyme AIOS 2再次被官方確認:四大引擎來襲,網友:希望別畫餅
- AI眼鏡將迎新品密集發布期,行業或有望迎來爆發!
- OPPO Find X8 Ultra正式發布 極光引擎加持再造流暢天花板
- 索尼發布新RGB高密度LED:家庭影院進入“量子躍遷”時代
- 蘋果\免密支付\變\免密盜刷\?這些套路比人類還智能!
- 項立剛:光刻機消息都是機密,相關部門都不讓他說了!
- 華為自研攝像頭技術的背后:供應鏈的秘密
- 機構密集調研!華為人形機器人概念領漲,多家龍頭企業加速布局
