CVPR 2026 | 字節世界模型新作,僅靠視覺學習真實世界知識

CVPR 2026 | 字節世界模型新作,僅靠視覺學習真實世界知識

文章圖片

CVPR 2026 | 字節世界模型新作,僅靠視覺學習真實世界知識

文章圖片

CVPR 2026 | 字節世界模型新作,僅靠視覺學習真實世界知識

文章圖片

CVPR 2026 | 字節世界模型新作,僅靠視覺學習真實世界知識

文章圖片



視覺世界模型 “VideoWorld 2” 由豆包大模型團隊與北京交通大學聯合提出 。 不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模態模型 , VideoWorld 系列工作在業界首次實現無需依賴語言模型 , 即可認知世界 。
現有的模型大多依賴語言或標簽數據學習知識 。 然而 , 語言并不能捕捉真實世界中的所有知識 。 例如 , 復雜的動態變化、空間關系以及背后的物理規律等 , 難以通過語言清晰表達 。
正如李飛飛教授所說 ,“幼兒可以不依靠語言理解真實世界” , VideoWorld 系列 僅通過 “視覺信息” , 即瀏覽視頻數據 , 就能讓機器掌握推理、規劃和決策等復雜能力 。 在新作 VideoWorld 2 中 , 模型進一步擴展到真實場景 , 能夠僅瀏覽視頻 , 掌握長達 1 分鐘的復雜手工制作任務 , 并已入選頂級會議 CVPR 2026 。
AI 可以直接從視頻中學習真實世界中的復雜技能嗎?就像人類可以僅靠瀏覽視頻學習折紙、搭樂高積木等技巧 。
豆包大模型團隊與北京交通大學聯合提出了 VideoWorld 2 , 一種通用視覺世界模型 , 旨在不依賴語言模型 , 僅靠瀏覽視頻 , 掌握復雜、長時序的真實世界知識 。
正如李飛飛教授在其演講中所言 , 視覺能力的出現引發了寒武紀生命大爆發 , 進而推動了智能的飛躍式發展 。 VideoWorld 2 通過研究使 AI 直接從真實視頻中學習復雜任務知識 , 探索了 AI 智能的邊界 。
VideoWorld 2 揭示了直接從真實視頻中學習的關鍵在于解耦關鍵動作和無關視覺細節 , 并據此提出一種動態增強型潛動態模型 , 將真實世界視頻中的復雜外觀與任務核心動作解耦 , 顯著提升復雜長時序任務的學習效率和效果 。
僅通過瀏覽教程視頻 , VideoWorld 2 即可完成諸如折紙和搭積木等長達一分鐘的復雜手工制作任務 。 這些任務涉及當前 AI 難以掌握的細粒度操作與長程規劃能力 。 VideoWorld 2 的成功率遠高于目前最先進的技術(例如 Sora 2、Veo 3 和 Wan 2.2) , 成功率提升超過 70% , 而后者幾乎無法完成這樣的復雜任務 。 此外 , 它還能將這些技能遷移至多種未見場景 , 并實現跨環境的多任務機器人操控 。
團隊認為 , 盡管面向真實世界中的視頻知識學習與技能泛化仍存在很大挑戰 ,VideoWorld 2 有潛力從視頻數據中學習更多樣和復雜的任務技能 。
目前 , 該項目論文被 CVPR 2026 錄用 , 代碼與模型已開源 , 歡迎體驗交流 。

論文鏈接:https://arxiv.org/abs/2602.10102 項目主頁:https://maverickren.github.io/VideoWorld2.github.io/ X 鏈接:https://x.com/XiaojieJin/status/2021469936363991162?s=20現有 AI 難以從真實世界視頻中學習知識
面向本次研究 , 團隊構建了兩個實驗環境:視頻手工制作和視頻機器人操控 。
其中 , 手工制作視頻包含多種場景下的精細動作與環境變化 , 如紙張的不規則形變、視角切換與遮擋等 。 同時 , 這些視頻時長達分鐘級別 , 包含多個連續的操作步驟 。 相比娛樂向視頻 , 手工制作可以作為一個評估模型復雜知識學習能力的理想測試環境 。
同時 , 團隊還選取了機器人任務 , 以考察模型在理解控制規則和規劃任務方面的能力 。
在模型訓練環節 , 團隊要求模型 “觀看” 教程視頻數據 , 以此得到一個可以根據過往觀測 , 預測未來畫面的視頻生成器 。
在測試階段 , 團隊要求模型在新的環境下 , 生成訓練集中展示的任務技巧 , 并轉換為準確連貫的視頻 。 對于需要具體動作輸出的任務 , 模型可以在瀏覽大量視頻后 , 額外訓練一個輕量的動作預測頭 , 充分發揮從視頻中預先學習的知識 。
團隊首先測試了主流的視頻生成模型 , 如 Sora2 , Veo3 和 Wan2.2 等 。 如下圖右側所示 , 這些模型雖然善于生成精美的畫面 , 但是全部無法生成完整準確的折紙任務 。
團隊又測試了系列工作中的初代模型 VideoWorld 。VideoWorld 主要為模擬場景下的視頻知識學習設計 , 如視頻圍棋和模擬機器人操控 , 外觀與動作均較簡單 。 雖然 VideoWorld 的任務成功率更高 , 但輸出仍包含大量錯誤的動作 。

團隊將這歸因于 —— 模型難以充分解耦嵌入在視覺變化中的任務核心動作 , 過擬合到了無關細節 。 例如 , 相機的抖動 , 光影變化與無關外觀細節 。 這種過擬合會降低長距離生成的穩定性與準確性 。
相反 , 人類可以輕松地從復雜的外觀變化中提取關鍵的任務動態 。
增強視覺動態解耦能力 , 提升視頻學習效果
根據上述觀測 , 團隊提出 VideoWorld 2 , 旨在通過顯示的增強對外觀與動作信息的解耦 , 提升知識學習的魯棒性 。
為此 , VideoWorld 2 引入了一個動態增強型潛動態模型(dLDM dynamic-enhanced Latent Dynamic Model) 可提取視頻中的任務核心動作并壓縮為緊湊的潛在編碼 , 提高模型的知識學習效果 。
dLDM 包含一個 MAGVITv2 風格的編碼器 - 解碼器結構以及一個預訓練的視頻生成模型(VDM Video Diffusion Model) 。 編解碼器將未來的視頻變化壓縮為緊湊的潛在編碼 , VDM 則負責將潛在編碼渲染為視頻 。
對于一個視頻片段 , 編碼器先以因果方式提取每幀特征圖 , 并定義了一組注意力模塊和對應可學習向量 。 每個向量通過注意力機制捕捉第一幀至后續固定幀的動態變化信息 , 然后通過 FSQ 量化 。 其中 , 量化器作為信息篩選器 , 防止模型簡單記憶后續幀原始內容 , 而非壓縮關鍵動態信息 。
【CVPR 2026 | 字節世界模型新作,僅靠視覺學習真實世界知識】接下來 , 這些潛在編碼會作為 VDM 的條件輸入 , 以因果交叉注意力的形式與 VDM 進行交互 , 基于去噪擴散方式被渲染回視頻 。
由于 VDM 具有豐富的外觀先驗知識 , 潛在編碼可以僅關注緊湊的、可泛化的動作信息 , 而不過擬合至無關外觀細節 。
初代 VideoWorld 中僅使用編碼器 - 解碼器結構來壓縮視頻變化 , 并重建視頻 。 由于解碼器結構不包含外觀先驗知識 , 其重建優化目標易為擾潛在編碼引入環境噪聲 , 難以充分解耦真實環境下的復雜外觀與任務動作信息 。
通過將 VDM 作為外觀渲染器 , VideoWorld 2 實現了緊湊且魯棒的視覺表示 , 可以捕捉復雜、長距離視覺序列中的核心動態信息 , 這對于真實世界中的推理規劃任務至關重要 。
同時 , 團隊并未完全摒棄原始的解碼器結構 , 仍要求其利用首幀特征圖與幀間視覺變化編碼來重建后續幀 , 并阻斷了該過程向潛在編碼的梯度回傳 。 由于梯度被截斷 , 解碼器的重建任務不會干擾潛在編碼的學習;同時 , 其重建的粗粒度視頻動態可作為輔助信息輸入 VDM , 從而穩定訓練 , 使 VDM 能夠專注于外觀渲染 , 無需從零開始學習任務動態信息 。
下圖為 dLDM 的模型架構:

通過引入 dLDM , 在無需任何文本描述的情況下 , VideoWorld 2 即可以在各種環境下完成長達一分鐘以上的連貫折紙、搭積木等手工制作任務 , 并可以應用至機器人操控場景 。
從更多視頻中學習 , 提取通用技能
針對 dLDM 視頻學習效果的原因 , 團隊進行了以下分析 , 并發現 dLDM 可以從大量真實世界視頻中提取相似的運動模式
下圖展示了 dLDM 在大量真實世界視頻上訓練后 , 對潛在空間中距離相近編碼所屬視頻片段的可視化結果 。
可以看出 , 這些編碼表達了相同的運動模式(如不同方向的位移、折紙中的通用動作等) 。 盡管它們所處的環境和實體各不相同 , 但在潛在空間中具有相似的表達 , 這極大程度上有助于模型學習可泛化的策略 。

進一步地 , 團隊對潛在編碼進行了 UMAP 可視化(見下圖) , 其中每個數據點代表一個潛在編碼 。
UMAP 作為一種主流的降維算法 , 能夠將高維數據映射至低維空間 , 從而直觀展示模型的特征表征能力 。 圖中點的物理距離越近 , 表明其在原始高維空間中的相似度越高 。
團隊可視化了在 CALVIN 和 BRIDGE 兩個環境中學習到的潛在編碼 。 盡管這兩個環境外觀差異顯著(前者為仿真環境 , 后者為真實世界視頻) , 但它們具有相似的動作空間(如機械臂的定向位移) 。
如下圖所示 , 左側為 VideoWorld 2 提取的潛在編碼 , 右側為前作 VideoWorld 的結果 。 對比可見 , 對于跨環境的相似機械臂運動 , VideoWorld 2 在潛在空間中呈現出更顯著的聚類趨勢 , 其表現明顯優于 VideoWorld 。 這表明模型能夠更好地提取跨場景的共性 , 掌握更具泛化性的策略知識 。

寫在最后
團隊認為 , 視覺能力是自然界中生物智能實現跨越式演化的重要推動力 。 對于 AI 而言 , 從視覺中學習和理解真實世界知識 , 或許是邁向更高階智能的重要途徑 。
未來 , 團隊將致力于從視覺中學習和理解真實世界的復雜知識結構 , 構建能夠自主感知、推理與行動的更強大的通用智能體 。
作者介紹:

任中偉:VideoWorld 項目核心成員 , 北京交通大學計算機學院博士生 。 目前在字節跳動大模型團隊實習 , 期間在 CVPR 頂級會議上發表多篇論文 , 并受邀擔任了 CVPR , ICCV 等多個頂級會議審稿人 。 研究方向包括多模態感知與推理、世界模型、視頻生成等 。

靳瀟杰:VideoWorld 系列項目負責人 , 現任北京交通大學計算機學院教授 / 博導 , 國家高層次青年人才 , 曾任字節跳動美國研究院創始成員和技術負責人 。 研究方向為多模態智能、世界模型、高效深度學習等 。

    推薦閱讀