一張圖，開啟四維時空：4DNeX讓動態世界「活」起來_東南亞|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

僅憑一張照片，能否讓行人繼續行走、汽車繼續飛馳、云朵繼續流動，并讓你從任意視角自由觀賞？
南洋理工大學 S-Lab 攜手上海人工智能實驗室，給出肯定答案 ——4DNeX 。作為全球首個僅依賴單張輸入即可直接輸出 4D 動態場景的前?。 ╢eed-forward）框架， 4DNeX 擺脫了游戲引擎與合成數據的束縛，首次大規模利用真實世界動態影像進行訓練，實現「時空視頻」的高效、多視角、高保真渲染。
在多項基準測試中， 4DNeX 以顯著優勢超越 Free4D、4Real 等當前最佳方法，真正把「一張圖生成四維世界」的科幻概念帶進了現實。

論文鏈接：https://4dnex.github.io/4DNeX.pdf 項目主頁：https://4dnex.github.io/1. 研究背景
世界模型正成為 AI 研究的高頻熱詞。Google DeepMind 近期迭代的 Genie 3 已能在高質量游戲數據上生成長達數分鐘的交互式視頻，但目前尚且缺乏在諸多真實場景上的驗證。
世界模型發展的一個重要拐點在于：讓模型學會刻畫我們身處的動態 3D 世界，并服從其物理定律。唯有如此，生成的內容才能既逼真又可導，進而支持「反事實」推演 —— 在虛擬中重放、預測甚至改寫現實。這一能力不僅可構成下一代 AR/VR 與具身智能的重要研究基石，更是邁向可信 AGI 的必經之路。
構建 4D 世界模型的關鍵能力，在于能否持續產出高保真、可擴展的 4D 內容，其主要在于以下三個方面的研究：
數據 – 相較于游戲等引擎合成的數據，真實采集的數據雖能保留物理屬性，卻難以大量獲取，更難標注；表征 - 如何兼顧不同模態（如材質和幾何等）特性，設計選取高效的 3D/4D 表征仍是學界長久未竟的科研命題；架構 – 當前的不同生成模型架構互有優劣，如何更好地繼承現有模型先驗，保障高質量仍需探索。鑒于此，「真實高效」的 4D 世界模型構建非常重要，也充滿挑戰。
2. 4DNeX-10M Dataset
近千萬幀帶 4D 標注的視頻集
為破解高質量真實 4D 數據稀缺的瓶頸， 4DNeX 首度發布 4DNeX-10M—— 近千萬幀、多場景、帶偽標簽的超大規模 4D 視頻數據集。其覆蓋室內外環境、自然景觀與人體運動等多元主題，尤以海量「以人為中心」的 4D 數據為特色，囊括豐富的物理屬性、動態細節與交互行為，為 4D 世界模型的構建奠定堅實基礎。

【一張圖，開啟四維時空：4DNeX讓動態世界「活」起來】圖 1 4DNeX-10M Dataset 包含了不同來源且豐富多樣的動態數據
為支撐 4DNeX-10M 的構建，研究者們同步設計了一條全自動的數據–標注管線（見下圖）。
數據源：單目實拍視頻數據，其中動態場景取自 Pexels、Vimeo 等公開視頻庫；靜態場景則整合 RealEstate-10K、DL3DV 等。首輪清洗：基于光流一致性、亮度統計、運動強度及 OCR 文字檢測，剔除低質片段。標簽制作：內容：LLaVA-Next Video 給視頻片段打標。幾何：靜態場景使用 Dust3R 三維重建，動態場景使用 Monst3R / MegaSam 四維重建，輸出 Semi-Dense 3D/4D 點云圖、幾何標簽。質量把關：聯合置信度（MCV、HCPR 等）與運動平滑度等多重閾值，篩除幾何漂移或動態異常序列。最終打標完成的 4DNeX-10M 數據集構成如圖右下角統計所示。

圖 2 4DNeX-10M 構建管線以及數據統計情況
3. 4DNeX 方法架構
表征選取
在 4D 內容生成中，傳統「4D」指 3D 空間幾何外加時間軸；而在世界模型的語境下， RGB 視頻攜帶的材質、光照與語義信息同樣關鍵。 4DNeX 因而提出 6D 統一表征：以 RGB 序列刻畫外觀（3 維）并以 XYZ 序列編碼幾何（3 維）。該設計無需顯式相機控制，即可同步生成多模態內容，兼顧真實感與物理一致性。

圖 3 不同的 RGB 和 XYZ 模態融合策略
算法框架
4DNeX 框架的技術突破在于「寬度融合」這一關鍵策略：系統比較五種方案后，研究者們發現將 RGB 與 XYZ 在 token 寬度維度直接拼接，可將跨模態距離壓到最低。相比之下，通道融合會擾亂預訓練分布，批處理融合又無法保證對齊。

圖 4 不同的空間融合策略對比
網絡骨架沿用 Wan2.1 視頻擴散模型，通過輕量級 LoRA 微調完成適配，主要的策略包括有：
輸入端以斜坡深度初始化，先驗地逼近自然場景的深度梯度； XYZ 坐標經歸一化校正，徹底消除 VAE 潛在空間的分布錯位；軟掩碼機制在擴散過程中動態約束幾何細節，引導結構收斂；旋轉位置編碼維持像素級 RGB-XYZ 對齊。最后，僅需一次輕量重投影即可反算出相機參數，確保輸出在物理層面嚴密自洽。

圖 5 4DNeX 框架總覽
4. 實驗結果
實驗驗證顯示 4DNeX 在效率與質量上實現雙重突破：VBench 測試中，其動態幅度達 100%（超越 Free4D 的 40.1%），時空一致性 96.8% 領先業界。用戶研究（23 人評估）更顯示 85% 用戶偏好其生成效果，尤其在運動幅度與真實感方面優勢顯著。
生成效果可視化證明模型能力 —— 單圖輸入可輸出連貫動態點云序列（圖 5），新視角合成在真實場景（in-the-wild）中保持幾何一致性（下圖 6）；與 Animate124、4Real 等基線對比（下圖 7）， 4DNeX 在樹葉搖曳幅度、人體動作自然度等細節表現更優。

圖 6 4DNeX 生成的視頻效果（RGBPoint Map）
圖 7 4DNeX 生成未經訓練真實世界視頻的新視角視頻

圖 8 4DNeX 對比其他方法的生成效果
User Study 用戶調研結果顯示 4DNeX 生成的效果優于 Free4D、4Real、Animate124、GenXD 方法。

表格 1 User Study 結果對比
消融實驗
研究者們還對比了五種融合 RGB 以及 XYZ 的策略，以發現最佳的多模態融合策略。實驗一步證實寬度融合策略的關鍵作用，消除其他方案（如通道融合）的噪聲或對齊失敗問題。

圖 9 不同融合策略的結果可視化展示
文中視頻鏈接：https://mp.weixin.qq.com/s/_e4C5H6JzqlA1SHKip4USg

一張圖，開啟四維時空：4DNeX讓動態世界「活」起來

推薦閱讀

清算報告需要注明的內容有哪一些

惻隱之心仁之端也啥意思

無糖糖漿是什么東西

吃荷蘭豆的好處有哪些荷蘭豆多吃有什么壞處

oppoa95怎么關閉usb調試

艾爾登法環阿根廷區漲價了嗎阿根廷漲價分享

支付寶68元消費券怎么領

海棠花秋季的養殖方法

cs1.5怎么加人機器人快捷鍵

聚乙烯粉料潮濕易交聯嗎

兩個小故事，與生活攜手的文章，直面世俗一角

中國南方與北方具體分界線是怎樣的在供暖問題上，對南方不供暖的介定好象不合理

政府如何彌補市場缺陷,如何彌補市場不足

分享蘋果8p掉幀的具體處理方法。

釣2050斤的魚用什么主線和子線，釣鯉魚用幾號線組

紅瑰寶是紅木嗎

一張圖，開啟四維時空：4DNeX讓動態世界 「活」起來

推薦閱讀

一張圖，開啟四維時空：4DNeX讓動態世界「活」起來