2D數據解鎖3D世界:首個面向運動學部件分解的多視角視頻擴散框架

2D數據解鎖3D世界:首個面向運動學部件分解的多視角視頻擴散框架

文章圖片

2D數據解鎖3D世界:首個面向運動學部件分解的多視角視頻擴散框架

文章圖片

2D數據解鎖3D世界:首個面向運動學部件分解的多視角視頻擴散框架

文章圖片

2D數據解鎖3D世界:首個面向運動學部件分解的多視角視頻擴散框架



張昊 , 伊利諾伊大學香檳分校(UIUC)博士生 , 研究方向涵蓋 3D/4D 重建、生成建模與物理驅動動畫 。 目前在 Snap Inc. 擔任研究實習生 , 曾于 Stability AI 和 上海人工智能實驗室實習 。 本項目 Stable Part Diffusion 4D (SP4D) 由 Stability AI 與 UIUC 聯合完成 , 能夠從單目視頻生成時空一致的多視角 RGB 與運動學部件序列 , 并進一步提升為可綁定的三維資產 。 個人主頁:https://haoz19.github.io/



論文標題:Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation 論文鏈接:https://arxiv.org/pdf/2509.10687 項目主頁:https://stablepartdiffusion4d.github.io/
研究背景與動機


在角色動畫和 3D 內容制作中 , rigging(骨骼綁定)與部件分解是實現可動畫化資產的核心 。 然而 , 現有方法存在明顯局限:

自動 rigging:依賴規模有限的 3D 數據集及骨骼/蒙皮標注 , 難以覆蓋多樣化的物體形態與復雜姿態 , 導致模型泛化性不足 。 部件分解:現有方法多依賴語義或外觀特征(如「頭部」、「尾部」、「腿」等)進行分割 , 缺乏對真實運動學結構的建模 , 結果在跨視角或跨時間序列上往往不穩定 , 難以直接應用于動畫驅動 。


為此 , 我們提出核心動機:利用大規模 2D 數據和預訓練擴散模型的強大先驗知識 , 來解決運動學部件分解的問題 , 并進一步延伸到自動 rigging 。這一思路能夠突破 3D 數據稀缺的瓶頸 , 讓 AI 真正學會生成符合物理運動規律的 3D 可動畫資產 。



研究方法與創新

基于這一動機 , 我們提出了 Stable Part Diffusion 4D (SP4D) —— 首個面向運動學部件分解的多視角視頻擴散框架 。 主要創新包括:

雙分支擴散架構:同時生成外觀與運動學結構 , 實現 RGB 與部件的聯合建模 。 BiDiFuse 雙向融合模塊:實現 RGB 與部件信息的跨模態交互 , 提高結構一致性 。 對比一致性損失:確保同一部件在不同視角、不同時間下保持穩定一致 。 KinematicParts20K 數據集:團隊基于 Objaverse-XL 構建超過 20000 個帶骨骼注釋的對象 , 提供高質量訓練與評估數據 。
這一框架不僅能生成時空一致的部件分解 , 還能將結果提升為 可綁定的 3D 網格 , 推導骨骼結構與蒙皮權重 , 直接應用于動畫制作 。

實驗結果

在 KinematicParts20K 驗證集上 , SP4D 相較現有方法取得了顯著提升:

分割精度:mIoU 提升至 0.68 , 相比 SAM2(0.15)與 DeepViT(0.17)大幅領先 。 結構一致性:ARI 達到 0.60 , 遠高于 SAM2 的 0.05 。 用戶研究:在「部件清晰度、跨視角一致性、動畫適配性」三項指標上 , SP4D 平均得分 4.26/5 , 顯著優于 SAM2(1.96)和 DeepViT(1.85)2509.10687v1 。


在 自動 rigging 任務中 , SP4D 也展現出更強的潛力:

在 KinematicParts20K-test 上 , SP4D 的 Rigging Precision 達到 72.7 , 相比 Magic Articulate(63.7)和 UniRig(64.3)有明顯優勢 。 在用戶評估的動畫自然度上 , SP4D 平均得分 4.1/5 , 遠高于 Magic Articulate(2.7)與 UniRig(2.3) , 展現出對未見類別與復雜形態的更好泛化 。
這些結果充分證明了 2D 先驗驅動的思路 不僅能解決 kinematic part segmentation 的長期難題 , 還能有效延伸到自動 rigging , 推動動畫與 3D 資產生成的全自動化 。



結語

【2D數據解鎖3D世界:首個面向運動學部件分解的多視角視頻擴散框架】Stable Part Diffusion 4D (SP4D) 不僅是技術上的突破 , 也是一次跨學科合作的成果 , 并且被 Neurips 2025 接受為 Spotlight 。 它展示了如何利用大規模 2D 先驗打開 3D 運動學建模與自動 rigging 的新局面 , 為動畫、游戲、AR/VR、機器人模擬等領域的自動化與智能化奠定了基礎 。

    推薦閱讀