2D數據解鎖3D世界：首個面向運動學部件分解的多視角視頻擴散框架_傳感器|科學探索獎|人工智能

文章圖片

文章圖片

文章圖片

張昊，伊利諾伊大學香檳分校（UIUC）博士生，研究方向涵蓋 3D/4D 重建、生成建模與物理驅動動畫。目前在 Snap Inc. 擔任研究實習生，曾于 Stability AI 和上海人工智能實驗室實習。本項目 Stable Part Diffusion 4D (SP4D) 由 Stability AI 與 UIUC 聯合完成，能夠從單目視頻生成時空一致的多視角 RGB 與運動學部件序列，并進一步提升為可綁定的三維資產。個人主頁：https://haoz19.github.io/

論文標題：Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation 論文鏈接：https://arxiv.org/pdf/2509.10687 項目主頁：https://stablepartdiffusion4d.github.io/
研究背景與動機

在角色動畫和 3D 內容制作中， rigging（骨骼綁定）與部件分解是實現可動畫化資產的核心。然而，現有方法存在明顯局限：

自動 rigging：依賴規模有限的 3D 數據集及骨骼/蒙皮標注，難以覆蓋多樣化的物體形態與復雜姿態，導致模型泛化性不足。部件分解：現有方法多依賴語義或外觀特征（如「頭部」、「尾部」、「腿」等）進行分割，缺乏對真實運動學結構的建模，結果在跨視角或跨時間序列上往往不穩定，難以直接應用于動畫驅動。

為此，我們提出核心動機：利用大規模 2D 數據和預訓練擴散模型的強大先驗知識，來解決運動學部件分解的問題，并進一步延伸到自動 rigging 。這一思路能夠突破 3D 數據稀缺的瓶頸，讓 AI 真正學會生成符合物理運動規律的 3D 可動畫資產。

研究方法與創新

基于這一動機，我們提出了 Stable Part Diffusion 4D (SP4D) —— 首個面向運動學部件分解的多視角視頻擴散框架。主要創新包括：

雙分支擴散架構：同時生成外觀與運動學結構，實現 RGB 與部件的聯合建模。 BiDiFuse 雙向融合模塊：實現 RGB 與部件信息的跨模態交互，提高結構一致性。對比一致性損失：確保同一部件在不同視角、不同時間下保持穩定一致。 KinematicParts20K 數據集：團隊基于 Objaverse-XL 構建超過 20000 個帶骨骼注釋的對象，提供高質量訓練與評估數據。
這一框架不僅能生成時空一致的部件分解，還能將結果提升為可綁定的 3D 網格，推導骨骼結構與蒙皮權重，直接應用于動畫制作。

實驗結果

在 KinematicParts20K 驗證集上， SP4D 相較現有方法取得了顯著提升：

分割精度：mIoU 提升至 0.68 ，相比 SAM2（0.15）與 DeepViT（0.17）大幅領先。結構一致性：ARI 達到 0.60 ，遠高于 SAM2 的 0.05 。用戶研究：在「部件清晰度、跨視角一致性、動畫適配性」三項指標上， SP4D 平均得分 4.26/5 ，顯著優于 SAM2（1.96）和 DeepViT（1.85）2509.10687v1 。

在自動 rigging 任務中， SP4D 也展現出更強的潛力：

在 KinematicParts20K-test 上， SP4D 的 Rigging Precision 達到 72.7 ，相比 Magic Articulate（63.7）和 UniRig（64.3）有明顯優勢。在用戶評估的動畫自然度上， SP4D 平均得分 4.1/5 ，遠高于 Magic Articulate（2.7）與 UniRig（2.3），展現出對未見類別與復雜形態的更好泛化。
這些結果充分證明了 2D 先驗驅動的思路不僅能解決 kinematic part segmentation 的長期難題，還能有效延伸到自動 rigging ，推動動畫與 3D 資產生成的全自動化。

結語

【2D數據解鎖3D世界：首個面向運動學部件分解的多視角視頻擴散框架】Stable Part Diffusion 4D (SP4D) 不僅是技術上的突破，也是一次跨學科合作的成果，并且被 Neurips 2025 接受為 Spotlight 。它展示了如何利用大規模 2D 先驗打開 3D 運動學建模與自動 rigging 的新局面，為動畫、游戲、AR/VR、機器人模擬等領域的自動化與智能化奠定了基礎。

2D數據解鎖3D世界：首個面向運動學部件分解的多視角視頻擴散框架

推薦閱讀

綠蘿生根粉泡根要多久

Access數據庫怎么創建一個數據表

捷達車頭水箱有什么作用?

兒童房設計設計過程中需要注意哪些問題

安徽籍貫

嗶嘰面料怎么洗滌和保養

夢見吉他修好了夢見吉他修好了什么意思

wto是什么意思 wto是什么意思中文翻譯

九寨溝是中國的哪里九寨溝位于什么地方

win11麥克風沒聲音 win10麥克風沒聲音怎么設置

銀川到西安客車電話是多少時間，請問銀川到西安的客車在哪個站發車每天幾點發車票多少錢

天鎮縣景點

小米手機怎么用USB連接電腦上網

西安二手車市場，西安的舊車交易市場在哪幾點開

開標原件怎么查,取消投標人原件核查

佳能打印機怎么連接wifi