PhysX-3D：面向真實物理世界的3D資產生成范式

2026-04-27 ai 中國電信天翼

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

https://mp.weixin.qq.com/s/Cdo2i96b6_JOaSKEigEsKA?click_id=15
本論文第一作者曹子昂，南洋理工大學博士二年級，研究方向是計算機視覺、3D AIGC 和具身智能。主要合作者為來自南洋理工大學陳昭熹和來自上海人工智能實驗室的潘亮，通訊作者為南洋理工大學劉子緯教授。

論文鏈接：https://arxiv.org/abs/2507.12465 項目主頁：hthttps://physx-3d.github.io/ GitHub 代碼：https://github.com/ziangcao0312/PhysX

3D 生成正從純虛擬走向物理真實，現有的 3D 生成方法主要側重于幾何結構與紋理信息，而忽略了基于物理屬性的建模。為了填補當前包含物理屬性 3D 數據集的關鍵空白，由南洋理工大學 - 商湯聯合研究中心 S-Lab ，及上海人工智能實驗室合作提出了 PhysXNet —— 首個系統性標注的物理基礎 3D 數據集，涵蓋五個核心維度：物理尺度、材料、可供性、運動學信息、以及文本描述信息。此外，我們還提出了 PhysXGen ，一個面向真實物理世界的 3D 生成框架，以實現從圖像到真實 3D 資產的生成。

引言

近年來，隨著 3D 資產在游戲、機器人技術和具身模擬等領域的廣泛應用，其多樣性與高質量生成受到了越來越多的關注。大量研究工作集中在外觀與幾何結構上：包括高質量的 3D 數據集（Objaverse [1
、ShapeNet [2
）、高效的 3D 表示方法以及生成模型等方面。

然而，這些研究大多僅關注結構特征，忽視了現實世界物體所固有的物理屬性。鑒于 3D 空間中對物理建模、理解與推理的需求不斷增長，我們認為，從上游的數據標注流程到下游的生成建模，構建一個完整的基于物理的 3D 對象建模體系變得尤為重要。考慮到除了幾何和外觀等純粹的結構屬性之外，現實世界中的物體還內在地具有豐富的物理和語義特性，包括：物理尺度、材料（密度、楊氏模量、泊松比）、可供性、運動學（運動模式、運動方向、運動范圍），以及文本描述（整體、功能、可供性信息）。通過將這些基礎屬性與經典物理原理相結合，我們便可以推導出關鍵的動態指標，如重力效應、摩擦力、接觸區域、運動軌跡與交互關系等。

基于以上分析，我們提出了 PhysXNet — 首個全面的物理屬性 3D 數據集，包含超過 26K 帶有豐富注釋的 3D 物體。除了在物體層級上的注釋外，我們還對每個零部件進行了物理屬性的標注。包括我們為所有部件提供了可供性排名以及運動學約束的詳細參數，包括運動范圍、運動方向、子部件和父部件等信息。

除此之外，我們還引入了擴展版本 PhysXNet-XL ，其中包含超過 600 萬個通過程序化生成并帶有物理注釋的 3D 對象。進一步，我們提出了 PhysXGen —— 一個用于物理 3D 生成的前饋模型。鑒于物理屬性在空間上與幾何結構和外觀密切相關，我們利用預訓練的 3D 先驗，以生成具備物理屬性的 3D 資產，從而實現高效訓練并具備良好的泛化能力。

數據介紹

由于物理屬性難以測量且標注極其耗時，導致現存相關數據集數據量難以擴展。為解決此挑戰，我們通過設計一個人在回路的標注流程以實現高效的物理信息采集標注。通過與相關數據對比我們的數據集是首個包含多種豐富物理屬性的 3D 數據集，并且包括物體整體信息及各部分的物理信息。

標注流程

正如前文所述，在確定標注信息后，我們提出了人在回路的標注框架，分為兩個明確的操作階段 1）初步數據采集和 2）運動學參數確定。

具體而言，我們利用 GPT-4o 獲取基礎信息。為了保證原始數據質量，由人工審核員將對視覺 - 語言模型（VLM）的輸出結果進行檢查。而第二階段細分為四個子任務：（2.a）接觸區域計算，（2.b）平面擬合，（2.c）候選項生成與篩選，（2.d）運動學參數確定。

數據分布

PhysXNet 數據集包含超過 26K 個帶物理屬性的 3D 對象，圖中展示了對象中部件數量的長尾分布，其中每個對象平均包含約 5 個組成部件。此外，我們在圖 (b) 中記錄了對象的長、寬、高分布情況。由于 PhysXNet 涵蓋了從相對小型的室內物體到大型室外結構，物理尺寸在對象之間表現出顯著差異。關于 PhysXNet 中的運動學類型和材料，我們展示了詳細的比例組成。最后，我們還統計了 PhysXNet-XL 中程序化生成的 6M 個 3D 數據的類別，涵蓋：a) 類內組合及 b) 跨類別組合。

生成方法介紹

為實現高效的包含物理屬性的 3D 資產生成，我們基于預訓練的 3D 表示空間，提出了 PhysXGen ，一個新穎且簡潔的框架，將物理屬性與幾何結構和外觀相結合，如圖所示。我們的方法通過在生成過程中同步融合基礎物理屬性，同時通過有針對性的微調優化結構分支，達到這一雙重目標。這種聯合優化使得生成的 3D 資產在保持出色幾何和外觀逼真度的同時，實現了物理上的自洽性。

實驗

定性及定量分析

如表所示，我們從兩個維度對模型進行了定量評估：1）幾何結構與外觀質量評估；2）物理屬性評估。

需要說明的是， TRELLIS+PhysPre 是我們的 Baseline ，其采用獨立結構來預測物理屬性。相比于這種分離式的物理屬性預測器，我們的 PhysXGen 利用了物理屬性與預定義 3D 結構空間之間的相關性，不僅在物理屬性生成方面取得了顯著提升，同時也增強了外觀質量如圖所示。

【PhysX-3D：面向真實物理世界的3D資產生成范式】

與現有方法對比

為了評估我們所提出的方法 PhysXGen 在生成具物理基礎的 3D 資產方面的能力，我們與一個基于 GPT 的基線流程進行了全面的定性與定量比較。該基線流程由 Trellis [3
、PartField [4
和 GPT-4o 組成。在該評估框架下，給定一張圖像提示， Trellis 首先生成具備完整幾何結構和外觀紋理的 3D 網格；隨后，這些資產經由 PartField 進行細粒度的部件分割；最后， GPT 模型對每個部件賦予材料參數和動態屬性等物理屬性。在四個評估維度上：物理尺度、材料、運動學和可供性， PhysXGen 分別取得了 24%、64%、28% 和 72% 的相對性能提升，表現出顯著優勢。

總結

本文旨在填補現有 3D 資產與真實世界之間的差距，提出了一種端到端的物理基礎 3D 資產生成范式，包括首個具物理屬性注釋的 3D 數據集（PhysXNet、PhysXNet-XL）以及新穎的物理屬性生成器（PhysXGen）。具體而言，我們構建了一個人機協同的數據標注流程，可將現有 3D 資源庫轉化為具備物理信息的數據集。與此同時，我們提出的新型端到端生成框架 PhysXGen ，能夠將物理先驗融入以結構為中心的架構中，從而實現穩健的 3D 生成效果。通過在 PhysXNet 上的實驗，我們揭示了物理 3D 生成任務中的關鍵挑戰與未來方向。我們相信，該數據集將吸引來自嵌入式人工智能、機器人學以及 3D 視覺等多個研究領域的廣泛關注。

參考文獻
[1
Deitke M Schwenk D Salvador J et al. Objaverse: A universe of annotated 3d objects [C
//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 13142-13153.
[2
Chang A X Funkhouser T Guibas L et al. Shapenet: An information-rich 3d model repository [J
. arXiv preprint arXiv:1512.03012 2015.
[3
Xiang J Lv Z Xu S et al. Structured 3d latents for scalable and versatile 3d generation [C
//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 21469-21480.
[4
Liu M Uy M A Xiang D et al. Partfield: Learning 3d feature fields for part segmentation and beyond [J
. arXiv preprint arXiv:2504.11451 2025.

推薦閱讀

上一篇：OpenAI 賣貨做視頻，Anthropic 專心寫代碼，誰能贏？

下一篇：砍掉背屏的小米17，雷軍多次誠懇推薦：被低估的物美價廉好機！