首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標

首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標

文章圖片

首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標

文章圖片

首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標

文章圖片

首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標

文章圖片

首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標

文章圖片

首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標

文章圖片

首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標

【首個3D生成解構模型PartCrafter問世,GitHub狂攬2k星標】
從單張圖像創建可編輯的 3D 模型是計算機圖形學領域的一大挑戰 。 傳統的 3D 生成模型多產出整體式的「黑箱」資產 , 使得對個別部件進行精細調整幾乎成為不可能 。
為了突破這一局限 , 來自北京大學、字節跳動和卡耐基梅隆大學的研究者們聯合提出了 PartCrafter 。 這款創新的模型開創了結構化生成的新理念 , 能夠直接從單張 2D 圖像生成由多個、具有語義意義且可獨立操作的部件構成的復雜 3D 網格模型 。 PartCrafter 顯著增強了 3D 生成的可控性與可解釋性 , 為更直觀、模塊化的內容創作流程鋪平了道路 。
該研究已被頂級人工智能會議 NeurIPS 2025 接收 , 并在 GitHub 上迅速狂攬 2000+ Stars , 引發了社區的廣泛關注 。 本研究的 Project Lead 為 Panwang Pan 。

論文標題:PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers 項目主頁:https://wgsxm.github.io/projects/partcrafter/ 論文鏈接:https://arxiv.org/abs/2506.05573 代碼鏈接:https://github.com/wgsxm/PartCrafter

Partcrafter 是一個結構化的 3D 生成模型 , 無需分割步驟 , 可以秒級生成帶多個部件的 3D Mesh 表示 。
研究背景與動機
在當前的 3D AIGC(人工智能生成內容)領域 , 主流的生成模型普遍采用「黑箱」模式 , 將三維物體作為一個不可分割的整體進行處理 。 這種「整體式」范式雖然能生成外觀逼真的模型 , 但其組件(如椅子腿、汽車輪子)與主體融合 , 無法進行單獨的移動、旋轉或替換 。 這種不可編輯性和靈活性缺失 , 極大地限制了 3D 內容在各行各業的實際應用價值 。
為了實現部件級別的編輯 , 傳統的流程通常依賴于一個「分割-重建」的兩階段管線:首先進行圖像語義分割來識別部件 , 隨后對每個部件進行獨立的三維重建 。 然而 , 這種方法存在兩大弊端:緩慢且脆弱 。 它不僅耗時(通常需要 20 分鐘以上) , 而且極易出現錯誤累積 —— 初始 2D 分割階段的任何失誤都將永久性地破壞后續的所有重建結果和最終的 3D 模型 。
為了突破這些局限 , 研究團隊提出了 PartCrafter , 旨在構建一個端到端的結構化三維生成體系 。 PartCrafter 能夠直接從單張二維圖像生成包含多個獨立部件的復合網格模型 , 徹底解決了現有方法的編輯難題 。
通過這種統一的系統 , PartCrafter 在保證生成質量的同時 , 實現了秒級速度與前所未有的可控性 , 為 3D 內容創作流程鋪平了更直觀、更模塊化的道路 。

Partcrafter 網絡結構設計 。
方法詳解:組合式潛在空間與聯合去噪機制
PartCrafter 的核心在于其創新的網絡結構設計 , 它巧妙地解決了如何在生成過程中既保持部件獨立性又確保整體結構一致性的難題 。
1. 組合式潛在空間 (Compositional Latent Space)
為了讓模型能夠理解「部件」這一概念 , PartCrafter 為每個三維物體的不同部件都分配了一組相互獨立的潛在變量(Latent Tokens) 。 這種設計從根本上將物體的表示從單一整體解構為多個部分的組合 。
此外 , 為了讓模型能夠更好地區分和識別不同的部件(例如 , 椅子的「腿」和「靠背」) , 研究者為每一組部件的 token 引入了一個可學習的「部件身份嵌入」(Part Identity Embedding) 。 這種嵌入向量像一個獨特的「身份證」 , 強化了模型對每個部件語義屬性和獨立身份的感知能力 。
2. 局部-全局聯合去噪 Transformer (Local-Global Denoising Transformer)
在生成過程中 , 各個部件獨立生成然后拼接在一起是行不通的 , 這會導致部件之間布局混亂、比例失調 。 為此 , PartCrafter 設計了一種新穎的局部-全局聯合去噪 Transformer 架構 , 通過兩個協同工作的分支來確保生成結果的內在一致性與整體協調性 。
局部分支 (Local Attention Blocks):此分支專注于單個部件內部的幾何結構與細節 。 它通過在部件自身的潛在 token 集合內部進行注意力計算 , 確保每個生成部件(如一只桌腿)的形狀是完整且合理的 。 全局分支 (Global Attention Blocks):此分支則負責協調不同部件之間的空間關系和語義關聯 。 它會整合所有部件的潛在 token , 從全局視角審視和調整物體的整體布局 , 確保所有部件能夠和諧地組合在一起 。在整個去噪生成過程中 , 輸入的圖像條件(Condition)會引導模型生成既符合圖像內容、又具備獨立部件結構、同時整體形態協調連貫的三維模型 。
高質量部件級數據集的構建
高質量、大規模且帶有精確部件標注的 3D 數據集是訓練結構化生成模型的關鍵 。 然而 , 現有的大規模 3D 數據集(如 Objaverse、ShapeNet、ABO 等)雖然模型數量龐大 , 但普遍缺乏精細的部件級標注信息 。
為了解決這一數據瓶頸 , PartCrafter 團隊通過系統化地挖掘和整合多個主流 3D 資源庫 , 自主構建了一個專為部件級生成任務服務的大規模數據集 。 該數據集共包含約 13 萬個 三維對象 , 其中約 10 萬個擁有精確的多部件標注 。
在構建過程中 , 研究團隊制定了嚴格的篩選標準 , 包括模型的材質貼圖質量、部件數量的合理性以及部件間的平均交并比(IoU)等 , 以確保數據質量 。 最終 , 研究團隊精選出約 5 萬個具備高質量部件標簽的對象 , 共計含有超過 30 萬個獨立的、可用于監督訓練的三維部件 。 這個數據集的開放將為結構化 3D 生成領域的研究提供寶貴的資源 。
實驗結果
研究團隊在兩種不同的應用場景中 , 對 PartCrafter 進行了全面而豐富的實驗驗證:它既能用于生成具有獨立部件的 3D 單個物體 , 也能擴展到創建由多個物體組合而成的 3D 場景 。
1. 定量結果
1.1 物體數據集上的重建結果在物體部件級的生成任務上 , 與同樣探索部件級生成的 HoloPart 模型相比 , PartCrafter 在多項關鍵指標上均表現出顯著優勢 。
在給定單張圖像后 , PartCrafter 僅需約 34 秒即可生成高保真、部件可拆分的三維網格 , 而 HoloPart 不僅速度更慢 , 還依賴于耗時的后處理分割步驟 , 且生成精度較低 。

1.2 場景數據集上的重建結果在場景級的物體組合生成任務上 , 研究團隊將 PartCrafter 與 MIDI 模型進行了比較 。 實驗設置在一個從 3D-Front 數據集中挑選的、包含大量嚴重遮擋場景的子集上 。
結果表明 , 當物體間存在遮擋時 , 依賴真實分割掩碼(Ground Truth Segmentation Masks)的 MIDI 模型性能會大幅下降 , 而完全不依賴任何分割信息的 PartCrafter 則依然能保持穩定、高質量的生成效果 。

2. 定性結果
從定性結果來看 , PartCrafter 能夠生成幾何結構清晰、細節豐富的 3D 物體與場景 。 更重要的是 , 其組合式潛在空間的設計賦予了用戶前所未有的控制能力 。 通過在生成時指定潛在向量集合的個數 , 用戶可以靈活地控制生成模型的部件分割粒度 。
例如 , 對于同一個物體 , 用戶可以選擇將其生成為由 3 個部件組成的粗粒度模型 , 也可以選擇生成為由 8 個部件組成的細粒度模型 , 這種控制能力在個性化內容創作中具有巨大的應用潛力 。
2.1 3D 物體重建效果:
2.2 3D 場景重建效果:
2.3 用戶指定 Part 生成的顆粒度PartCrafter 的組合式潛在空間設計使得顆粒度控制成為可能 。 通過指定潛在向量集合的個數 , 用戶可以實現部件分割顆粒度的控制 。

3. 結論與展望
PartCrafter 的提出 , 標志著 3D 生成技術從「整體式」向「結構化」 邁出了關鍵一步 。 它通過一種巧妙的架構設計 , 在不犧牲生成質量和效率的前提下 , 成功地將可解釋性與可控性引入到三維生成流程中 。
這種直接生成可編輯部件的能力 , 不僅極大地拓寬了 3D AIGC 技術的應用場景(例如在游戲、虛擬現實、工業設計等領域快速生成可定制的 3D 資產) , 也為后續研究如何構建更加模塊化、層級化和語義化的三維世界模型提供了全新的思路 。



PartCrafter 生成的、帶有清晰部件結構的高質量 3D 網格模型 , 直接導入到工作流中 , 進行后續的渲染、動畫制作或游戲開發 , 極大地提升了其實用性和工作效率 (Credit goes to scenario) 。

    推薦閱讀