浙大提出ContextGen,實現布局錨定多實例生成新SOTA

浙大提出ContextGen,實現布局錨定多實例生成新SOTA

文章圖片

浙大提出ContextGen,實現布局錨定多實例生成新SOTA

文章圖片

浙大提出ContextGen,實現布局錨定多實例生成新SOTA

文章圖片

浙大提出ContextGen,實現布局錨定多實例生成新SOTA

文章圖片

浙大提出ContextGen,實現布局錨定多實例生成新SOTA

文章圖片

浙大提出ContextGen,實現布局錨定多實例生成新SOTA

文章圖片

浙大提出ContextGen,實現布局錨定多實例生成新SOTA

文章圖片




隨著擴散模型(Diffusion Models)的迭代演進 , 圖像生成已經日臻成熟 。 然而 , 在 多實例圖像生成(Multi-Instance Image Generation MIG) 這一有著大量用戶場景的關鍵領域 , 現有的方法仍面臨核心瓶頸:如何同時實現對多個對象的空間布局控制(Layout Control)以及身份特征的良好保持(Identity Preservation) 。

主流方法往往無法做到兩全其美:依賴文本和布局引導(Layout-to-Image)的模型往往難以實現高度的實例定制化 , 且實例遺漏、屬性泄露的問題時有發生;而主流的主體驅動(Subject-driven)方法在主體數量增加時 , 面臨著嚴重的身份混淆和細節丟失的問題 。


ContextGen 與主流 SOTA 的對比示例 , 以及 ContextGen 的使用例

為解決這一制約高度定制化圖像生成的難題 , 浙江大學 ReLER 團隊發布 ContextGen , 一個新型的基于 Diffusion Transformer (DiT) 的框架 , 旨在通過上下文學習 , 可靠地完成圖像引導的多實例生成任務!


【浙大提出ContextGen,實現布局錨定多實例生成新SOTA】
論文地址:https://arxiv.org/abs/2510.11000 項目地址:https://nenhang.github.io/ContextGen 開源代碼:https://github.com/nenhang/ContextGen 開源模型:https://huggingface.co/ruihangxu/ContextGen
ContextGen 提出了全新的上下文生成范式 , 通過整合布局圖像和多張參考圖像 , 將布局控制與身份保持的挑戰轉化為統一的上下文建模問題 。

雙核驅動:實現布局與身份的雙重保真

ContextGen 的雙重核心機制 , 共同作用于統一的上下文 Token 序列上:


ContextGen 框架結構概覽

上下文布局錨定(Contextual Layout Anchoring CLA)

CLA 機制聚焦于全局上下文的引導 , 接受用戶設計(或者模型自動拼合)的布局圖像作為輸入 , 以提供精確的全局布局控制和初步的身份信息 。 它通過在 DiT 模塊的前置層和后置層部署自注意力機制 , 確保文本、待生成圖像和布局圖像三者進行充分注意力交互 , 對整體圖像結構進行有效控制 。

身份一致性注意力(Identity Consistency Attention ICA)

ICA 機制聚焦細粒度的身份注入 , 利用原始高保真度的參考圖像 , 將身份信息注入到其對應的目標位置 , 從而保障多個實例的身份一致性 。 它被部署到 DiT 模塊的中間層 , 通過一個隔離式的注意力掩碼 , 將參考圖像的 Token 與對應待去噪區域的 Token 建立連接 , 旨在緩解重疊或者壓縮導致的細節丟失問題 , 并在圖像序列增長時保證身份信息的穩定注入 。

這種的層次化的雙重注意力策略 , 有效地讓框架兼具了宏觀的布局控制和精細的實例級身份保持 。 此外 , ContextGen 還采用了增強的位置索引策略 , 系統性地區分和組織統一 Token 序列中多圖像之間的關系 。

數據基石:大規模詳細標注的多實例數據集

針對當前領域高質量訓練數據稀缺的現狀 , 團隊同時推出了 IMIG-100K 數據集 。 這是首個為圖像引導的多實例生成任務設計的大規模、具備不同難度層級、提供詳細布局和身份標注的合成數據集 , 其構建流程代碼也已經開源 , 支持用戶根據自身需求生成定制化數據集 。


IMIG-100K 數據集概覽


IMIG-100K 的布局、身份標注

性能優化:DPO 強化學習解放創造力

團隊在訓練過程中發現 , 僅僅使用監督微調容易使得模型過度參考布局圖像 , 導致生成的圖像缺乏多樣性和靈活性 。 為此 , 在監督微調之外 , ContextGen 還引入了基于偏好優化(DPO) 的強化學習階段 。 該階段將布局圖像作為非偏好輸入 , 鼓勵模型不僵硬復制布局內容 , 生成更具創意和多樣性的圖像 。


DPO 微調過程示例

實驗驗證:對標閉源模型 , 樹立性能標桿

在廣泛的定量和定性評估中 , ContextGen 展現出卓越的 SOTA 性能 。

身份保持:比肩閉源巨頭

在 LAMICBench++ 基準測試中 , ContextGen 不僅超越了所有開源模型(平均得分提升 +1.3%) , 更在身份一致性上比肩了一些閉源的商業巨頭 , 在多實例的復雜場景中 , ContextGen 在人物身份保持 (IDS) 和物體特征保持 (IPS) 上甚至可以和 GPT-4o 和 Nano Banana 一較高下 。


LAMICBench++ 基準的定量對比


LAMICBench++ 基準的定性對比1


LAMICBench++ 基準的定性對比2

布局與屬性控制:準確率大幅提升

在 COCO-MIG 上 , ContextGen 在實例級成功率 (I-SR) 上提升 +3.3% , 空間準確性 (mIoU) 提升 +5.9% 。在 LayoutSAM-Eval 中 , ContextGen 在顏色、材質等屬性的正確率上也超過了現有的模型 。


COCO-MIG 和 LayoutSAM-Eval 基準的定量比較


COCO-MIG 基準的定性比較


LayoutSam-Eval 基準的定性比較

這些結果充分證明了 ContextGen 在多實例圖像生成任務中的強大能力 , 成功實現了對布局和身份的雙重精確控制 。

前端支持:便捷的用戶交互

為了方便用戶體驗 , 在項目中團隊增加了一個簡單易用的前端界面 , 支持用戶上傳參考圖像、以文本的形式添加新素材、通過拖拽方便地設計布局 , 生成多實例圖像 。


ContextGen 前端交互界面

展望與未來

ContextGen 通過帶有雙重注意力的上下文機制 , 為高度可控的多實例生成提供了一個強大且可行的 DiT 框架 。 ReLER 團隊進一步提出 , 如何更智能地理解用戶的文本意圖與多模態參考 , 仍然是一個值得深入探索的課題 。 未來 , 團隊計劃進一步優化模型架構 , 提升生成效率 , 并探索更多樣化的用戶交互方式 , 以滿足更廣泛的應用需求 。

    推薦閱讀