字節x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領先SOTA

字節x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領先SOTA

文章圖片

字節x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領先SOTA

文章圖片

字節x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領先SOTA

文章圖片

字節x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領先SOTA

文章圖片

字節x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領先SOTA

文章圖片




服裝視頻廣告太燒錢?卡點變裝太難拍? 字節跳動智能創作團隊聯合清華大學最新推出一款全能的視頻換裝模型 DreamVVT , 為視頻虛擬試穿領域帶來了突破性進展 。

該模型基于 Diffusion Transformer(DiTs)構建 , 通過精細的兩階段設計 , 成功解決了現有技術在復雜場景下的痛點 ,能夠支持任意類型的衣服、處理大幅度的人物或者相機運動、復雜背景以及不同的風格的輸入 。






論文鏈接:https://arxiv.org/abs/2508.02807 代碼鏈接:https://virtu-lab.github.io/
技術前沿:攻克復雜場景下的
視頻虛擬試穿難題

視頻虛擬試穿(Video Virtual Try-on VVT) , 這項旨在將任意服裝魔法般地 “穿” 在視頻中人物身上的技術 , 正逐漸成為電商、廣告及娛樂產業的焦點 。 然而 , 要實現理想效果 , 現有技術仍面臨著嚴峻挑戰 。

主流的端到端方案高度依賴稀缺的 “服裝 - 視頻” 成對訓練數據 , 同時難以充分利用強大預訓練模型的先驗知識 。 這導致在人物 360 度旋轉、鏡頭劇烈運鏡或背景動態變化的復雜場景下 , 生成的視頻往往會遭遇 服裝細節崩壞、紋理丟失與時序抖動 等一系列問題 。

為攻克這一行業難題 , 字節跳動智能創作團隊與清華大學攜手 , 提出了全新的 DreamVVT 框架 , 刷新了該領域的 SOTA 記錄 。 該框架基于強大的 Diffusion Transformer (DiT) 構建 , 并獨創性地提出了一套分階段生成方案 , 精準解決了現有技術在復雜場景下的核心痛點 , 能夠生成高保真且時間連貫的虛擬試穿視頻 。

破局之道:精巧的兩階段生成框架

DreamVVT 的核心設計理念 , 在于其精巧的兩階段框架 。 這一設計巧妙地解耦了任務難度 , 使其既能充分利用海量的非成對數據進行學習 , 又能靈活地融合預訓練模型的先驗知識與測試階段的即時信息 。 其核心貢獻主要體現在以下三個方面:

1. 創新的分階段框架:我們首次提出了基于 DiT 的分階段方案 , 它打破了對成對數據的依賴 , 能夠有效利用非成對數據、先進視覺模型的先驗知識以及測試時的輸入信息 , 顯著提升了模型在復雜場景下的虛擬試穿性能 。

2. 關鍵幀與大模型結合:我們將靜態的關鍵幀試穿與視頻語言模型(Video LLM)的推理能力相結合 。 這一機制為視頻生成提供了兼具豐富外觀細節與全局運動邏輯的綜合指導 , 從而在根源上平衡了服裝細節的保真度與視頻整體的時間一致性 。

3. 卓越的性能驗證:最后 , 大量的實驗結果有力地證明 , 在多樣化的真實場景下 , DreamVT 在保留高保真服裝細節和確保時序穩定性方面 , 均顯著優于現有的所有方法 。

技術解碼:揭秘兩階段高清視頻換裝方案



【字節x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領先SOTA】我們的高清視頻換裝技術 , 其核心是一個精心設計的兩階段框架 。 第一階段負責生成高質量的多張靜態換裝參考圖 , 第二階段則基于這些參考圖 , 結合多模態信息 , 生成時序穩定的高保真換裝視頻 。

第一階段:生成高質量的換裝關鍵幀

1. 智能關鍵幀采樣

為了全面捕捉人物的動態 , 我們設計了一套智能采樣策略 。 首先 , 設定一個標準的正面 A 字姿態作為 “錨點幀” 。 接著 , 通過計算視頻中每一幀與錨點幀的骨骼運動相似度 , 并結合人物在畫面中的面積比重進行加權 , 為每幀的 “獨特性” 打分 。 最后 , 我們采用一種反向搜索算法 , 從高分幀中篩選出一組信息冗余度最低的關鍵幀 , 為后續生成提供多樣化的姿態或者視角參考 。

2. 多幀換裝參考圖生成

有了關鍵幀 , 我們利用一個在預訓練模型 Seedream 上微調的 Diffusion Transformer 來生成換裝后的參考圖 。 我們巧妙地集成了 LoRA 模塊 , 實現了參數高效的微調 。 模型會同時接收多個關鍵幀、服裝圖以及我們精心設計的 “一致性圖像指令” 。 通過注意力機制中的 QKV 拼接 , 模型能有效聚合所有關鍵幀的信息 , 確保生成的換裝參考圖在細節上保持高度一致 。 此外 , 我們還引入 VLM 對服裝進行詳細的文本描述 , 并進行對齊 , 進一步強化了多幀間的外觀一致性 。

第二階段:多模態引導的視頻生成

第二階段的核心任務是 , 基于第一階段生成的換裝參考圖 , 結合多種信息 , 生成最終的換裝視頻 。 我們基于一個強大的圖生視頻(I2V)框架進行構建 。

1. 多模態輸入處理

模型同時接收多種模態的輸入 , 各司其職:

動作信息:為了精準還原身體動作 , 我們提取視頻的 2D 骨骼序列 , 并通過一個帶有時間注意力機制的 Pose Guider 將其轉換為平滑的姿態特征 。 視覺信息:我們將裁剪后的衣服不可知圖像(Agnostic Image)和遮罩送入 VAE 編碼器 , 得到基礎的視覺特征 。 文本信息:考慮到僅靠骨骼無法捕捉精細的服裝動態 , 我們利用 Video LLM 提取詳細的動作和視覺文本描述 ,為模型提供不同維度和精細地指導 。 外觀信息:第一階段生成的換裝關鍵幀則作為核心的外觀參考 , 同樣被編碼為圖像特征 。
2. 模型結構與訓練

在模型結構上 , 我們凍結了 Seaweed 模型的所有權重 , 僅在視頻流和圖像流中插入輕量化的 LoRA 適配器 , 實現了高效訓練 。 所有模態的特征在輸入網絡后 , 通過一次 全自注意力(Full Self-Attention) 操作進行深度融合 , 使模型能自適應地對齊不同信息 。

3. 視頻生成與融合

融合后的特征被送入 DiT 模塊進行多輪去噪 , 最終由 VAE 解碼器生成換裝視頻 。 我們還采用高效的拉普拉斯金字塔融合技術 , 將生成的視頻無縫地嵌入原始背景中 。 在訓練階段 , 我們采用了多任務學習策略 , 隨機切換訓練任務 , 充分利用了不同模態的互補優勢 , 最終實現了卓越的生成效果 。

此外 , 針對長視頻生成 , 團隊使用前一段視頻最后一幀的潛表示作為后一段的初始幀 , 避免了因反復編碼解碼導致的誤差累積 , 顯著延長了視頻質量明顯下降前的持續時間 。

實驗驗證:全方位展現
通用場景下的 SOTA 性能

與 SOTA 方法的全面對比

在定性對比中 , 面對 360 度旋轉等復雜野外場景 , 現有方法(如 CatV2TON、MagicTryOn)常出現細節崩壞和模糊 , 而 DreamVVT 則能穩定生成時空平滑且細節逼真的結果 。 定量數據更有力地印證了這一點 。 在 ViViD-S 數據集上 , 我們的 VFID 和 LPIPS 等關鍵指標達到 SOTA 。 在更具挑戰性的自建基準 Wild-TryOnBench 上 , DreamVVT 在服裝細節保留度(GP) 、物理真實感(PR) 和 時序一致性(TC) 三項人工評估中全面領先 , 展現了強大的泛化能力 。











消融實驗

1. 關鍵幀數量:將關鍵幀從 1 幀增至 2 幀 , 能為模型提供更豐富的服裝與運動信息 , 顯著提升了細節保真度與物理真實感 , 有效避免了偽影 。

2. LoRA 微調:采用 LoRA 進行輕量化微調 , 相比全參數訓練 , 能更好地繼承預訓練模型的文本控制能力 , 在不犧牲其他性能的前提下 , 顯著增強了生成視頻的物理真實感 , 尤其能夠實現和服裝的交互 。

這些實驗充分證明 , DreamVVT 通過其創新的設計 , 在復雜場景下的視頻虛擬試穿任務中取得了突破性的進展 。



總結

DreamVVT 的出現 , 為視頻虛擬試穿技術開辟了新的道路 。 它在復雜場景下的出色表現 , 標志著視頻虛擬試穿技術正邁向成熟的商業應用 , 為電商和泛娛樂行業開啟了無限的想象空間 。

    推薦閱讀