滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態

滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態

文章圖片

滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態

文章圖片

滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態

文章圖片

滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態

文章圖片

滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態

文章圖片

滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態

文章圖片

滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態



統一多模態模型在多模態內容理解與生成方面已展現出良好效果 , 但目前仍主要局限于圖像領域 。

滑鐵盧大學與快手可靈團隊提出 UniVideo , 一個在統一框架下同時支持視頻理解、生成與編輯的多模態生成模型 。

UniVideo 采用雙流架構 , 將多模態大語言模型(MLLM)的指令理解與推理能力 , 與多模態擴散 Transformer(MM-DiT)的高質量視覺生成能力相結合 。 不同于以往依賴任務特定設計或受限于單一模態的方法 , UniVideo 能夠理解多模態指令、區分不同任務類型 , 并在多項基準上取得接近或超過現有最優方法(SoTA)的性能 。

更重要的是 , UniVideo 無需額外的任務特定設計 , 即可泛化到未見過的任務及新的任務組合 。 這意味著 , 視頻生成與編輯不必再被拆分為多個孤立模型 , 統一建模本身就帶來了更強的擴展性 。

目前 , 該工作已被 ICLR 2026 接收 , 代碼已開源 。



項目主頁:https://congwei1230.github.io/UniVideo/ 論文地址:https://arxiv.org/abs/2510.08377 開源代碼:https://github.com/KlingTeam/UniVideo 開源模型:https://huggingface.co/KwaiVGI/UniVideo
效果展示



模型架構



UniVideo 由兩個核心組件組成:多模態大語言模型(MLLM) 和 多模態擴散 Transformer(MM-DiT) 。

MLLM 負責多模態指令理解與語義推理 , 能夠接受文本、圖像和視頻輸入 , 并生成高層語義表示或文本響應 。 MM-DiT 專注于視覺內容生成 , 在潛空間中進行條件圖像 / 視頻建模 。
UniVideo 從 MLLM 的最后一層隱藏狀態中提取多模態語義特征 , 這些特征編碼了豐富的跨模態語義信息 。 通過可訓練的 MLP Connector , 將其對齊并注入到 MM-DiT 的理解流(understanding stream)中 , 用于高層語義條件建模 。 同時 , 視覺信號通過 VAE 編碼后輸入至 MM-DiT 的生成流(generation stream) , 以保留細粒度的視覺信息 。

這種雙流設計同時具備強語義基礎與高保真視覺重建能力 , 對于視頻編輯以及需要保持身份一致性的上下文生成任務尤為關鍵 。

統一 10 個多模態任務

UniVideo 將多種視頻生成與編輯任務統一到單一的多模態指令范式中 , 并通過 MLLM + MM-DiT 的雙流架構實現靈活的任務調度與生成 。

多模態理解(Image / Video → Text , I/V2T)
圖像或視頻輸入由 MLLM 直接處理 , 并生成對應的文本輸出 。



文本到圖像 / 視頻生成(Text → Image / Video , T2I / T2V)
文本指令由 MLLM 編碼為語義表示 , 并作為條件輸入 , 引導 MM-DiT 生成圖像或視頻內容 。



圖像到視頻生成(Image → Video , I2V)
輸入圖像與文本指令由 MLLM 聯合理解并生成語義條件;同時 , 圖像的視覺信息與視頻潛變量一同輸入 MM-DiT , 以約束并引導視頻生成過程 。



圖像 / 視頻編輯(Image / Video Editing , I2I / V2V)
輸入圖像或視頻及編輯指令由 MLLM 解析為語義條件 , MM-DiT 在保持原始內容結構的基礎上完成條件編輯生成



上下文圖像 / 視頻生成與編輯(Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V)
在這類任務中 , 通常存在多個視覺條件(如多張參考圖像或參考視頻) 。 所有視覺信號經 VAE 編碼后統一填充至相同形狀 , 并沿時間維度拼接 , 通過自注意力機制進行融合 , 從而支持 ID 保持和跨上下文生成與編輯 。





實驗結果

在定量評測中 , UniVideo 在各項評測指標上均優于任務特定(task-specific)的基線方法 , 并在多數實驗設置下達到或超過當前最優方法(SoTA) 。

下圖展示了 UniVideo 在上下文生成與編輯任務上的定量對比結果 。



【滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態】

Key Insight:統一模型具備良好的泛化能力

團隊從兩個方面驗證了 UniVideo 統一架構的泛化能力:

(1)對未見視頻編輯指令的泛化能力:
盡管 UniVideo 未在 free-form 視頻編輯指令數據上進行訓練 , 但通過聯合多任務訓練 , 模型成功將圖像編輯能力遷移至視頻領域 , 實現了對 free-form 視頻編輯指令的泛化 。

(2)對新任務組合的泛化能力:
即使在訓練階段未顯式包含相關任務組合 , UniVideo 仍能夠自然泛化到新的任務組合設置 , 展現出統一多模態框架在組合泛化方面的顯著優勢 。

下圖給出了 UniVideo 泛化到視頻風格化與環境編輯任務的定性示例:



總結

UniVideo 通過統一的多模態指令范式與雙流架構 , 實現了視頻理解、生成與編輯任務的統一建模 。 實驗結果表明 , UniVideo 在多項定量評測中優于任務特定的單任務方法 , 并在多數設置下達到或超過當前最優水平 。

更重要的是 , UniVideo 可泛化到未見過的視頻編輯指令和新的任務組合 。 這表明 , 統一多模態建模不僅可行 , 而且可能是一條更具擴展性的方向 。

作者介紹

本文第一作者魏聰 , 滑鐵盧大學博士三年級在讀 , 導師為陳文虎教授 。

個人主頁:https://congwei1230.github.io/

    推薦閱讀