滑鐵盧大學聯合可靈提出UniVideo：視頻理解、生成、編輯多模態

2026-04-10 人工智能人形機器人物聯網機器人傳感器

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

統一多模態模型在多模態內容理解與生成方面已展現出良好效果，但目前仍主要局限于圖像領域。

滑鐵盧大學與快手可靈團隊提出 UniVideo ，一個在統一框架下同時支持視頻理解、生成與編輯的多模態生成模型。

UniVideo 采用雙流架構，將多模態大語言模型（MLLM）的指令理解與推理能力，與多模態擴散 Transformer（MM-DiT）的高質量視覺生成能力相結合。不同于以往依賴任務特定設計或受限于單一模態的方法， UniVideo 能夠理解多模態指令、區分不同任務類型，并在多項基準上取得接近或超過現有最優方法（SoTA）的性能。

更重要的是， UniVideo 無需額外的任務特定設計，即可泛化到未見過的任務及新的任務組合。這意味著，視頻生成與編輯不必再被拆分為多個孤立模型，統一建模本身就帶來了更強的擴展性。

目前，該工作已被 ICLR 2026 接收，代碼已開源。

項目主頁：https://congwei1230.github.io/UniVideo/ 論文地址：https://arxiv.org/abs/2510.08377 開源代碼：https://github.com/KlingTeam/UniVideo 開源模型：https://huggingface.co/KwaiVGI/UniVideo
效果展示

模型架構

UniVideo 由兩個核心組件組成：多模態大語言模型（MLLM）和多模態擴散 Transformer（MM-DiT）。

MLLM 負責多模態指令理解與語義推理，能夠接受文本、圖像和視頻輸入，并生成高層語義表示或文本響應。 MM-DiT 專注于視覺內容生成，在潛空間中進行條件圖像 / 視頻建模。
UniVideo 從 MLLM 的最后一層隱藏狀態中提取多模態語義特征，這些特征編碼了豐富的跨模態語義信息。通過可訓練的 MLP Connector ，將其對齊并注入到 MM-DiT 的理解流（understanding stream）中，用于高層語義條件建模。同時，視覺信號通過 VAE 編碼后輸入至 MM-DiT 的生成流（generation stream），以保留細粒度的視覺信息。

這種雙流設計同時具備強語義基礎與高保真視覺重建能力，對于視頻編輯以及需要保持身份一致性的上下文生成任務尤為關鍵。

統一 10 個多模態任務

UniVideo 將多種視頻生成與編輯任務統一到單一的多模態指令范式中，并通過 MLLM + MM-DiT 的雙流架構實現靈活的任務調度與生成。

多模態理解（Image / Video → Text ， I/V2T）
圖像或視頻輸入由 MLLM 直接處理，并生成對應的文本輸出。

文本到圖像 / 視頻生成（Text → Image / Video ， T2I / T2V）
文本指令由 MLLM 編碼為語義表示，并作為條件輸入，引導 MM-DiT 生成圖像或視頻內容。

圖像到視頻生成（Image → Video ， I2V）
輸入圖像與文本指令由 MLLM 聯合理解并生成語義條件；同時，圖像的視覺信息與視頻潛變量一同輸入 MM-DiT ，以約束并引導視頻生成過程。

圖像 / 視頻編輯（Image / Video Editing ， I2I / V2V）
輸入圖像或視頻及編輯指令由 MLLM 解析為語義條件， MM-DiT 在保持原始內容結構的基礎上完成條件編輯生成

上下文圖像 / 視頻生成與編輯（Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V）
在這類任務中，通常存在多個視覺條件（如多張參考圖像或參考視頻）。所有視覺信號經 VAE 編碼后統一填充至相同形狀，并沿時間維度拼接，通過自注意力機制進行融合，從而支持 ID 保持和跨上下文生成與編輯。

實驗結果

在定量評測中， UniVideo 在各項評測指標上均優于任務特定（task-specific）的基線方法，并在多數實驗設置下達到或超過當前最優方法（SoTA）。

下圖展示了 UniVideo 在上下文生成與編輯任務上的定量對比結果。

【滑鐵盧大學聯合可靈提出UniVideo：視頻理解、生成、編輯多模態】

Key Insight：統一模型具備良好的泛化能力

團隊從兩個方面驗證了 UniVideo 統一架構的泛化能力：

（1）對未見視頻編輯指令的泛化能力：
盡管 UniVideo 未在 free-form 視頻編輯指令數據上進行訓練，但通過聯合多任務訓練，模型成功將圖像編輯能力遷移至視頻領域，實現了對 free-form 視頻編輯指令的泛化。

（2）對新任務組合的泛化能力：
即使在訓練階段未顯式包含相關任務組合， UniVideo 仍能夠自然泛化到新的任務組合設置，展現出統一多模態框架在組合泛化方面的顯著優勢。

下圖給出了 UniVideo 泛化到視頻風格化與環境編輯任務的定性示例：

總結

UniVideo 通過統一的多模態指令范式與雙流架構，實現了視頻理解、生成與編輯任務的統一建模。實驗結果表明， UniVideo 在多項定量評測中優于任務特定的單任務方法，并在多數設置下達到或超過當前最優水平。

更重要的是， UniVideo 可泛化到未見過的視頻編輯指令和新的任務組合。這表明，統一多模態建模不僅可行，而且可能是一條更具擴展性的方向。

作者介紹

本文第一作者魏聰，滑鐵盧大學博士三年級在讀，導師為陳文虎教授。

個人主頁：https://congwei1230.github.io/

推薦閱讀

上一篇：3 月選存儲：搞懂三件事，避開漲價坑！

下一篇：十款最適合大學生的平板推薦,華為四款上榜，無紙化學習裝備優選