Sora沒做到的，LongVie框架給解決了，超長視頻生成SOTA

2026-04-27 人工智能 ai 日照市

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

從 Sora 的驚艷亮相到多款高性能開源模型的誕生，視頻生成在過去兩年迎來爆發式進步，已能生成幾十秒的高質量短片。然而，要想生成時長超過 1 分鐘、內容與運動可控、風格統一的超長視頻，仍面臨巨大挑戰。

為此，上海人工智能實驗室聯合南京大學、復旦大學、南洋理工大學 S-Lab、英偉達等機構提出 LongVie 框架，系統性解決可控長視頻生成中的核心難題。

項目主頁：https://vchitect.github.io/LongVie-project/ 視頻：https://www.youtube.com/watch?v=SOiTfdGmGEYt=1s 論文：https://arxiv.org/abs/2508.03694 Github：https://github.com/Vchitect/LongVie
難點剖析

直接利用當前的可控視頻生成模型生成分鐘級長視頻時，通常會出現以下問題：

時序不一致：前后畫面細節與內容不連貫，出現閃爍等現象。視覺退化：隨時長增長，出現顏色漂移、清晰度下降等問題。

解決時序不一致：兩項關鍵策略

LongVie 從「控制信號」與「初始噪聲」兩條路徑入手：

1. 控制信號全局歸一化（Control Signals Global Normalization）

將控制信號在全片段范圍內統一歸一化，而非僅在單一片段內歸一化，顯著提升跨片段拼接時的一致性。

2. 統一噪聲初始化（Unified Noise Initialization）

各片段共享同一初始噪聲，從源頭對齊不同片段的生成分布，減少前后幀外觀與細節漂移。

（下圖展示了兩項策略帶來的前后一致性提升）

解決視覺退化：多模態精細控制

單一模態的控制難以在長時間下提供穩定而全面的約束，誤差會隨時間累積并引發畫質下降。 LongVie 融合密集控制信號（如深度圖）與稀疏控制信號（如關鍵點），并引入退化感知訓練策略，在更貼近長序列退化分布的條件下訓練模型，使長視頻生成在細節與穩定性上同時受益。

（下圖給出了單一模態與多模態對比示例）

一圖看懂 LongVie 框架

從左至右， LongVie 先將跨片段的稠密（深度）與稀疏（關鍵點）控制視頻做全局歸一化，并為所有片段采用統一的噪聲

初始化。隨后在具體某一片段生成時，將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型，最終生成當前片段的視頻，接著不斷生成后面的片段，從而生成長視頻。

控制信號怎么融合更穩更強？團隊把標準 ControlNet（a）和兩種變體（b、c）都做了對比測試，結果顯示變體（c）效果更好、訓練更穩定，最終被采納。

LongVie 能力展示

LongVie 支持多種長視頻生成下游任務，包括但不限于：

視頻編輯：對長視頻進行一致性的內容修改與編輯。風格遷移：對整段長視頻執行統一且時序連貫的風格遷移。 Mesh-to-Video：從三維體素出發生成逼真的長視頻。
（如下圖為不同任務的效果示例）

LongVGenBench：首個可控超長視頻評測基準

當前缺乏面向可控長視頻生成的標準化評測。為此，作者團隊提出 LongVGenBench—— 首個專為超長視頻生成設計的基準數據集，包含 100 個時長超過 1 分鐘的高分辨率視頻，旨在推動該方向的系統研究與公平評測。

基于 LongVGenBench 的定量指標與用戶主觀測評顯示， LongVie 在多項指標上優于現有方法，并獲得最高用戶偏好度，達到 SOTA 水平。（詳見下表與用戶研究結果）

【Sora沒做到的，LongVie框架給解決了，超長視頻生成SOTA】

推薦閱讀

上一篇：智譜AutoGLM升級：給每個手機都裝上通用 Agent

下一篇：4499 元起？新款 iPhone 手機曝光