Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA

Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA

文章圖片

Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA

文章圖片

Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA

文章圖片

Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA

文章圖片

Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA

文章圖片

Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA

文章圖片

Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA



從 Sora 的驚艷亮相到多款高性能開源模型的誕生 , 視頻生成在過去兩年迎來爆發式進步 , 已能生成幾十秒的高質量短片 。 然而 , 要想生成時長超過 1 分鐘、內容與運動可控、風格統一的超長視頻 , 仍面臨巨大挑戰 。

為此 , 上海人工智能實驗室聯合南京大學、復旦大學、南洋理工大學 S-Lab、英偉達等機構提出 LongVie 框架 , 系統性解決可控長視頻生成中的核心難題 。



項目主頁:https://vchitect.github.io/LongVie-project/ 視頻:https://www.youtube.com/watch?v=SOiTfdGmGEYt=1s 論文:https://arxiv.org/abs/2508.03694 Github:https://github.com/Vchitect/LongVie
難點剖析

直接利用當前的可控視頻生成模型生成分鐘級長視頻時 , 通常會出現以下問題:

時序不一致:前后畫面細節與內容不連貫 , 出現閃爍等現象 。 視覺退化:隨時長增長 , 出現顏色漂移、清晰度下降等問題 。


解決時序不一致:兩項關鍵策略

LongVie 從「控制信號」與「初始噪聲」兩條路徑入手:

1. 控制信號全局歸一化(Control Signals Global Normalization)

將控制信號在全片段范圍內統一歸一化 , 而非僅在單一片段內歸一化 , 顯著提升跨片段拼接時的一致性 。

2. 統一噪聲初始化(Unified Noise Initialization)

各片段共享同一初始噪聲 , 從源頭對齊不同片段的生成分布 , 減少前后幀外觀與細節漂移 。

(下圖展示了兩項策略帶來的前后一致性提升)



解決視覺退化:多模態精細控制

單一模態的控制難以在長時間下提供穩定而全面的約束 , 誤差會隨時間累積并引發畫質下降 。 LongVie 融合密集控制信號(如深度圖)與稀疏控制信號(如關鍵點) , 并引入退化感知訓練策略 , 在更貼近長序列退化分布的條件下訓練模型 , 使長視頻生成在細節與穩定性上同時受益 。

(下圖給出了單一模態與多模態對比示例)



一圖看懂 LongVie 框架



從左至右 , LongVie 先將跨片段的稠密(深度)與稀疏(關鍵點)控制視頻做全局歸一化 , 并為所有片段采用統一的噪聲

初始化 。 隨后在具體某一片段生成時 , 將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型 , 最終生成當前片段的視頻 , 接著不斷生成后面的片段 , 從而生成長視頻 。



控制信號怎么融合更穩更強?團隊把標準 ControlNet(a)和兩種變體(b、c)都做了對比測試 , 結果顯示變體(c)效果更好、訓練更穩定 , 最終被采納 。

LongVie 能力展示

LongVie 支持多種長視頻生成下游任務 , 包括但不限于:

視頻編輯:對長視頻進行一致性的內容修改與編輯 。 風格遷移:對整段長視頻執行統一且時序連貫的風格遷移 。 Mesh-to-Video:從三維體素出發生成逼真的長視頻 。
(如下圖為不同任務的效果示例)







LongVGenBench:首個可控超長視頻評測基準

當前缺乏面向可控長視頻生成的標準化評測 。 為此 , 作者團隊提出 LongVGenBench—— 首個專為超長視頻生成設計的基準數據集 , 包含 100 個時長超過 1 分鐘的高分辨率視頻 , 旨在推動該方向的系統研究與公平評測 。

基于 LongVGenBench 的定量指標與用戶主觀測評顯示 , LongVie 在多項指標上優于現有方法 , 并獲得最高用戶偏好度 , 達到 SOTA 水平 。 (詳見下表與用戶研究結果)



【Sora沒做到的,LongVie框架給解決了,超長視頻生成SOTA】

    推薦閱讀