片段生成到長視頻漫游:OmniRoam探索軌跡可控的長視頻生成新范式

片段生成到長視頻漫游:OmniRoam探索軌跡可控的長視頻生成新范式

文章圖片

片段生成到長視頻漫游:OmniRoam探索軌跡可控的長視頻生成新范式

文章圖片

片段生成到長視頻漫游:OmniRoam探索軌跡可控的長視頻生成新范式

文章圖片

片段生成到長視頻漫游:OmniRoam探索軌跡可控的長視頻生成新范式

文章圖片




在生成式視頻快速發展的今天 , 模型已經能夠生成高質量的短視頻片段 , 但一個更具挑戰性的問題正逐漸成為研究焦點:

如何生成長時間、可連續演化的視頻序列?當生成從 “幾秒” 走向 “長時序” 時 , 問題開始顯現:視角變化帶來的結構漂移、時間推進中的內容不一致 , 使得視頻在空間與時間維度上難以保持穩定 , 往往 “走著走著就亂了” 。

與此同時 , 如何讓視頻生成具備可控性 , 能夠沿指定路徑連續移動 , 也成為實際應用中的關鍵需求 。

近日 , 來自 University of California Irvine、University of California San Diego、City University of Hong Kong、University of Pennsylvania 以及 Adobe Research 的研究者共同提出了 OmniRoam , 一種面向軌跡可控長視頻生成的新方法 。



論文標題:OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation 項目主頁:https://yuheng.ink/project-page/omniroam/ 文章鏈接:https://arxiv.org/pdf/2603.30045 代碼鏈接:https://github.com/yuhengliu02/OmniRoam
該工作通過引入全景視頻作為統一表示 , 并結合 coarse-to-fine 的分階段生成框架 , 在長時序條件下顯著提升了視頻的空間一致性與時間連貫性 , 使模型能夠生成沿指定路徑連續演化的視頻序列 , 邁出了從 “片段生成” 走向 “連續過程生成” 的關鍵一步 。



一、軌跡控制的視頻預覽
先生成 “可控路徑”

OmniRoam 首先生成一個中等分辨率的全景視頻預覽 , 用于確定整體路徑與場景結構 。

核心在于將相機軌跡拆解為 flow(方向)和 scale(步長)兩個控制量:前者刻畫運動方向 , 后者控制移動幅度 , 從而實現更清晰的軌跡建模 。 在實現上 , 模型將輸入與目標視頻在時間維拼接 , 并通過 flow 與 scale 進行條件調制 , 使生成過程既保持內容連續 , 又具備明確的路徑約束 。

二、長時序視頻細化
從預覽到高質量生成

在 preview 基礎上 , OmniRoam 進一步進行長時序細化生成 。 由于 preview 通常采用較大 scale(類似 “快進”) , refinement 階段會通過 scale 對齊 , 將視頻擴展為更長、更接近真實速度的序列 。

關鍵設計是 visibility mask:每個時間段只選取少量 preview 幀作為條件輸入 , 在保留結構錨點的同時避免冗余 。 隨后模型對各個 segment 進行高分辨率生成 , 并拼接得到最終長視頻 。

這種從 “全局預覽” 到 “局部細化” 的過程 , 有效緩解了長序列中的誤差累積問題 。



三、新數據集與評測基準
支撐長視頻生成

為支持該任務 , OmniRoam 構建了專門的數據與評測體系 。 在表示上 , 文章定義了一個 canonical panoramic coordinate system , 去除相機自旋轉 , 僅保留平移 , 從而簡化軌跡建模 。 數據方面結合真實與合成兩部分:真實全景視頻提供多樣場景 , 合成數據提供精確軌跡監督 , 并通過路徑規劃保證運動合理性 。 在評測上 , 提出 loop consistency 指標 , 要求視頻沿閉環路徑生成后既能回到起點 , 又保持中間過程的合理變化 , 更好衡量長時序一致性 。



四、實驗結果
一致性與可控性的顯著提升

實驗結果表明 , OmniRoam 在畫質、軌跡控制和長時序一致性上均優于現有方法 。
在定性結果中 , 模型能夠穩定沿指定路徑生成連續視頻 , 顯著減少結構漂移與內容崩塌;而在定量指標上(如 FAED、SSIM、LPIPS 及 loop consistency) , 均取得更優表現 。



進一步分析顯示 , 全景表示與兩階段生成設計是性能提升的關鍵 , 使模型在長視頻場景下依然保持穩定與可控 。 文章重點分析了在長視頻(641 ?。 ┨跫虜煌椒ǖ謀硐?, 包括自回歸生成與基于透視表示的方法 。 為了進一步分析長時序一致性 , 作者設計了閉環軌跡實驗 , 并用 CLIP 相似度衡量模型是否能夠 “走回原點” 。 理想情況下 , 隨著相機逐漸遠離起點 , 相似度應逐步下降;而在軌跡閉環時 , 相似度應重新上升 。 相似度在中段下降 , 在末尾重新回升 , 說明模型具備較強的長期空間記憶能力 。



五、擴展與應用
【片段生成到長視頻漫游:OmniRoam探索軌跡可控的長視頻生成新范式】從實時預覽到 3D 場景生成

除了長視頻生成能力 , OmniRoam 還展示了在效率與 3D 任務上的潛在應用 。

在效率方面 , 作者基于 self-forcing 機制 , 將完整模型蒸餾為一個輕量級自回歸預覽模型 , 實現實時視頻生成 。 該模型在保持整體場景結構的同時 , 可在約 7 秒內生成 81 幀全景視頻 , 相比原始模型顯著加速 , 為交互式應用提供了可能 。 同時 , 還支持先生成低分辨率視頻 , 再通過 refinement 模塊提升至更高分辨率(如 720p) 。

在 3D 應用方面 , OmniRoam 生成的長視頻可直接用于 3D 場景重建 。 作者從生成視頻中均勻采樣關鍵幀 , 并提取多個透視視角輸入到 3D Gaussian Splatting(3DGS)中進行重建 。 實驗結果表明 , 生成視頻在不同視角間保持良好的一致性 , 能夠恢復出結構連貫的 3D 場景 。

這些結果表明 , OmniRoam 不僅可以生成長時序視頻 , 還能夠作為上游模塊 , 為實時交互與 3D 內容構建提供支持 。



六、總結
長視頻生成邁向 “可持續演化”

OmniRoam 的核心貢獻 , 并不只是生成更長的視頻 , 而是在長時序條件下 , 實現了更穩定、更可控的生成過程 。 通過全景表示提供全局空間約束 , 并結合 trajectory-controlled preview 與 long-horizon refinement 的兩階段設計 , 模型能夠在長時間范圍內有效抑制漂移 , 維持結構與語義的一致性 。

這也反映出一個更重要的趨勢:

視頻生成的挑戰 , 正在從 “生成更清晰的內容” , 轉向 “如何在更長時間內保持一致性與連貫性” 。 在這一背景下 , OmniRoam 提供了一種可行路徑 , 使生成模型能夠沿指定軌跡持續演化 , 為長視頻生成、虛擬漫游等場景奠定了基礎 。

如果說短視頻生成解決的是 “生成一段內容” , 那么長時序生成更關心的是 —— 模型能否在時間推移中持續 “記住并延續” 這個場景 。

    推薦閱讀