片段生成到長視頻漫游：OmniRoam探索軌跡可控的長視頻生成新范式

2026-05-01 機器人人形機器人集邦咨詢宇樹科技

文章圖片

文章圖片

文章圖片

文章圖片

在生成式視頻快速發展的今天，模型已經能夠生成高質量的短視頻片段，但一個更具挑戰性的問題正逐漸成為研究焦點：

如何生成長時間、可連續演化的視頻序列？當生成從 “幾秒” 走向 “長時序” 時，問題開始顯現：視角變化帶來的結構漂移、時間推進中的內容不一致，使得視頻在空間與時間維度上難以保持穩定，往往 “走著走著就亂了” 。

與此同時，如何讓視頻生成具備可控性，能夠沿指定路徑連續移動，也成為實際應用中的關鍵需求。

近日，來自 University of California Irvine、University of California San Diego、City University of Hong Kong、University of Pennsylvania 以及 Adobe Research 的研究者共同提出了 OmniRoam ，一種面向軌跡可控長視頻生成的新方法。

論文標題：OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation 項目主頁：https://yuheng.ink/project-page/omniroam/ 文章鏈接：https://arxiv.org/pdf/2603.30045 代碼鏈接：https://github.com/yuhengliu02/OmniRoam
該工作通過引入全景視頻作為統一表示，并結合 coarse-to-fine 的分階段生成框架，在長時序條件下顯著提升了視頻的空間一致性與時間連貫性，使模型能夠生成沿指定路徑連續演化的視頻序列，邁出了從 “片段生成” 走向 “連續過程生成” 的關鍵一步。

一、軌跡控制的視頻預覽
先生成 “可控路徑”

OmniRoam 首先生成一個中等分辨率的全景視頻預覽，用于確定整體路徑與場景結構。

核心在于將相機軌跡拆解為 flow（方向）和 scale（步長）兩個控制量：前者刻畫運動方向，后者控制移動幅度，從而實現更清晰的軌跡建模。在實現上，模型將輸入與目標視頻在時間維拼接，并通過 flow 與 scale 進行條件調制，使生成過程既保持內容連續，又具備明確的路徑約束。

二、長時序視頻細化
從預覽到高質量生成

在 preview 基礎上， OmniRoam 進一步進行長時序細化生成。由于 preview 通常采用較大 scale（類似 “快進”）， refinement 階段會通過 scale 對齊，將視頻擴展為更長、更接近真實速度的序列。

關鍵設計是 visibility mask：每個時間段只選取少量 preview 幀作為條件輸入，在保留結構錨點的同時避免冗余。隨后模型對各個 segment 進行高分辨率生成，并拼接得到最終長視頻。

這種從 “全局預覽” 到 “局部細化” 的過程，有效緩解了長序列中的誤差累積問題。

三、新數據集與評測基準
支撐長視頻生成

為支持該任務， OmniRoam 構建了專門的數據與評測體系。在表示上，文章定義了一個 canonical panoramic coordinate system ，去除相機自旋轉，僅保留平移，從而簡化軌跡建模。數據方面結合真實與合成兩部分：真實全景視頻提供多樣場景，合成數據提供精確軌跡監督，并通過路徑規劃保證運動合理性。在評測上，提出 loop consistency 指標，要求視頻沿閉環路徑生成后既能回到起點，又保持中間過程的合理變化，更好衡量長時序一致性。

四、實驗結果
一致性與可控性的顯著提升

實驗結果表明， OmniRoam 在畫質、軌跡控制和長時序一致性上均優于現有方法。
在定性結果中，模型能夠穩定沿指定路徑生成連續視頻，顯著減少結構漂移與內容崩塌；而在定量指標上（如 FAED、SSIM、LPIPS 及 loop consistency），均取得更優表現。

進一步分析顯示，全景表示與兩階段生成設計是性能提升的關鍵，使模型在長視頻場景下依然保持穩定與可控。文章重點分析了在長視頻（641 ?。 ┨跫虜煌椒ǖ謀硐?，包括自回歸生成與基于透視表示的方法。為了進一步分析長時序一致性，作者設計了閉環軌跡實驗，并用 CLIP 相似度衡量模型是否能夠 “走回原點” 。理想情況下，隨著相機逐漸遠離起點，相似度應逐步下降；而在軌跡閉環時，相似度應重新上升。相似度在中段下降，在末尾重新回升，說明模型具備較強的長期空間記憶能力。

五、擴展與應用
【片段生成到長視頻漫游：OmniRoam探索軌跡可控的長視頻生成新范式】從實時預覽到 3D 場景生成

除了長視頻生成能力， OmniRoam 還展示了在效率與 3D 任務上的潛在應用。

在效率方面，作者基于 self-forcing 機制，將完整模型蒸餾為一個輕量級自回歸預覽模型，實現實時視頻生成。該模型在保持整體場景結構的同時，可在約 7 秒內生成 81 幀全景視頻，相比原始模型顯著加速，為交互式應用提供了可能。同時，還支持先生成低分辨率視頻，再通過 refinement 模塊提升至更高分辨率（如 720p）。

在 3D 應用方面， OmniRoam 生成的長視頻可直接用于 3D 場景重建。作者從生成視頻中均勻采樣關鍵幀，并提取多個透視視角輸入到 3D Gaussian Splatting（3DGS）中進行重建。實驗結果表明，生成視頻在不同視角間保持良好的一致性，能夠恢復出結構連貫的 3D 場景。

這些結果表明， OmniRoam 不僅可以生成長時序視頻，還能夠作為上游模塊，為實時交互與 3D 內容構建提供支持。

六、總結
長視頻生成邁向 “可持續演化”

OmniRoam 的核心貢獻，并不只是生成更長的視頻，而是在長時序條件下，實現了更穩定、更可控的生成過程。通過全景表示提供全局空間約束，并結合 trajectory-controlled preview 與 long-horizon refinement 的兩階段設計，模型能夠在長時間范圍內有效抑制漂移，維持結構與語義的一致性。

這也反映出一個更重要的趨勢：

視頻生成的挑戰，正在從 “生成更清晰的內容” ，轉向 “如何在更長時間內保持一致性與連貫性” 。在這一背景下， OmniRoam 提供了一種可行路徑，使生成模型能夠沿指定軌跡持續演化，為長視頻生成、虛擬漫游等場景奠定了基礎。

如果說短視頻生成解決的是 “生成一段內容” ，那么長時序生成更關心的是 —— 模型能否在時間推移中持續 “記住并延續” 這個場景。

推薦閱讀

上一篇：2026具身智能數據賽道，卷出了一匹「黑馬」

下一篇：微星MEG X870E UNIFY-X MAX主板評測暗影回歸超頻拉滿