世界首個「實時、無限」擴散視頻生成模型,Karpathy投資站臺

世界首個「實時、無限」擴散視頻生成模型,Karpathy投資站臺

文章圖片

世界首個「實時、無限」擴散視頻生成模型,Karpathy投資站臺

文章圖片

世界首個「實時、無限」擴散視頻生成模型,Karpathy投資站臺

文章圖片

世界首個「實時、無限」擴散視頻生成模型,Karpathy投資站臺

文章圖片

世界首個「實時、無限」擴散視頻生成模型,Karpathy投資站臺

文章圖片

機器之心報道
編輯:冷貓
一覺起來世界已經進化成這樣了?
每個人都能懂點魔法 , 能夠隨意穿梭在各個平行時空和幻想世界里 。

讀者朋友們看到這說不定撇撇嘴 , 「這不就是 AI 視頻嗎?」
但如果加上兩個關鍵詞 , 這將成為 AI 視頻生成領域革命性的突破!
就在昨天 , Decart 發布了世界上首個「實時的」「無時長限制的」并且支持「任意視頻流」的擴散視頻模型 MirageLSD!

輸入任何視頻流 , 無論是相機或視頻聊天、電腦屏幕還是游戲 , MirageLSD 都能在 40 毫秒延遲以內將其轉化為你想要的任何世界 。
這一切都看上去不可思議 , AI 視頻已經能夠實現和濾鏡一樣的應用方式 , 實時智能調整畫面風格和畫面內容 , 并且能夠通過文本提示任意地進行控制 。
實時視頻魔法
解鎖全新應用可能
前特斯拉 AI 總監 , OpenAI 的創始團隊成員 Andrej Karpathy 為此技術展開了廣泛的想象:

  1. 將攝像頭畫面變為 “另一個世界” 。
  2. 自導自演實時電影:拿起道具、演繹場景 , AI 負責實時布景和風格化 , 秒看回放 , 邊演邊剪 。
  3. 游戲開發輕松起步:用簡單的球體 / 方塊編碼游戲機制 , 再用實時擴散模型為游戲生成精美貼圖 。
  4. 任意視頻流的風格遷移:例如:只需一句提示詞就能讓《上古卷軸》看起來 “更史詩” , 讓《毀滅戰士 2》擁有現代虛幻引擎畫質 。
  5. 視頻會議背景和實時虛擬試衣 。
  6. AR 眼鏡升級:實時將現實世界卡通化 。
  7. 哈利波特的「厄里斯魔鏡」:現實中看似普通的鏡子 , 實際上會顯示出 AI 根據你 “深層欲望” 生成的理想自己或世界 。
Karpathy 表示自己已經成為了這個 MirageLSD 項目的天使投資人 , 在他看來這項技術通用且強大 。
【世界首個「實時、無限」擴散視頻生成模型,Karpathy投資站臺】也許這些都只是開始 , 真正的 “殺手級應用” 還沒被發現 —— 這個領域值得無限想象!
這一切讓我想起了「刀劍神域」 , 似乎覆蓋現實世界的幻想畫面真的要實現了?
Decart 也展示了一些構想的演示 , 充分滿足了各種可能:
比如在沙漠里滑雪?

比如可以花上 30 分鐘寫個游戲代碼 , 然后讓 Mirage 處理圖形?

Decart 推文中笑稱 , 使用 Mirage「從提示詞制作 GTA VII , 比 GTA VI 發售還快 。 」
目前 Mirage 已正式上線 , 與其觀看屏幕上的魔法 , 不如親手創造魔法 。
Decart 將持續發布模型升級和新功能 , 包括面部一致性、語音控制和精確物體操控等 。 與此同時 , 平臺還將上線一系列新特性 —— 如流媒體支持(以任意角色進行直播)、游戲集成、視頻通話等功能 。
  • 體驗鏈接:https://mirage.decart.ai/
魔法背后
MirageLSD技術原理
MirageLSD 主要在視頻生成的時長和延遲兩大角度產生了突破 , 基于定制的模型 —— 實時流擴散(Live Stream Diffusion , LSD) , 該模型能夠逐幀生成并保持時間連貫性 。
在視頻時長方面 , 先前的視頻模型在生成 20-30 秒后就會因錯誤累積而嚴重降低質量 。
在生成延時方面 , 它們往往需要幾分鐘的處理時間才能輸出幾秒鐘的視頻 。 即使是今天最接近實時速度的系統 , 通常也是分塊生成視頻 , 從而引入不可避免的延遲 , 完全無法實現交互應用 。
無限長視頻生成

MirageLSD 是第一個能夠生成無限長視頻的視頻生成模型 。
由于模型的自回歸特性 , 會導致誤差逐步累積 , 從而限制輸出的長度 。
為了實現無限自回歸生成:
  • MirageLSD 基于 Diffusion Forcing 技術 , 實現逐幀去噪;
  • 我們引入歷史增強方法 , 在訓練中對輸入歷史幀進行擾動 , 使模型學會預判并糾正輸入中的偽影 , 從而增強其對自回歸生成中常見偏移的魯棒性;
這兩者結合 , 使 LSD 成為第一個能夠無限生成視頻而不會崩潰的模型 —— 穩定、可提示 , 并始終與場景和用戶輸入保持一致 。
零延時視頻生成

響應性是指最壞情況下的響應延遲 , 即使是之前的自回歸模型響應速度也比 MirageLSD 慢 16 倍以上 , 導致實時交互無法實現 。
實時生成要求每幀的生成時間控制在 40 毫秒以內 , 以避免被人眼察覺 。 我們通過以下方式實現這一目標:
  • 設計定制的 CUDA mega kernels , 以最小化開銷并最大化吞吐;
  • 基于 shortcut distillation 和模型剪枝技術 , 減少每幀所需的計算量;
  • 優化模型架構 , 使其與 GPU 硬件高度對齊 , 實現效率最大化 。
通過上述技術 , 我們在響應速度上相較于以往模型提升了 16 倍 , 實現了以 24 幀 / 秒的速率實時生成視頻 。
擴散模型與 LSD
擴散模型通過一系列逐步去噪操作 , 將隨機噪聲逐漸還原為圖像或視頻 。 在視頻生成中 , 這通常意味著一次性生成固定長度的視頻片段 , 這有助于保持時間一致性 , 但會帶來延遲 。 一些系統嘗試通過所謂的 “自回歸生成” 方式 , 逐段順序生成幀片段 , 以提高靈活性 。 然而 , 這種方式仍需在每一段幀生成完畢后才能響應新的輸入 , 限制了交互性和實時應用的能力 。

LSD 采用了不同的方法 。 它一次生成一幀 , 使用因果性的自回歸結構 , 每一幀都依賴于此前生成的幀以及用戶提示 。 這種方式支持即時反饋、零延遲交互 , 并且可以持續生成視頻 , 無需預先設定終點 。
在每一個時間步 , 模型會接收一組過去生成的幀、當前輸入幀以及用戶定義的提示詞 , 然后預測下一幀輸出 , 該幀會立即作為輸入傳遞到下一輪生成中 。

這種因果反饋機制使 LSD 能夠保持時間上的一致性 , 持續適應畫面中的動作與內容變化 , 并在實時遵循用戶提示的同時 , 生成無限長度的視頻序列 。
此外 , 它還使 LSD 能夠對輸入作出即時響應 —— 無論是文本提示還是視頻內容的變化 —— 實現真正的零延遲 。 這正是實時編輯與轉換成為可能的關鍵 。
技術缺陷與改進方向
首先 , 當前系統依賴于有限的歷史幀窗口 。 引入更長期的記憶機制有望提升長序列中的連貫性 , 從而在角色身份、場景布局和長期動作等方面實現更一致的表現 。
此外 , 盡管 MirageLSD 支持基于文本的風格變換 , 但對于特定物體、空間區域或動作的精細控制仍較為有限 。 若能整合關鍵點或場景標注等結構化控制信號 , 將有助于在實時環境中實現更細粒度、用戶可控的編輯操作 。
在語義一致性和幾何穩定性方面 , 特別是在面對極端風格變換時 , 仍需進一步優化 。 MirageLSD 在極端風格變化下 , 可能會出現物體結構或布局被扭曲的情況 。
更多相關技術信息 , 請參閱 Decart 的技術介紹:

  • 文章鏈接:https://about.decart.ai/publications/mirage
文中視頻鏈接:https://mp.weixin.qq.com/s/yeWZCjtEBXmJaHsa8mf54w

    推薦閱讀