
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
廈門大學和騰訊合作的最新論文《FlashWorld: High-quality 3D Scene Generation within Seconds》獲得了海內外的廣泛關注 , 在當日 Huggingface Daily Paper 榜單位列第一 , 并在 X 上獲得 AK、Midjourney 創始人、SuperSplat 創始人等 AI 大佬點贊轉發 。
FlashWorld 不僅將三維場景的生成在單卡上做到了 5~10 秒(相比之前方法提速百倍) , 更統一支持了單張圖片或文本輸入 , 生成的場景可以在網頁用戶端實時渲染 , 同時質量還勝過其他同類閉源模型 。
主頁 :https://github.com/imlixinyang/FlashWorld-Project-Page Github:https://github.com/imlixinyang/FlashWorld Huggingface Demo:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark 論文:https://arxiv.org/pdf/2510.13678目前 , 作者們還提供了 Huggingface 上的免費 Demo 可以試玩 。 我們迫不及待地進行了嘗試 , 并且在同一個輸入下與 WorldLabs 的 Marble 和前兩天發布的 RTFM 模型比較了一下:
從上至下:FlashWorld , Marble , RTFM
可以看到 FlashWorld 在預設軌跡下可以產生非常穩定、完整且高質量的渲染結果 , 生成速度比 Marble 的快速模式快 5 倍 , 而且完全通過前端渲染 , 不需要像 RTFM 一樣需要等待連接后端 GPU 才能使用 。
這是怎么做到的呢?
FlashWorld 動機
雖然現在視頻模型成為了世界模型的主流 , 但其負載大的特點難以讓每個人都能在自己的設備上進行體驗 。 因此 , FlashWorld 選擇了基于 3DGS 為場景輸出形式的技術路線 , 這也是為什么 FlashWorld 生成的結果可以在本地網頁端實時渲染 。
在傳統生成 3DGS 場景的方法中 , 大約分為了兩類:
一種是以多視角為中心的方案 , 代表方法為 CAT3D , Wonderland 等 。 它們使用了先通過擴散模型生成多視角圖像或視頻 , 再通過三維重建得到 3DGS 的兩步框架 。 然而 , 因為使用的擴散模型往往會生成視角不一致的結果 , 這類方案容易產生雜亂的紋理細節 。
另一種則為以三維為中心的方案 , 代表方法為 Director3D , DiffusionGS 等 。 它們把 3DGS 作為中介 , 直接用于多視角的去噪流程中 。 但因為場景數據相機標注往往不夠準確以及模型知識不夠強的問題 , 這類方案容易產生模糊的渲染效果 。
FlashWorld 的核心 , 簡而言之 , 就是用把 以多視角為中心的教師模型 通過蒸餾損失提升 以三維為中心的學生模型 的視覺質量 , 這樣既保證了理論上的多視角一致性 , 又不斷促使模型接近真實場景的圖像質量 , 順帶地 , 還極大減少了去噪步數 。
視頻為單圖到三維場景生成效果 , 從上到下依次為同一個網絡架構在 MV 模式、3D 模式 , 以及 FlashWorld 提出的跨模式蒸餾結果 。
FlashWorld 方法
FlashWorld 包含了兩個訓練流程:
1. 雙模式預訓練:基于視頻擴散先驗 , 訓練一個同時支持 以多視角為中心(MV)/ 以三維為中心(3D) 雙模式輸出的多視圖擴散模型 。
2. 跨模式后訓練:以 MV 模式為教師、3D 模式為學生 , 進行分布匹配蒸餾 , 兼顧高保真與 3D 一致 。
FlashWorld 還利用了分布匹配蒸餾不需要 Ground Truth 的特性 , 將隨機的圖像、文本和軌跡組合成分布外的輸入進行訓練 , 進一步提升學生模型對各種場景、風格、軌跡的泛化能力 。
實驗效果
FlashWorld 在各種任務上進行了充分全面的實驗和對比 。 包括:
圖生三維場景(最上一行為 FlashWorld 結果):
FlashWorld 竟然成功地生成出了整齊的柵欄(左上) , 這在以往的工作中幾乎是不可能的 。
文生三維場景(最上一行為 FlashWorld 結果):
FlashWorld 對于毛發這些細粒度的細節也有著非常好的生成能力 , 這在密集視角的重建中可能都是非常困難的問題 , 而 FlashWorld 竟然只需要輸入文本 。
Feifei Li 團隊 WorldScore Benchmark(最左列為 FlashWorld 結果):
可以看到 , FlashWorld 對于場景風格、語義和三維性也保持得非常好 。
文生三維場景定性指標:
FlashWorld 在該 Benchmark 下以最快的速度領先與其他方法 。
WorldScore 定性指標
FlashWorld 在該 Benchmark 下以最快的速度下獲得了最高的平均分 。
FlashWorld 還可以在只需要 RGB 監督的情況下自然學到深度信息:
對卡通風格的場景也手到擒來(文內所有圖均為 3DGS 渲染結果):
快速體驗
FlashWorld 還開源了基于 SparkJS 的交互式 Demo , 并可以在 Huggingface Spaces 上進行免費體驗 。
體驗地址:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark
【世界模型可單GPU秒級生成?騰訊開源FlashWorld,效果驚艷】
推薦閱讀
- 剛剛,智源悟界·Emu3.5登場,原生具備世界建模能力
- 超越CLIP等,多模態圖片檢索的增強視覺語言大模型預訓練
- 全新Hybrid-MoE架構用于增強通用大模型低資源代碼能力
- 扔掉人工公式:快手EMER框架,用自進化的模型重構短視頻推薦排序
- Adobe推自家最強圖像生成模型!原生400萬像素,還能集成第三方模型
- 剛剛,Cursor 2.0攜自研模型Composer強勢登場,不再只做「殼」
- MiniMax 核心技術高管鐘怡然被曝半年前已離職,大模型行業人才流動加速
- 近500頁史上最全擴散模型修煉寶典,宋飏等人一書覆蓋三大主流視角
- 吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方
- 亞馬遜云科技Amazon Bedrock上線Amazon Nova多模態嵌入模型
