螞蟻開源世界模型叫板谷歌Genie3,一張圖生成10分鐘穩定長視頻

螞蟻開源世界模型叫板谷歌Genie3,一張圖生成10分鐘穩定長視頻

文章圖片

螞蟻開源世界模型叫板谷歌Genie3,一張圖生成10分鐘穩定長視頻

智東西
作者 | 王涵
編輯 | 云鵬
智東西1月29日報道 , 今天 , 螞蟻靈波科技發布并開源了世界模型LingBot-World 。 該模型是一個專為交互式世界模型設計的開源框架 。 其核心LingBot-World-Base能夠提供高保真、可控制且邏輯一致的模擬環境 。
LingBot-World由一個可擴展數據引擎驅動 , 通過從大規模游戲環境中學習物理規律與因果關系 , 可以實現與生成世界的實時交互 。
該模型在視頻質量、動態程度、長時一致性、交互能力等關鍵指標上均逼近谷歌Genie 3 。
LingBot-World能力表
體驗地址:
https://technology.robbyant.com/lingbot-worldModel
開源地址:
Hugging Face:
https://huggingface.co/collections/robbyant/lingbot-world
魔搭社區:
https://www.modelscope.cn/collections/Robbyant/LingBot-world
Github:
https://github.com/Robbyant/lingbot-worldTech
技術報告:
https://github.com/robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf

一、近十分鐘穩定生成 , 鏡頭移開60s還能保持一致針對視頻生成中最常見的“長時漂移”問題即生成時間一長就可能出現物體變形、細節塌陷、主體消失或場景結構崩壞等現象 , LingBot-World通過多階段訓練以及并行化加速 , 實現了近10分鐘的連續穩定無損生成 , 為長序列、多步驟的復雜任務訓練提供支撐 。
一致性壓力測試 , 鏡頭最長移開60秒后返回 , 目標物體仍存在且結構一致
高動態環境下 , 鏡頭長時間移開后返回 , 車輛形態外觀仍保持一致
鏡頭長時間移開后返回 , 房屋仍存在且結構一致
交互性能上 , LingBot-World可實現約16 FPS的生成吞吐 , 并將端到端交互延遲控制在1秒以內 。 用戶可通過鍵盤或鼠標實時控制角色與相機視角 , 畫面隨指令即時反饋 。
用戶可以通過文本指令觸發環境變化與世界事件 , 例如調整天氣、切換畫面風格或生成特定事件等 , 且所有變化均可在保持場景幾何關系相對穩定的前提下完成 。

二、支持長程任務訓練 , 與場景多樣化生成為解決世界模型訓練中高質量交互數據匱乏的問題 , LingBot-World采用了混合采集策略:
一方面通過清洗大規模的網絡視頻以覆蓋多樣化的場景 , 另一方面結合游戲采集與虛幻引擎(UE)合成管線 , 從渲染層直接提取無UI干擾的純凈畫面 , 并同步記錄操作指令與相機位姿 , 為模型學習“動作如何改變環境”提供對齊的訓練信號 。
得益于此 , LingBot-World具備了良好的Zero-shot泛化能力 。 僅需輸入一張真實的城市街景照片或游戲截圖 , 模型即可生成對應的可交互視頻流 , 無需針對單一場景進行額外訓練 , 降低了在不同場景中的部署與使用成本 。
機器人穿梭在城市之間
具身智能的規模化落地還面臨一個核心挑戰 , 那就是復雜長程任務的真機訓練數據極度稀缺 。
LingBot-World憑借長時序一致性、實時交互響應 , 以及對“動作-環境變化”因果關系的理解 , 能夠在數字世界中“想象”物理世界 , 為智能體的場景理解和長程任務執行提供了一個低成本、高保真的試錯空間 。
同時 , LingBot-World還支持場景多樣化生成 , 可以改變光照、擺放位置變化等 , 此功能也有助于提升具身智能算法在真實場景中的泛化能力 。

結語:螞蟻補全物理感知拼圖螞蟻連續發布三款“靈波”系列具身領域大模型 , 其通用人工智能(AGI)戰略由此完成從數字世界向物理感知層面的關鍵延伸 , 也讓其“基礎模型 – 通用應用 – 實體交互” 的全棧技術路徑進一步清晰 。
【螞蟻開源世界模型叫板谷歌Genie3,一張圖生成10分鐘穩定長視頻】從行業視角看 , 世界模型正成為連接生成式AI與具身智能的關鍵橋梁 。 LingBot-World在長序列生成與零樣本泛化方面的能力 , 若能在實際應用中驗證 , 或可推動相關領域從有限場景訓練向開放場景適應的演進 。

    推薦閱讀