以前累到吐血造的3D世界，現在一句話就行了？deepmind

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

昨晚， AI 界又來了一波小連招。
【以前累到吐血造的3D世界，現在一句話就行了？】前有 Claude 編程更強的 Opus 4.1 ，中有谷歌突破性拉滿的 Genie 3 。奧特曼一看也坐不住了，趕緊上了個 GPT-OSS ，是 OpenAI 第一次開源。
然而， Claude 編程咱可能沒啥實感， OSS 的開源好像也沒啥誠意。畢竟不是滿血版 GPT ，現在效果好的，能本地部署的大模型有的是， OSS 也沒強到哪里去，甚至被嘲還不如國產同參數量的 GLM-4.5-Air 。。。

相比起來，谷歌 DeepMind 這個 Genie 3 ，著實是有些驚艷得嚇人了。江江這就帶大伙兒看看， Genie 3 是怎么造出一個能玩能動，有 “ 記憶力 ” 的高清 3D 世界的。
作為一個世界模型，它延續了 Genie 1 和 2 的技術和概念，能通過文字提示詞，實時生成一個高質量，可用上下左右鍵交互的物理環境。

話不多說，咱先給大伙兒看看效果。
說實話，下面這個視頻，單拿出來說是哪個游戲錄屏我都信。視角可以擺動，還能用方向鍵控制運動，小車速度快不說。甚至會順著地形顛簸，對物理世界的理解拉滿。

再看看水上開船，轉向絲滑無比，連燈籠被船頭推開的碰撞效果都特別真實。

視覺上能這么清晰順暢，是因為 Genie 3 的實時幀率達到了每秒 24 幀，分辨率能到 720p ，從這些參數上來看，真跟普通視頻沒啥區別了。
之前搞世界模型、實時生成的玩法咱也見過，不過那體驗實在是差得有點多了。經常卡頓不說，場景一致性也做得稀碎，比如眼前本來有個人，轉個頭就沒了（害怕）。甚至只是站在那里不動，場景也肉眼可見的在變。。。
來自 Dynamics Lab ，試玩鏈接已放在文末

而 Genie 3 ，前后一致性好得可怕，保證一分鐘前你在墻上刷的藍色油漆是啥樣，一分鐘后回頭來看還是啥樣。

即使用 prompt 隨時加東西，也不用擔心畫面會崩。

DeepMind 還試了試 Genie 3 和他們自己的 SIMA agent 相結合。開局一張圖和一條指令，剩下的中間 prompt 全靠 agent 編。
比如給 Genie 3 一個面包房的照片，目標是移動到面包冷卻架跟前， agent 就得知道啥是冷卻架，還得知道按方向鍵往前走。

看了這么多例子， Genie 3 對物理的理解和一致性做得這么好，如此迅速流暢，江江一開始還以為它生成的是類似 Unity 那樣完整的，遵循物理規律的 3D 場景建模。

然而，實際上它就是一幀一幀拼出來的。在單純視頻生成一致性都很難保證的情況下， Genie 3 是咋做到上躥下跳還能不崩？這實在很讓人好奇。。。
但由于自從 Genie 2 就沒有技術報告，咱只能從蛛絲馬跡里摳出來點信息，偷窺一下他們是咋施展這個魔法的。
作為 Genie 系列的第三代， Genie 3 和其它模型一樣，都是踩著前浪長大的后浪。而說起它的前輩們，其實個個也不普通，都有不少創新閃光點。
比如 Genie 1 最先開創了上上下下左左右右的玩法。根據它的論文來看，為了讓生成的內容連續可控， Genie 1 當年就是一個自回歸模型，簡單來說，每生成下一幀，都要記得回顧一下所有歷史。
自回歸示意圖，來源：自回歸視頻模型 Magi-1 技術報告

Genie 1 還額外搞了個模塊，專門關注空間和時間之間的關系，也就是時空建模。
到了訓練階段，因為大部分互聯網視頻都沒動作標簽，根本不知道視頻里按了哪個鍵，會讓人跑多遠，所以他們選擇直接用模型預測下一幀會干啥，逼模型自己學出每個動作的隱含意義，這也就是無監督潛在動作學習。
Genie 1 是生成 2D 場景

可惜， Genie 2 之后就沒有技術報告了，從結果上看，它從 2D 進化到了 3D ，能保持一致性的時長也達到了最多一分鐘。
最后到了 Genie 3 這里，已經能做到長時間、強一致性的實時生成了。從一代的論文來猜，它們背后的一些技術像自回歸、時空建模、無監督潛在動作學習等等，很可能是代代相傳的。
而從 1 到 3 ，進步這么大，其實 DeepMind 也只花了一年半。。。未來可期啊。
不過，雖然效果很不錯， DeepMind 也很誠實地表示， Genie 3 還是有很多不足的。比如環境里的行動空間還是會受到限制、對提示詞要求很高、交互也只能持續幾分鐘等等。

要是這些問題都能解決，感覺離一鍵生成 3D 風景游戲啊、在超真實的環境里訓練具身智能機器人啊、甚至小扎念念不忘的元宇宙都更近了一步。
總的來說， DeepMind 這波確實搞了個好玩的東西，比起隔壁卷參數、卷性能的大模型可有意思多了。
咱可能感覺不出來一個模型回答問題有沒有更精準，但 Genie 3 這個視覺沖擊、實時交互玩法可是實實在在的不一樣了。
原來搞游戲開發，用各種引擎軟件大伙兒累到吐血才能摳出來的游戲場景，現在用世界模型就能迅速做出來同樣的效果，這性價比簡直拉滿。
不過唯一的問題，是 DeepMind 沒開放過任何試用版本，希望他們不要在 Demo 里超神，試用里超鬼就好。。。

以前累到吐血造的3D世界，現在一句話就行了？

推薦閱讀

清算報告需要注明的內容有哪一些

惻隱之心仁之端也啥意思

無糖糖漿是什么東西

吃荷蘭豆的好處有哪些荷蘭豆多吃有什么壞處

oppoa95怎么關閉usb調試

艾爾登法環阿根廷區漲價了嗎阿根廷漲價分享

支付寶68元消費券怎么領

海棠花秋季的養殖方法

cs1.5怎么加人機器人快捷鍵

聚乙烯粉料潮濕易交聯嗎

兩個小故事，與生活攜手的文章，直面世俗一角

中國南方與北方具體分界線是怎樣的在供暖問題上，對南方不供暖的介定好象不合理

政府如何彌補市場缺陷,如何彌補市場不足

分享蘋果8p掉幀的具體處理方法。

釣2050斤的魚用什么主線和子線，釣鯉魚用幾號線組

紅瑰寶是紅木嗎