
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
昨晚 , AI 界又來了一波小連招 。
【以前累到吐血造的3D世界,現在一句話就行了?】前有 Claude 編程更強的 Opus 4.1 , 中有谷歌突破性拉滿的 Genie 3 。 奧特曼一看也坐不住了 , 趕緊上了個 GPT-OSS , 是 OpenAI 第一次開源 。
然而 , Claude 編程咱可能沒啥實感 , OSS 的開源好像也沒啥誠意 。 畢竟不是滿血版 GPT , 現在效果好的 , 能本地部署的大模型有的是 , OSS 也沒強到哪里去 , 甚至被嘲還不如國產同參數量的 GLM-4.5-Air 。。。
相比起來 , 谷歌 DeepMind 這個 Genie 3 , 著實是有些驚艷得嚇人了 。 江江這就帶大伙兒看看 , Genie 3 是怎么造出一個能玩能動 , 有 “ 記憶力 ” 的高清 3D 世界的 。
作為一個世界模型 , 它延續了 Genie 1 和 2 的技術和概念 , 能通過文字提示詞 , 實時生成一個高質量 , 可用上下左右鍵交互的物理環境 。
話不多說 , 咱先給大伙兒看看效果 。
說實話 , 下面這個視頻 , 單拿出來說是哪個游戲錄屏我都信 。 視角可以擺動 , 還能用方向鍵控制運動 , 小車速度快不說 。 甚至會順著地形顛簸 , 對物理世界的理解拉滿 。
再看看水上開船 , 轉向絲滑無比 , 連燈籠被船頭推開的碰撞效果都特別真實 。
視覺上能這么清晰順暢 , 是因為 Genie 3 的實時幀率達到了每秒 24 幀 , 分辨率能到 720p , 從這些參數上來看 , 真跟普通視頻沒啥區別了 。
之前搞世界模型、實時生成的玩法咱也見過 , 不過那體驗實在是差得有點多了 。 經常卡頓不說 , 場景一致性也做得稀碎 , 比如眼前本來有個人 , 轉個頭就沒了( 害怕 ) 。 甚至只是站在那里不動 , 場景也肉眼可見的在變 。。。
來自 Dynamics Lab , 試玩鏈接已放在文末
而 Genie 3 , 前后一致性好得可怕 , 保證一分鐘前你在墻上刷的藍色油漆是啥樣 , 一分鐘后回頭來看還是啥樣 。
即使用 prompt 隨時加東西 , 也不用擔心畫面會崩 。
DeepMind 還試了試 Genie 3 和他們自己的 SIMA agent 相結合 。 開局一張圖和一條指令 , 剩下的中間 prompt 全靠 agent 編 。
比如給 Genie 3 一個面包房的照片 , 目標是移動到面包冷卻架跟前 , agent 就得知道啥是冷卻架 , 還得知道按方向鍵往前走 。
看了這么多例子 , Genie 3 對物理的理解和一致性做得這么好 , 如此迅速流暢 , 江江一開始還以為它生成的是類似 Unity 那樣完整的 , 遵循物理規律的 3D 場景建模 。
然而 , 實際上它就是一幀一幀拼出來的 。 在單純視頻生成一致性都很難保證的情況下 , Genie 3 是咋做到上躥下跳還能不崩?這實在很讓人好奇 。。。
但由于自從 Genie 2 就沒有技術報告 , 咱只能從蛛絲馬跡里摳出來點信息 , 偷窺一下他們是咋施展這個魔法的 。
作為 Genie 系列的第三代 , Genie 3 和其它模型一樣 , 都是踩著前浪長大的后浪 。 而說起它的前輩們 , 其實個個也不普通 , 都有不少創新閃光點 。
比如 Genie 1 最先開創了上上下下左左右右的玩法 。 根據它的論文來看 , 為了讓生成的內容連續可控 , Genie 1 當年就是一個自回歸模型 , 簡單來說 , 每生成下一幀 , 都要記得回顧一下所有歷史 。
自回歸示意圖 , 來源:自回歸視頻模型 Magi-1 技術報告
Genie 1 還額外搞了個模塊 , 專門關注空間和時間之間的關系 , 也就是時空建模 。
到了訓練階段 , 因為大部分互聯網視頻都沒動作標簽 , 根本不知道視頻里按了哪個鍵 , 會讓人跑多遠 , 所以他們選擇直接用模型預測下一幀會干啥 , 逼模型自己學出每個動作的隱含意義 , 這也就是無監督潛在動作學習 。
Genie 1 是生成 2D 場景
可惜 , Genie 2 之后就沒有技術報告了 , 從結果上看 , 它從 2D 進化到了 3D , 能保持一致性的時長也達到了最多一分鐘 。
最后到了 Genie 3 這里 , 已經能做到長時間、強一致性的實時生成了 。 從一代的論文來猜 , 它們背后的一些技術像自回歸、時空建模、無監督潛在動作學習等等 , 很可能是代代相傳的 。
而從 1 到 3 , 進步這么大 , 其實 DeepMind 也只花了一年半 。。。 未來可期啊 。
不過 , 雖然效果很不錯 , DeepMind 也很誠實地表示 , Genie 3 還是有很多不足的 。 比如環境里的行動空間還是會受到限制、對提示詞要求很高、交互也只能持續幾分鐘等等 。
要是這些問題都能解決 , 感覺離一鍵生成 3D 風景游戲啊、在超真實的環境里訓練具身智能機器人啊、甚至小扎念念不忘的元宇宙都更近了一步 。
總的來說 , DeepMind 這波確實搞了個好玩的東西 , 比起隔壁卷參數、卷性能的大模型可有意思多了 。
咱可能感覺不出來一個模型回答問題有沒有更精準 , 但 Genie 3 這個視覺沖擊、實時交互玩法可是實實在在的不一樣了 。
原來搞游戲開發 , 用各種引擎軟件大伙兒累到吐血才能摳出來的游戲場景 , 現在用世界模型就能迅速做出來同樣的效果 , 這性價比簡直拉滿 。
不過唯一的問題 , 是 DeepMind 沒開放過任何試用版本 , 希望他們不要在 Demo 里超神 , 試用里超鬼就好 。。。
推薦閱讀
- 高通聯發科旗艦Soc即將干到2500元以內:核心體驗已接近旗艦
- 百鏡出道,C位依舊:WAIC頂流Rokid是怎么做到的?
- 16+1TB版本,從4999到2600出頭!小米14能不能閉眼沖?
- 輕薄續航兼顧!曝三星Galaxy S26 Edge電池升級到4400mAh
- 對話韶音:從骨傳導先鋒到開放聆聽生態的全面布局
- 從科幻到現實:腦機接口實現意念操控iPad
- RDNA4到此為止了嗎!AMD RX 9060顯卡悄悄發布:可惜不零售
- 驍龍8 Gen5突然曝光,小米未搶下首發,友商超猛新機殺到!
- 直擊CJ2025:驍龍如何從游戲芯到全能王?
- 體驗三星 Galaxy Z Fold7:翻折進化,從優雅到強大
