谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片

谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了

文章圖片


機器之心原創
編輯:杜偉
「Photoshop is dead」 , 已經成為最近 AI 創作者圈中討論最熱的話題之一 。
隨著圖像編輯與生成模型進入到了又一個集中爆發期 , 這個專業創意軟件長久以來的王座地位受到了前所未有的沖擊 。
尤其是引領這波多模態生圖技術升級潮流的谷歌 Nano Banana 以及字節 Seedream4.0、阿里 Qwen-Image-Edit-2509 , 它們涌現出了更多新的能力與玩法 , 比如 OOTD 穿搭、文字渲染、生成電影分鏡 。 在無需掌握深度修圖技能的前提下 , 這些模型使得創作者開始更多地關注「如何讓生圖結果更可控、更有創意、更具產品化價值 。 」


從技術路線來看 , 以 Nano Banana 為代表的模型通過多模態指令 , 將語言理解、視覺識別與生成控制等不同的能力融合在一起 , 實現更自然的創作體驗 。 不過 , 隨著使用場景的不斷拓展 , 這類指令驅動的編輯與生成在實際操作中也逐漸暴露出了一些不容忽視的局限 。
比如編輯任務中通常依賴的語言指令有時會描述不清 , 需要結合參考圖像以及額外的文本說明;生成任務對于具體物體表現良好 , 但處理起抽象概念(發型、妝容、紋理、打光、風格等)來往往力不從心 。 這些問題需要更優的技術解決方案 。
兩周前 , 港科大講座教授、馮諾依曼研究院院長賈佳亞團隊開源了他們的最新成果 DreamOmni2 , 專門針對當前多模態指令編輯與生成兩大方向的短板進行了系統性優化與升級 。 該系統基于 FLUX-Kontext 訓練 , 保留原有的指令編輯與文生圖能力 , 并拓展出多參考圖的生成編輯能力 , 給予了創作者更高的靈活性與可玩性 。
根據團隊的說法 , 不論是具體物體還是抽象概念的編輯與生成 , DreamOmni2 都可以取得顯著優于當前 SOTA 開源模型的表現 , 在一些方面甚至比 Nano Banana 效果都要好 。 我們來一睹效果:

基于指令的多模態編輯:讓第一張圖像(源圖像)中女子的帽子擁有與第二張圖像(參考圖像)中毛衣相同的配色方案 。

基于指令的圖像生成:圖 1 被掛在臥室的墻上 , 圖 3 中的杯子變成與圖 2 中盤子相同的材質 , 并被放置在桌子上 。
DreamOmni2 引起了海外創作者的關注與熱議 。 有人給予了高度評價 , 認為它將顛覆人們對圖像生成與編輯的認知;還有人給它冠上了「King Bomb」的稱號 , 并特別稱贊了其抽象概念理解能力 。 Youtube 還出現了大量的介紹以及使用經驗分享視頻 。


開源兩周以來 , DreamOmni2 收獲了開源社區的大量認可 , 在 GitHub 上已經積累了 1.6k 的 Star 量 。

代碼地址:https://github.com/dvlab-research/DreamOmni2
如果說 Nano Banana 開啟了多模態 AI 圖像編輯生成的新紀元 , 那么 DreamOmni2 有助于整個行業將這種改圖與生圖的能力推向深水區 , 為創作者提供了一個語義理解更全面、創意延展性更強的智能引擎 。
接下來 , 機器之心進行了一手實測 , 一起來看看效果如何 。
一手實測 , 看看強在哪里?
我們首先測試了 DreamOmni2 的基于指令的多模態編輯能力 。

體驗地址:https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
在這一任務中 , 我們給模型輸入了兩張圖片和一條提示 , 提示詞為「將圖 1 中熊貓的背景替換為圖 2 , 生成證件照(Replace the background of the panda in picture 1 with picture 2 to generate an ID photo)」 。

只見 DreamOmni2 思考了很短的時間 , 一張熊貓證件照就 P 好了 。 生成的圖片背景符合要求 , 連毛發細節都被保留得恰到好處 。 以前修一張證件照 , 得花上好幾分鐘精調細節;現在只需一句話 , DreamOmni2 就能自動完成 , 而且效果絲毫不輸專業修圖 。

看起來 , 這類換背景的任務已經難不倒 DreamOmni2 了 。 既然如此 , 我們上難度 , 嘗試讓模型將一張照片的風格轉換為另一種風格 。 這類任務對模型的理解力與生成控制力要求更高:它不僅需要識別畫面內容 , 還要掌握風格的語義特征 , 如色彩氛圍、筆觸質感等 。
同樣地 , 我們輸入兩張圖片 , 外加一句提示「使第一張圖片與第二張圖片具有相同的圖片風格(Make the first image have the same image style as the second image)」 。

DreamOmni2 的表現同樣令人驚喜 , 它不僅精準地還原了參考圖的色調與氛圍 , 還將那種風格感無縫融入原圖 。

既然 DreamOmni2 的效果如此能打 , 不禁讓人好奇 , 它與當前主流的生圖模型(比如 GPT-4o 和 Nano Banana)相比 , 究竟誰更勝一籌?要知道 , DreamOmni2 可是開源的 , 這一點本身就讓它在多模態生圖領域顯得格外特別 。
輸入如下兩張圖 , 提示為「將第一幅圖中的夾克替換為第二幅圖中的衣服(Replace the jacket in the first image with the clothes in the second image)」 。

DreamOmni2 準確識別出了主體與衣服的層級關系 , 不僅成功替換了衣服 , 還自然地保留了人物臉部特征與姿態 , 只有衣領略有出入 。

我們再來看看 GPT-4o 的結果 , 輸入同樣的圖片和提示 。 GPT-4o 很容易看出是 AI 合成的 , 尤其是人物的臉部 , 看起來很不自然 , 像是被后期磨皮過度 。 不僅如此 , 原本插兜的動作也被改動了 , 人物整體比例顯得很不協調 。

隨后 , 我們又測試了谷歌 Nano Banana , 人物的姿態與五官保持完好 , 衣物替換后的整體視覺效果自然協調 , 但衣物顏色和形態發生了變化 , logo 也消失了 。

對比下來 , 我們發現 GPT-4o 表現最差 , 而 DreamOmni2 和 Nano Banana 整體效果明顯更勝一籌 。
接著 , 我們又測試了 DreamOmni2 基于指令的多模態生成能力 。

測試地址:https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
輸入如下圖片 , 然后要求 DreamOmni2「將第一張圖片中的徽標印在第二張圖片中的物體上并放置在桌子上(The logo from the first image isprinted on the object from the second image and placed in the desk)」 。

DreamOmni2 準確理解了語義 , 不僅正確提取出第一張圖片中的徽標元素 , 還將其自然地貼合到第二張圖片中的物體表面 , 光影效果非常好 。 此外 , 模型自動識別了「桌面」這一場景語境 , 甚至桌面上出現了杯子倒影 。

我們又測試了一個更具挑戰性的任務 , 根據手繪草圖 , 讓模型生成一張姿態相同的圖片 。 這類任務考驗的不只是模型的圖像生成能力 , 更是對動作識別、空間理解與語義映射的綜合考驗 。

提示:Anime image 1 adopts the pose of image 2
DreamOmni2 在這一測試中依然表現不錯 , 它能夠準確捕捉草圖中的姿態 , 將線條信息轉化為自然的人物動作 。

最后 , 我們同樣對 DreamOmni2 與 GPT-4o、Nano Banana 的生成效果進行對比 。 輸入兩張圖片 , 要求是「將圖 2 的項鏈戴在圖 1 中的貓的脖子上」 。

DreamOmni2 生成的結果如下:

下圖左為 GPT-4o 結果 , 右為 Nano Banana 結果:

三者比較下來 , GPT-4o 的生成結果依然帶有較強的 AI 痕跡;DreamOmni2 和 Nano Banana 各有其優勢 , 比如 DreamOmni2 色彩氛圍表現力更強 , Nano Banana 畫面呈現更柔和 。
這樣的表現直接驗證了賈佳亞團隊的實驗結果:DreamOmni2 在基于指令的多模態編輯與生成任務中均實現了新的 SOTA 。

基于指令的多模態編輯定量與定性結果 。

基于指令的多模態生成的定量與定性結果 。
數據、框架與訓練三位一體 ,
打通多模態生成全鏈路
從前文多場景實測來看 , DreamOmni2 在多模態指令編輯與生成任務中展現出了更強的適應性、可控性與可玩性 。 實現這樣的躍升 , 意味著賈佳亞團隊要在數據構建、框架設計與訓練策略上做出一些不同于行業其他玩家的東西來 。
事實上 , 賈佳亞團隊確實做到了這一點 , 祭出了三階段式數據構建范式、多參考圖索引編碼優化以及 VLM 與生成模型聯合訓練等在內的一整套技術創新方案 。
由于多模態指令編輯與生成算是比較新的 AI 任務 , 其主要挑戰就在于缺乏足夠的訓練數據 。 對于編輯 , 早期(如 Omniedit)的數據構建流程往往通過生成包含指令、源圖像與目標圖像的三元組來實現 , 而無法生成以參考圖像為編輯條件的數據;對于生成 , 現有(如 UNO)的數據構建流程依賴分割檢測模型來生成參考圖像 , 難以合成涉及抽象屬性或被遮擋物體的參考數據 。
DreamOmni2 獨創了三階段式數據構建范式 , 力圖突破以往工作的數據桎梏 。
第一階段采用特征混合方案 , 通過雙分支結構同時生成源圖像與目標圖像 。 并且利用基礎模型的 T2I(文本到圖像)能力 , 創建包含具體物體與抽象屬性的高質量數據對 。 與 UNO 采用的 diptych 數據生成方法相比 , 特征混合方案表現出了三大優勢:不降圖像分辨率、不會出現因分割線偏移而導致的內容混疊、數據質量與準確性更高 。

第二階段聚焦于構建基于指令的多模態編輯數據 。 首先利用 T2I 模型生成的圖像和真實圖像來創建目標圖像;隨后利用第一階段訓練得到的特征提取模型來模擬目標圖像中的物體或屬性 , 并基于指令生成參考圖像;接著使用基于指令的編輯模型修改目標圖像中提取的物體或屬性 , 從而創建源圖像;最終形成了從參考圖像、源圖像到目標圖像的訓練對 。

到了第三階段 , 則要構建基于指令的多模態生成數據 。 首先利用第二階段中訓練的特征提取模型 , 從源圖像中提取物體 , 創建新的參考圖像;隨后將這些參考圖像與第二階段已有的參考圖像結合起來 , 最終形成由多張參考圖像、指令和目標圖像組成的訓練數據集 。

這一范式打通了從具體物體到抽象概念、從編輯到生成的全流程數據構建鏈路 , 通過特征混合、真實數據與模型自生數據的結合 , 彌補了以往多模態訓練中抽象概念稀缺以及缺乏參考圖像條件的結構性缺陷 , 降低了數據獲取成本 。
如此一來 , 賈佳亞團隊從數據層面保證了模型的語義理解與跨模態對齊能力 , 也為行業帶來了一套更高效的數據閉環標準 。
DreamOmni2 的框架設計要適應多參考圖輸入的需求 。 由于基礎模型 FLUX Kontext 無法實現這一點 , 因此需要進行針對性修改 。
在多模態指令任務中 , 為方便起見 , 通常會將參考圖像標記為「image 1」、「image 2」等 。 但是 , 僅依靠位置編碼無法準確區分不同參考圖像的索引 。
為了解決這個問題 , 賈佳亞團隊選擇將索引編碼添加到位置通道 。 索引編碼雖有助于區分參考圖像 , 但位置編碼仍然需要根據先前輸入的參考圖像的大小進行偏移 。 因此這個偏移又被添加到了位置編碼中 , 使得復制粘貼現象和參考圖像之間的像素混淆現象得到有效緩解 。
最后是進一步的訓練優化 。 當前編輯和生成模型的訓練指令通常結構化良好 , 具有固定格式 。 然而 , 現實世界中的用戶指令往往不規則或邏輯上不一致 , 這會造成一種鴻溝 , 影響到模型的理解并降低性能 。
針對這一點 , 賈佳亞團隊提出了 VLM 和生成模型聯合訓練的機制 , 讓 VLM 理解復雜的用戶指令 , 并將其輸出為訓練中使用的結構化格式 , 幫助編輯和生成模型更好地理解用戶意圖 。
與此同時 , 賈佳亞團隊使用 LoRA 方法分別訓練了編輯與生成模塊 , 使模型按照標準化指令格式執行多模態指令編輯與生成任務 。 當系統檢測到參考圖像輸入時 , LoRA 模塊會自動激活 , 從而在統一模型中無縫融合編輯與生成功能 。
【谷歌最強AI,被港科大開源超了?讓海外創作者喊出King Bomb的來了】更多技術細節請訪問原論文 。

論文地址:https://arxiv.org/pdf/2510.06679v1
作為一次底層架構的技術升級 , DreamOmni2 以系統化的思路貫通了數據、框架與訓練三個關鍵環節 , 構建起多模態生成的統一體系 。
結語
去年 12 月 , 賈佳亞團隊發布 DreamOmni , 邁出了探索圖像生成與編輯任務大一統的第一步 。 如今 DreamOmni2 的開源 , 則是這一方向的深化與延展 。
最開始 , 基于指令的編輯還只能處理簡單的添加、刪除與替換任務 , 而現在已經能夠理解復雜的語義指令 , 并利用參考圖像實現風格遷移、結構重組、抽象屬性編輯等高級任務 。
基于指令的生成也不再局限于單一物體的場景構建 , 而能更靈活地處理多物體與抽象概念的協同組合 , 實現更高層次的語義協調與創意控制 , 拓寬了 AI 視覺創作的表現空間 。
對于整個行業而言 , DreamOmni2 的系統性創新 , 讓模型的多模態理解、編輯與生成能力做到自然銜接與切換 , 為下一代 AI 視覺創作工具的智能進化提供了參考 。
此外 , DreamOmni2 是賈佳亞團隊過去兩年深耕多模態領域的一個縮影與延續 。 團隊在圖像、視頻與語音等多個方向發力 , 僅在去年就陸續推出多模態視覺語言模型 Mini-Gemini、AI 圖像與視頻生成控制工具ControlNeXt 以及 DreamOmni 等多項代表性研究;在語音方向則推出了富有表現力、長時程的語音生成模型 MGM-Omni 。
通過這些工作 , 賈佳亞團隊已逐步構建起覆蓋感知、理解與生成全鏈路的多模態技術棧 。 加之很多模型選擇向社區開放 , 進一步增強了其自身多模態技術的影響力 。
隨著以 Nano Banana、DreamOmni2 以及 Sora 2 為代表的視覺生成模型持續引爆社區 , AI 創作范式正在發生翻天覆地的變化 , 創作者可以進行更加深入的人模共創 。 連同 DreamOmni2 在內 , 賈佳亞團隊的一系列開源工作將成為推動全球多模態創作生態演進的重要力量 。

    推薦閱讀