中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考

中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考

文章圖片

中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考

文章圖片

中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考

文章圖片

中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考

文章圖片

中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考

文章圖片

中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考

文章圖片


在人類的認知過程中 , 視覺思維(Visual Thinking)扮演著不可替代的核心角色 , 這一現象貫穿于各個專業領域和日常生活的方方面面 。

圖 1:需要借助「腦補」圖像進行思考的真實世界任務 。 這些任務通常需要視覺預見性和想象力 , 僅憑基于文本的思考無法完全實現 。
生物化學家在探索新的治療途徑時 , 會在腦海中構建蛋白質的三維立體結構 , 通過視覺化的分子間相互作用來理解復雜的生化過程;法醫分析師在破解疑難案件時 , 需要在心中重建犯罪現場的空間布局 , 通過視覺推理來驗證證據之間的邏輯連接;建筑師在設計創新建筑時 , 會在腦海中不斷勾勒和修正建筑草圖 , 通過視覺想象來優化空間配置和光照效果;籃球運動員在制定戰術策略時 , 需要在腦海中構想隊友的跑位路線、防守陣型的變化以及關鍵時刻的戰術配合 , 通過視覺化的場景想象來設計最佳的進攻方案;在日常決策中 , 一般人也會通過「腦補」各種可能的場景圖像來輔助判斷和選擇 , 用腦海中自發生成的圖像作為認知媒介 。
這種視覺思維能力的獨特之處在于 , 它能夠創造概念間的獨特組合和新穎連接 , 幫助我們發現僅通過純文本推理無法獲得的洞察和創意 。 而在現代認知科學中 , 這種「深思熟慮」往往需要多模態的思維過程來支撐 。
如今 , AI 也邁出了這一步:上海交通大學、上海創智學院、復旦大學和 Generative AI Research Lab(GAIR)的團隊提出 Thinking with Generated Images , 讓大模型能夠自發生成視覺中間步驟 , 像人類一樣用「腦內圖像」進行跨模態推理 。

  • 論文鏈接:https://arxiv.org/abs/2505.22525
  • 代碼鏈接:https://github.com/GAIR-NLP/thinking-with-generated-images
  • 模型鏈接 1:https://huggingface.co/GAIR/twgi-critique-anole-7b
  • 模型鏈接 2:https://huggingface.co/GAIR/twgi-subgoal-anole-7b
突破性理念:
從「看圖像」到「腦補圖像」— 視覺思維的遞進進化
如何讓模型自發性地通過視覺進行「思考」仍屬于早期探索階段 。 此前的一些工作嘗試通過空間搜索任務(如迷宮導航)進行早期探索 , 但這些任務的局限性在于它們往往可以直接通過文本思考或「對著」圖像思考(Thinking with Images)來解決 , 而不需要真正的「腦補」圖像思考(Thinking with Generated Images) 。
Thinking with Generated Images 系統性地整理并比較了三個核心概念的本質區別及其適用任務的差異:
  • 「看」圖像(Seeing with Images):模型僅在單次前向傳播中處理用戶提供的固定圖像 , 主要適用于基礎的視覺識別任務 , 如物體檢測、圖像分類等 。 這種模式下 , 模型只是被動地「觀察」圖像內容 。 在這個過程中 , 整個 AI 的思維過程完全發生在文本模態中 , 圖像僅僅作為一個固定的先驗條件 , 無法參與到動態的推理過程中 。 這也是大多數現有的大型多模態模型(Large Multimodal Models LMMs)或視覺語言模型(Vision-Language Models VLMs)的預設模式 。
  • 「對著」圖像思考(Thinking with Images):模型能夠多次訪問或對現有圖像進行有限變換(如裁剪、旋轉、代碼執行器、OCR、圖像處理工具) , 適用于需要多步視覺推理的任務 , 如視覺問答、圖表解讀、空間推理等 。 「對著」圖像思考雖然在一定程度上改善了模型的視覺推理能力 , 但仍然受到一個核心約束:它們只能處理用戶預先提供的固定圖像或對這些圖像進行簡單變換 , 被動處理用戶提供的圖像 , 無法真正做到從零開始構建新的視覺概念 。
  • 「腦補」圖像思考(Thinking with Generated Images):模型能夠主動生成中間視覺步驟作為推理過程的一部分 , 適用于需要視覺想象、創造性設計、空間規劃、以及與物理世界環境交互感知的復雜任務 。 這種模式在需要視覺預見性(visual foresight)和創造性想象的任務上具有最大優勢 , 因為純文本推理無法充分表達這些任務所需的空間和視覺信息 。
研究團隊特別強調 , 「腦補」圖像思考在需要空間想象、動態規劃和創造性視覺構建的任務上相比于純文本推理具有根本性優勢 , 這正是人類視覺思維的核心價值所在 。

圖 2:區分「看」圖像、「對著」圖像思考、「腦補」圖像思考的例子 。
技術實現方案:
自發原生多模態長思維鏈
研究團隊創新性地提出了「原生多模態長思維過程」(the native long-multimodal thought process)這一核心技術框架實現「腦補」圖像思考 。 原生多模態長思維過程由交錯的多模態 token 組成:包括文本的詞匯或子詞(words/subwords)、視覺的圖像塊(patches)等 。
未來有更通用的基座模型后也能推廣到音頻的?。 ╢rames) , 以及其他模態領域特定的表示形式(domain-specific representations) 。 原生多模態長思維過程不僅能夠讓模型在思維過程中自然地自發生成圖像 , 還能夠原生地執行測試時擴展(test-time scaling)以獲得更好的模型能力 。 透過原生多模態長思維過程實現 Thinking with Generated Images 有四大主要優勢:
  • 跨模態原生思維能力:通過單次推理過程即可「原生」地生成多模態的 tokens , 使模型能夠自然無縫地跨模態進行「思考」 。
  • 統一生成式任務執行:通過生成式范式原生地執行多樣化的多模態任務 。
  • 自然測試時擴展機制:通過生成的「長」思維過程提供自然跨模態的測試時擴展 , 使模型能夠通過生成更長、更詳細的多模態長思維過程 , 在推理時投入更多計算來提升性能質量 。
  • 未來技術集成兼容性和可擴展性:單一模型集成的架構便于未來與強化學習等訓練后擴展技術的集成 , 簡化了訓練和推理持續擴展的復雜度 。
兩種自發原生多模態長思維鏈模式
研究團隊深入分析人類多模態長思維的認知模式 , 據此設計并提出了兩種原生多模態長思維鏈模式 , 應用于視覺生成任務上 , 最大的體現 Thinking with Generated Images 的優勢:
  • 視覺子目標分解(Vision Generation with Intermediate Visual Subgoals):視覺子目標分解模擬了人類在處理復雜視覺任務時的分而治之策略 。 面對較為復雜或多物體的視覺生成任務(如「一張沙發和一個酒杯」) , 模型首先進行整體性的分析 , 將大的視覺任務拆解成小的目標 , 分步生成沙發和酒杯的獨立圖像 , 再組合成最終結果 。 每個中間圖像都承載了特定的子目標語義 , 不僅是視覺內容的載體 , 更是推理過程中的「思維節點」 。 視覺子目標分解允許模型在處理復雜視覺生成任務時保持對細節的精確控制 , 避免了直接生成復雜圖像時可能出現的元素遺漏、比例失調或風格不一致等問題 。


圖 3:原生多模態長思維鏈在GenEval上的例子 。
  • 提出視覺假設并自我反思迭代(Vision Generation with Self-Critique):提出視覺假設并自我反思迭代體現了人類創作過程中的「草稿-修改-完善」循環機制 。 模型首先基于輸入提示生成一個初始的視覺假設圖像 , 這個假設通常包含了對任務的基本理解但可能存在各種不完善之處 。 模型隨后以文本反思形式對自己生成的圖像進行深入的多角度分析 , 包括內容完整性檢查(如「圖像缺乏雨傘」)、視覺質量評估(如「更清晰的海景化」)、語義一致性驗證(如「更清楚的展示冰淇淋的融化」)、構圖合理性判斷(如「增強圖像對比度」)等等 。 模型通過建立視覺假設、批判性分析、策略性改進的迭代過程來逐步優化生成結果 , 實現了視覺和文本模態之間的深度協同 , 形成了一個有效的自我改進反饋循環 , 顯著提升了生成圖像的質量和準確性 。


圖 4:原生多模態長思維鏈在DPG-Bench上的例子 。
自發原生多模態長思維鏈在多模態統一理解生成模型的實現
研究團隊選擇在自回歸 next-token-prediction 的多模態統一理解生成模型上開發原生多模態長思維鏈 , 這一決策基于幾個層次的技術考慮:
  • 自回歸架構與人類思維過程的天然契合性 。 人類的思維過程本質上是序列化的——我們在思考復雜問題時 , 會逐步構建想法 , 從一個概念過渡到另一個概念 , 在文本思考和視覺想象之間自然切換 。 自回歸模型通過逐 token 生成的方式 , 能夠最自然地模擬這種漸進式、序列化的思維展開過程 。
  • 統一架構的簡潔性和可擴展性優勢 。 相比于需要協調多個獨立組件的復雜系統架構 , 自回歸統一模型提供了一個優雅的解決方案 。 在這種架構下 , 文本推理、視覺生成、自我批判等所有能力都統一在同一個模型中 , 避免了多組件系統中常見的信息傳遞損失、同步協調復雜性等問題 。
  • 與現有技術生態的深度兼容性 。 當前大語言模型領域已經在自回歸架構上積累了豐富的訓練技巧、優化方法和推理技術 。 選擇這一架構使得研究團隊能夠直接繼承和利用這些成熟的技術成果 , 而不需要從零開始構建全新的技術棧 。
  • 未來發展的技術路徑一致性 。 隨著計算能力的不斷提升和算法的持續優化 , 自回歸架構展現出了強大的擴展潛力 。 選擇這一技術路徑確保了研究成果能夠與未來的技術發展趨勢保持一致 , 具備長期的技術價值 。
在確定了自回歸架構的技術路線后 , 團隊選擇 Anole 作為基礎模型 。 目前大多數模型都缺乏真正的交錯多模態生成能力 , 而這正是實現「原生多模態長思維過程」的關鍵技術瓶頸 。 Anole 相比其他多模態模型具有兩個關鍵優勢:
  • 原生交錯生成能力:Anole 直接在交錯的文本-圖像 token 上進行預訓練和后訓練 , 具備了交錯生成多模態 token 的固有能力 , 這是實現本研究目標的基礎前提 。
  • 高效的視覺表示機制:Anole 采用相對高效的圖像表示方案 , 使得基于原生多模態長思維過程的測試時擴展在合理的推理預算內成為可能 。
搭配原生多模態長思維過程解決了視覺推理的五大局限
研究團隊提出的「原生多模態長思維過程 (the native long-multimodal thought process)」這一核心技術框架實現「腦補」圖像思考 。 與現有方案對比 , 該提出方案解決了五大局限:
  • 擺脫用戶輸入依賴:過去的方法(如 OpenAI 的 o3 thinking with images)需用戶提供圖像作為推理起點 , 而原生多模態長思維過程能從零構建視覺上下文 , 讓模型在無圖場景下也能自發地做多模態思考 。
  • 超越靜態圖像處理:目前的工具增強型模型通常只能裁剪、標注或輕度編輯給定圖像;原生多模態長思維過程在推理鏈中動態生成全新的視覺假設 , 為創造性規劃與空間推演打開更大搜索空間 。
  • 端到端統一架構:無需多模型協作或外部工具鏈 , 單一模型即可完成「生成-推理-反思-迭代」的全流程 , 部署與調用更加輕量 。
  • 可擴展的測試時擴展和未來后訓練擴展:原生多模態長思維過程天然支持測試時擴展(test-time scaling) , 通過生成更長、更詳細的多模態長思維序列來提升性能 。 此外 , 該架構為未來與強化學習、自我改進等后訓練技術的集成預留了充分空間 。
  • 實際落地的應用場景:過去的相關研究往往專注于相對局限任務場景 , 如數學(幾何)題求解、迷宮導航、簡單的空間推理等 。 這些任務雖然在技術驗證上有一定價值 , 但存在一個根本性問題:它們大多可以通過純文本描述和邏輯推理來充分表達和解決 。 例如 , 迷宮問題可以用坐標和路徑描述完全編碼 , 幾何題可以通過形式化語言和邏輯步驟來求解 , 這些任務并未真正發揮視覺思維的獨特優勢 。 研究團隊專注于解決那些無法通過純文本充分表達的復雜視覺推理任務 , 實現了從「專注于能用文本充分解決的視覺任務」到「專注于必須依賴視覺想象的復雜創造性任務」的認知躍升 。
Thinking with Generated Images 帶來的能力屬于全新維度 , 可與現有技術疊加協同 。 該研究著重提升的是「內部想象-反思」的深度推理能力 , 而檢索增強、外部工具調用等技術 , 仍然在引入外部知識、擴展功能等方面具備優勢 。
未來 , 當這些能力并行疊加時 , 既能利用 Thinking with Generated Images 提出的「腦內草圖」 , 也能借助現有檢索增強、外部工具調用等技術 , 形成 1+1>2 的整體效果 。

圖 5:多模態認知領域相關工作的對比
實驗設計
為了在多模態理解生成模型上實現 Thinking with Generated Images 的自發原生多模態長思維鏈 , 研究團隊在訓練數據、訓練策略、以及推理策略上都有深入的探索 。
訓練數據
研究團隊精心設計了一套合成數據構建流程 , 專門用于訓練模型生成兩種類型的多模態長思維鏈 。 由于目前沒有現成的 LMM 模型支持多模態生成的測試時擴展 (test-time scaling) , 傳統蒸餾技術并不適用 , 團隊創新性地開發了完整的數據構建管線(如圖 6 所示) 。
數據收集三大黃金法則:
  • 高質量圖像生成提示詞:采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 頂尖模型生成復雜提示詞 , 通過規則過濾確保質量 , 并借助 Qwen3-32B 將復雜視覺任務拆解成小的目標 。
  • 高質量反思推理鏈:借助 QVQ-72B-Preview 的強大長鏈推理能力 , 對每個提示-圖像對進行準確性評估、差異識別和改進建議 , 并實現模型通過迭代分解獲得最終圖像的過程 。
  • 高質量中間視覺思維:
  • 初始生成:
  • 使用 Anole-7b(自我批判)或 Flux1-dev(子目標分解) 。
  • 精修階段:
  • Flux1-Redux 結合原始提示、首輪圖像和批判反饋進行優化 。
  • 最終生成:
  • 基于前幾輪圖像及思考過程來生成最終結果 。
最后通過 QVQ-72B-Preview 進行嚴格的質量控制 , 過濾與提示嚴重偏離的樣本 。
技術亮點解析:
  • 突破性數據架構:專門為「視覺思維」范式優化的統一數據結構 。
  • 多模型協同:充分發揮各領域頂尖模型的專長 , 構建訓練樣本 。
  • 嚴格質量把控:從提示詞到最終圖像的全流程質量控制機制 。
這一創新性的訓練策略使得 LMM 模型能夠生成端到端的多模態長思維鏈 , 為「Thinking with Generated Images」的實現奠定了堅實基礎 。 這套方法論不僅適用于當前研究 , 也將為未來多模態推理系統的開發提供重要參考 。

圖 6:數據收集流水線示例
訓練策略
在使用統一多模態模型進行視覺生成任務的訓練時 , 大多僅依賴交叉熵訓練沒有完整的考慮圖像 token 之間的關系 。
為了解決這個問題 , 研究團隊引入了視覺特征級別的重建損失 , 將生成圖像的隱狀態投影回視覺特征空間 , 并計算與 ground-truth 圖像對應特征之間的均方誤差 (MSE) 損失 。 這種設計鼓勵模型產生具有更強視覺連貫性和結構完整性的輸出 。 基于優化后損失函數 , 研究團隊設計了系統性的兩階段訓練流程:
  • 基礎能力強化:使用 JourneyDB 圖文對數據集對 Anole-7b 進行持續訓練 , 增強模型的基礎視覺生成能力 。 這一階段為后續的專門化訓練奠定了堅實的多模態基礎 。
  • 專門化微調:基于上述的合成數據集進行模型訓練 , 精細化調整兩個專門化模型:
  • TwGI-Anole-7b-Obj.:使用視覺子目標分解數據集進行微調 , 使其具備生成視覺中間子目標的能力 。
  • TwGI-Anole-7b-Crit.:使用視覺自我批判數據集進行微調 , 使其具備自我批判視覺假設的能力 。
這種分階段訓練策略確保了模型既具備扎實的基礎多模態能力 , 又能在特定的思維模式上表現出色 。
推理策略
與標準的視覺語言模型或大語言模型不同 , 統一多模態模型在進行視覺生成任務時面臨著獨特的推理挑戰 。 為了充分發揮模型的性能潛力 , 無分類器引導 (Classifier-Free Guidance CFG) 技術成為提升視覺生成性能的關鍵 。 在傳統的完整條件 (full conditions)、無條件 (unconditions) 和圖像條件 (image conditions) 基礎上 , 研究團隊增加了:
  • 「原始提示條件」(Original Prompt Conditions):確保生成過程始終與用戶的原始意圖保持一致 。
  • 「負面條件」(Negative Conditions):避免生成不當或無關的視覺內容 。
這種多條件設計的核心目標是促使中間視覺步驟更加忠實于原始意圖 , 同時避免被生成的長文本思維過度干擾 。 通過在這些條件之間進行精細化平衡 , 模型能夠:
  • 充分利用長文本思維的指導作用:從詳細的文本推理中獲得有價值的語義信息和邏輯指導 。
  • 有效過濾思維過程中的潛在噪聲:避免被長思維序列中可能存在的無關信息或錯誤推理分散注意力 。
  • 保持視覺生成的一致性和質量:確保最終輸出既符合原始提示要求 , 又體現了深度推理的成果 。
在視覺生成任務上的結果分析
研究團隊在 GenEval 和 DPGBench 兩個圖像生成基準上對 TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 進行了全面的性能評估 。
  • 視覺子目標分解模式的評估:視覺子目標分解模擬了人類在處理復雜視覺任務時的分而治之策略 。 面對較為復雜或多物體的視覺生成任務(如「一張沙發和一個酒杯」) , 模型首先進行整體性的分析 , 將大的視覺任務拆解成小的目標 , 分步生成沙發和酒杯的獨立圖像 , 再組合成最終結果 。 每個中間圖像都承載了特定的子目標語義 , 不僅是視覺內容的載體 , 更是推理過程中的「思維節點」 。 視覺子目標分解允許模型在處理復雜視覺生成任務時保持對細節的精確控制 , 避免了直接生成復雜圖像時可能出現的元素遺漏、比例失調或風格不一致等問題 。
  • 視覺自我批判模式的評估:測試 TwGI-Anole-7b-Crit. 模型是否能夠糾正其初始視覺假設(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)) , 并生成更好的圖像生成結果(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (final)) 。

圖7: 在GenEval上的表現

圖8: 在DPG-Bench上的表現
中間視覺思維生成對視覺生成任務的顯著效益
實驗結果表明 , TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 兩個基準上都始終優于基線模型 Anole-7b 。 在 GenEval 上 , TwGI-Anole-7b-Obj 在「雙對象」類別中取得了顯著提升(0.57 vs. 0.38 , 相對提升 50%) , 表明其在處理涉及多個實體的復雜提示時具備了更強的能力 。 在位置和顏色屬性對齊方面也顯示出顯著改進 , 體現了在精確空間和視覺構圖推理方面的更強能力 。
在 DPGBench 上 , TwGI-Anole-7b-Obj 在「實體」、「屬性」和「關系」類別中都取得了實質性進步 , 總體分數從 58.32 提升至 68.44(相對提升 17.3%) , 反映出其在細粒度視覺語義理解方面的增強能力 。 這些改進驗證了我們的假設:將視覺任務分解為中間子目標使得大語言模型能夠更系統地推理并生成更高質量的輸出 。
原生多模態長思維過程使模型能夠糾正和完善自身的視覺假設
視覺思維自我批判的實驗結果證明了讓模型反思和修正自身視覺輸出的有效性 。 TwGI-Anole-7b-Crit. 模型在自我批判步驟后性能顯著提升:GenEval 總分從 0.45 提升至 0.48 , DPGBench 分數從 62.83 提升至 67.14 。 這表明模型具備了內省分析生成圖像的能力——通過基于視覺反饋的文本推理鏈 , 能夠識別不匹配、幻覺或遺漏的元素 , 并隨后進行糾正 。 這種視覺反饋循環的有效性反映了一種模態間協同效應 , 其中視覺和文本模態相互迭代指導 , 形成了真正的多模態智能推理機制 。
這些結果共同驗證:在推理鏈中主動「畫草圖」或「打草稿」 , 不僅讓模型生成質量更高、更可控 , 也帶來了深度理解與糾錯能力 。
未來展望
Thinking with Generated Images 的能力未來有望推動 AI 在需要空間想象和動態規劃的領域實現突破:
  • 創造性設計:模型可逐步生成并迭代建筑草圖 , 同時用文本記錄調整理由(如「將窗戶東移以優化采光」) 。
  • 科學發現:通過生成分子結構的中間假設圖像 , 輔助生物學家驗證藥物結合路徑 。
  • 戰術規劃:讓 AI 籃球員「腦補」生成不同戰術配合的場上演示圖像 , 可視化球員跑位路線和防守破解策略 。
《孫子兵法》說:「多算勝 , 少算不勝 , 而況于無算乎?」在文本時代 , 深思靠文字組成的思維鏈;在多模態時代 , 深思就需要通過多模態內容的耦合 , 不僅要會觀察、調用工具 , 還要學會想象、反思、腦補 。 Thinking with Generated Images 正在把這種能力「寫進」模型本身 , 讓 AI 獲得人類的視覺想象力 。
  • 它不只是性能指標的上漲 , 而是推理范式的突破;
  • 它不只是會畫畫 , 而是把「畫畫」變成了思考的肌肉記憶;
  • 它不只是一次概念驗證 , 更是給未來「多模態 AGI」鋪了條高速公路 。
【中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考】當機器從「看圖說話」升級到「無圖腦補」 , 真正的多模態推理時代 , 已敲響開場鑼鼓 , 讓我們拭目以待 。

    推薦閱讀