
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
共同第一作者包括:陳家棋 , 斯坦福大學訪問學者 , 復旦大學碩士 , 研究方向為 LLM Agent和大一統模型;朱小燁 , 華南理工大學本科 , 研究方向為 LLM Agent、LLM 和強化學習;王越 , 康奈爾大學本科 , 研究方向為 LLM Agent、多模態語言模型 。 指導老師:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow LiveX AI) 。
在人工智能內容創作蓬勃發展的今天 , 跨模態生成技術正在重塑藝術創作和視覺表達的邊界 。 人們對需求也日趨復雜和多樣 , 譬如將靜態照片轉化為動態視頻并疊加環境音效 , 打造沉浸式的多感官體驗 。 然而 , 現有生成系統大多受限于訓練數據的覆蓋范圍 , 或是因復雜的多模型協調而效率低下 , 難以滿足這些日益增長的創意需求 。
問題背景
圖 1 用于 Any-to-Any 生成任務的一種符號化描述方法 。
「將叢林的狂野生長與古老廢墟的神秘感融合成一個全新的場景 , 一定會令人驚嘆 , 」你的藝術家朋友沉思道 。 「如果還能把這張照片轉換成視頻 , 再疊加上鳥鳴聲和潺潺流水聲——那將營造出一種夢幻般的感官體驗 。 」這些日益復雜、跨模態的創作需求指向了一個根本性挑戰:如何設計一個統一模型 , 能夠根據自然語言指令 , 無縫處理任意輸入與輸出模態組合的生成任務?這樣的任務就是該研究關注的「Any-to-Any」生成任務 , 如圖 2 所示 。
圖 2 Any-to-Any 生成任務
當前 Any-to-Any 生成任務的方法主要分為隱式神經建模和智能體方法 。 隱式神經建模需要大量數據訓練 , 雖然能處理常見任務 , 但對新場景適應能力差且生成過程不可控;智能體方法雖然功能靈活但結構復雜 , 運行不穩定且效率較低 。 此外 , 如果人類設計師用 PS 合成圖像時 , 需要先背誦所有濾鏡組合公式才能操作 , 還有創意可言嗎?當前許多方法陷入了這種「知識依賴陷阱」——而真正的 Any-to-Any 生成 , 應該像兒童搭積木:不需要理解木塊分子結構 , 只需知道它們如何拼接 。
于是 , 研究團隊設想構建一個框架:聚焦于統一的任務表示和語言模型友好的接口 , 從而實現直接的任務指定 。 使系統能夠真正理解并執行用戶以自然語言描述的任意生成需求 , 同時保持執行過程的可控性和可干預性 。 這一設想從根本上改變了傳統生成模型的實現范式 , 為構建真正意義上的 Any-to-Any 生成系統提供了新的技術路線 。
基于符號化表征的生成任務描述框架
框架設計的核心思路在于對生成任務本質的解構:任何復雜的多模態生成過程 , 本質上都可以拆解為「做什么」(函數)、「怎么做」(參數)和「執行順序」(拓撲)三個要素 。 基于這樣的見解 , 研究提出了 -Language , 這是一種正式表示方法 , 系統地捕捉生成任務的這三個基本組成部分 。 此外 , 研究還介紹了一種無需訓練的推理引擎 , 它利用預訓練的語言模型作為基礎 , 從輸入指令和指定的關鍵函數中得出符號表示 。
圖 3 語法風格比較 。
- 基于預訓練語言模型的符號化流程推斷為使方法靈活而穩健地適應生成任務的多樣性和復雜性 , 該研究將高層次的任務描述轉化為可執行的符號化流程 。 如圖 4 所示 , 提出利用語言模型 (LM) 作為推理引擎 , 從輸入指令和指定的關鍵函數中得出符號表示 。
圖 4 利用語言模型 (LM) 生成符號化表示 。
通過三階段處理實現這一目標:組件推斷階段由語言模型解析任務描述 , 識別所需的函數 (F) 和參數 (Φ);拓撲構建階段基于輸入輸出關系 , 建立函數間的數據流連接 (T);迭代優化階段通過錯誤反饋循環 (R) 持續修正流程 , 直至滿足所有約束條件 (C) 。 圖 5 完整展示了從自然語言描述到可執行工作流程的轉換過程 , 從而實現了跨模態和跨任務類型的任意轉換 。
圖 5 推理和執行的演示 。
實驗結果
在實驗中 , 該研究構建了一個包含 120 個真實世界生成案例的數據集 , 涵蓋 12 個任務類別 , 并通過用戶研究和可執行性評估驗證了方法的有效性 。
- 跨模態生成質量評估(用戶研究)
- 復雜工作流執行測試(ComfyBench 基準)
- 消融實驗
- 對比實驗:符號化 v.s. 代理化方法
- 表示方法本質研究
- 顯式流程編輯與錯誤分析
總結
【CVPR 2025 多模態大一統:斯坦福 x 復旦提出符號主義建模生成式任務】該研究提出的符號化生成任務描述語言及配套推理引擎 , 為多模態任務提供了一種無需專門訓練的全新高效解決方案 。 通過利用預訓練大語言模型將自然語言指令直接轉化為符號化工作流 , 該方法成功實現了 12 類跨模態生成任務的靈活合成 。 實驗證明 , 該框架不僅在生成內容質量上媲美現有的先進統一模型 , 更在效率、可編輯性和可中斷性等方面展現出顯著優勢 。 符號化任務表示方法或許能為提升生成式 AI 能力提供一條經濟高效且可擴展的技術路徑 。
推薦閱讀
- 卡萊特驚艷亮相Infocomm USA 2025:煥新視覺體驗!
- 618必入產品,2025夏季焦點產品計劃重磅發布
- 2025Q1 600美元以上高端手機市場格局:蘋果穩居榜首 華為強勢回歸
- 當芯片遇上AI,TSS2025集邦咨詢半導體產業高層論壇干貨分享
- CVPR 2025 | 多模態統一學習新范式來了,數據、模型、代碼全部開源
- IGN公布2025年度五大顯卡推薦,N卡僅兩款上榜
- SIGGRAPH 2025獎項出爐:上科大、廈大入選最佳論文
- 西部數據亮相 IDCE 2025 ,全矩陣數據中心產品引領存儲“底座”革新
- 新買的華為手機,一定要完成這4步設置,手機能多用好幾年!
- 這么多年了,為什么臺式機還處于組裝(DIY)階段?
