告別AI“亂畫圖表”!港中文團隊發布首個結構化圖像生成編輯系統

告別AI“亂畫圖表”!港中文團隊發布首個結構化圖像生成編輯系統

文章圖片

告別AI“亂畫圖表”!港中文團隊發布首個結構化圖像生成編輯系統

文章圖片

告別AI“亂畫圖表”!港中文團隊發布首個結構化圖像生成編輯系統

文章圖片

告別AI“亂畫圖表”!港中文團隊發布首個結構化圖像生成編輯系統

文章圖片

告別AI“亂畫圖表”!港中文團隊發布首個結構化圖像生成編輯系統

CUHK MMLab團隊 投稿
量子位 | 公眾號 QbitAI
AI竟然畫不好一張 “準確” 的圖表?
AI生圖標桿如FLUX.1、GPT-Image , 已經能生成媲美攝影大片的自然圖像 , 卻在柱狀圖、函數圖這類結構化圖像上頻頻出錯 , 要么邏輯混亂、數據錯誤 , 要么就是標簽錯位 。
這背后是視覺生成領域的長期偏向:過度追求自然圖像的美學效果 , 卻忽視了結構化圖像對 “事實準確性” 的核心需求 。
更關鍵的是 , 現有視覺理解模型(如Qwen-VL)已能精準解析圖表數值、公式邏輯 , 而生成/編輯模型卻難以匹配這種理解能力 , 形成顯著能力鴻溝 , 嚴重阻礙了 “能看又能畫” 的統一多模態模型發展 。

對此 , 來自港中文MMLab、北航、上交等校的聯合團隊提出了首個綜合性解決方案 , 可應用于結構化視覺生成與編輯領域 。
涵蓋高質量數據集構建、輕量模型優化、專用評估基準三大模塊 , 旨在讓多模態模型不僅能看懂圖 , 還會畫準圖 。

下面是更多詳細內容 。
結構化圖像的 “三大能力剛需” 與 “一大發展瓶頸”結構化非自然圖像(圖表、公式、表格、示意圖等)雖不像風景、人像圖像那樣 “美觀” , 卻是教育、科研、辦公的核心工具 , 其生成與編輯需滿足三大剛性要求:
精準文本渲染:例如公式符號無錯漏、表格數值對齊、圖表標簽匹配; 復雜布局規劃:布局規劃遠比自然圖像復雜 , 例如柱狀圖的軸范圍適配數據、函數圖像的曲線貼合定義域、流程圖的節點連接無誤; 多模態推理:例如接到 “將餅圖轉為折線圖” 指令時 , 需先理解原餅圖的數值分布 , 再按折線圖規則重構結構 。但現有方案完全無法滿足這些需求:
數據端:主流數據集(如JourneyDB、OmniEdit)以自然圖像為主 , 缺乏 “代碼-圖像嚴格對齊” 的結構化樣本(如無法通過代碼驗證圖表數值準確性); 模型端:統一多模態模型側重自然圖像的指令跟隨 , 缺乏對細粒度結構化語義的理解(如分不清圖表的X軸與Y軸邏輯); 評估端:CLIP Score、PSNR等指標只關注像素或整體語義的相似性 , 無法衡量 “數值是否正確”“標簽是否匹配” 這類細粒度準確性 。更關鍵的是 , 視覺理解與生成的 “能力鴻溝” 持續擴大 —— 模型能 “看懂” 圖表里 “類別A的數值是5.2” , 卻 “畫不出” 一個數值準確的同類圖表 , 這成為統一多模態模型發展的關鍵卡點 。
從 “數據” 到 “基準” 的全鏈條突破為解決上述問題 , 論文構建了 “數據-模型-基準” 三位一體的解決方案 , 每一環都直擊領域痛點:
1、數據層:130萬代碼對齊的結構化樣本庫
結構化圖像的 “準確性” 可通過代碼精準定義(如Matplotlib、LaTeX的繪圖代碼) , 因此團隊采用 “代碼驅動” 思路構建數據集:
收集200萬可執行繪圖代碼 , 覆蓋數學函數、圖表、表格等6類場景 , 執行代碼生成 “代碼-圖像對”; 用GPT-5生成 “雙指令”:既生成 “視覺編輯指令”(如 “將函數y=x2的陰影區間縮至x∈[-11
”) , 也生成對應的 “代碼編輯指令”(如 “修改fill_between條件為x=-1且x=1”) , 確保編輯前后的圖像與代碼嚴格對齊; 最終篩選出130萬高質量樣本 , 并為每個樣本添加 “思維鏈標注”(如生成任務的詳細分析、編輯任務的多步推理過程) , 解決指令模糊問題 。 數據構建流程
2、模型層:輕量融合VLM , 兼顧結構化與自然圖像能力
基于FLUX.1 Kontext(支持生成與編輯統一的擴散Transformer) , 團隊設計 “輕量級VLM整合方案” , 避免傳統重投影器的訓練開銷:
引入Qwen-VL來增強對結構化圖像輸入的理解能力 , 通過 “輕量MLP連接器” 將其提取的高層語義(如圖表數值邏輯、公式符號關系)對齊到FLUX.1的特征空間 , 僅訓練少量參數即可實現能力遷移; 采用 “三階段漸進訓練”:先對齊VLM與擴散模型特征(僅訓MLP) , 再混合自然圖像與結構化數據訓練(訓MLP+骨干) , 最后用帶思維鏈的樣本提升推理能力 , 確保模型不丟失自然圖像生成能力 。 三階段漸進式訓練流程
3、基準層:StructBench與StructScore , 精準評估 “準確性”
針對現有評估指標的缺陷 , 團隊提出專用基準與指標:
StructBench 基準:包含1714個分層抽樣樣本 , 覆蓋數學、圖表、表格等6類任務 , 每個樣本附帶 “細粒度QA對”(如 “Q:柱狀圖 X 軸標簽是什么?A:類別1/2/3”) , 用于驗證事實準確性; 評估流程
StructScore 指標:通過 “原子化QA+開放回答評分” 評估 —— 將圖像屬性拆分為單個開放式問答(避免多屬性混淆) , 比較模型回答與標準答案的相似性進行賦分 。 生成任務看QA準確率 , 編輯任務則以 “0.1×視覺一致性+0.9×指令遵循” 加權(優先保證編輯有效性) , 該指標與人類偏好的皮爾遜相關系數超0.9 , 遠優于傳統指標 。 皮爾遜相關系數對比
顯著縮小 “理解-生成” 鴻溝研究人員將15個主流開源閉源模型進行對比 , 實驗結果如下所示 。


由此可見 , 本方案展現出明顯優勢:
閉源仍領先 , 但整體仍不令人滿意:無論生成還是編輯 , 最佳模型的事實準確率約在“對半”附近 , 結構化視覺仍有大量提升空間; 數據比架構更關鍵:不同開源范式(擴散/自回歸/離散擴散)與不同視覺編碼器并無一方法“通吃”;高質量、嚴格對齊、含推理標注的數據是決定性因素; 推理能力關鍵:在復雜任務(如圖表類型轉換)上尤為明顯;給多種模型接入相同的“顯式推理軌跡”也能持續提升 , 顯示“擴展推理算力”對結構化生成/編輯至關重要 。
而本項研究不單單是為了解決 “AI畫圖表” 的問題 , 還能夠推動統一多模態模型發展:
填補領域空白:首次系統梳理結構化視覺生成的核心需求 , 構建首個全鏈條解決方案 , 讓社區關注這一被忽視的重要方向; 突破能力瓶頸:通過 “理解-生成” 的能力對齊 , 為統一多模態模型(既能看又能畫、既能解析又能創作)提供關鍵技術支撐; 落地實際需求:為教育領域自動生成數學圖像、科研領域繪制實驗圖表、辦公領域編輯表格等場景 , 提供 “準確可靠” 的AI工具 。研究團隊希望為構化視覺生成領域打下第一塊系統性基石 , 并期待更多研究者關注這一方向 , 共同推動多模態AI向 “精準理解、可靠生成” 邁進 。
因為當AI能精準生成一張數值無誤的圖表、一筆不錯的數學公式時 , 它才真正從 “美化工具” 走向 “生產力工具” 。
論文鏈接:https://arxiv.org/pdf/2510.05091項目鏈接:https://structvisuals.github.io/GitHub鏈接:https://github.com/zhuole1025/Structured-Visuals
— 完 —
量子位 QbitAI
【告別AI“亂畫圖表”!港中文團隊發布首個結構化圖像生成編輯系統】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀