告別AI“亂畫圖表”！港中文團隊發布首個結構化圖像生成編輯系統_數學|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

CUHK MMLab團隊投稿
量子位 | 公眾號 QbitAI
AI竟然畫不好一張 “準確” 的圖表？
AI生圖標桿如FLUX.1、GPT-Image ，已經能生成媲美攝影大片的自然圖像，卻在柱狀圖、函數圖這類結構化圖像上頻頻出錯，要么邏輯混亂、數據錯誤，要么就是標簽錯位。
這背后是視覺生成領域的長期偏向：過度追求自然圖像的美學效果，卻忽視了結構化圖像對 “事實準確性” 的核心需求。
更關鍵的是，現有視覺理解模型（如Qwen-VL）已能精準解析圖表數值、公式邏輯，而生成/編輯模型卻難以匹配這種理解能力，形成顯著能力鴻溝，嚴重阻礙了 “能看又能畫” 的統一多模態模型發展。

對此，來自港中文MMLab、北航、上交等校的聯合團隊提出了首個綜合性解決方案，可應用于結構化視覺生成與編輯領域。
涵蓋高質量數據集構建、輕量模型優化、專用評估基準三大模塊，旨在讓多模態模型不僅能看懂圖，還會畫準圖。

下面是更多詳細內容。
結構化圖像的 “三大能力剛需” 與 “一大發展瓶頸”結構化非自然圖像（圖表、公式、表格、示意圖等）雖不像風景、人像圖像那樣 “美觀” ，卻是教育、科研、辦公的核心工具，其生成與編輯需滿足三大剛性要求：
精準文本渲染：例如公式符號無錯漏、表格數值對齊、圖表標簽匹配；復雜布局規劃：布局規劃遠比自然圖像復雜，例如柱狀圖的軸范圍適配數據、函數圖像的曲線貼合定義域、流程圖的節點連接無誤；多模態推理：例如接到 “將餅圖轉為折線圖” 指令時，需先理解原餅圖的數值分布，再按折線圖規則重構結構。但現有方案完全無法滿足這些需求：
數據端：主流數據集（如JourneyDB、OmniEdit）以自然圖像為主，缺乏 “代碼-圖像嚴格對齊” 的結構化樣本（如無法通過代碼驗證圖表數值準確性）；模型端：統一多模態模型側重自然圖像的指令跟隨，缺乏對細粒度結構化語義的理解（如分不清圖表的X軸與Y軸邏輯）；評估端：CLIP Score、PSNR等指標只關注像素或整體語義的相似性，無法衡量 “數值是否正確”“標簽是否匹配” 這類細粒度準確性。更關鍵的是，視覺理解與生成的 “能力鴻溝” 持續擴大 —— 模型能 “看懂” 圖表里 “類別A的數值是5.2” ，卻 “畫不出” 一個數值準確的同類圖表，這成為統一多模態模型發展的關鍵卡點。
從 “數據” 到 “基準” 的全鏈條突破為解決上述問題，論文構建了 “數據-模型-基準” 三位一體的解決方案，每一環都直擊領域痛點：
1、數據層：130萬代碼對齊的結構化樣本庫
結構化圖像的 “準確性” 可通過代碼精準定義（如Matplotlib、LaTeX的繪圖代碼），因此團隊采用 “代碼驅動” 思路構建數據集：
收集200萬可執行繪圖代碼，覆蓋數學函數、圖表、表格等6類場景，執行代碼生成 “代碼-圖像對”；用GPT-5生成 “雙指令”：既生成 “視覺編輯指令”（如 “將函數y=x2的陰影區間縮至x∈[-11
”），也生成對應的 “代碼編輯指令”（如 “修改fill_between條件為x=-1且x=1”），確保編輯前后的圖像與代碼嚴格對齊；最終篩選出130萬高質量樣本，并為每個樣本添加 “思維鏈標注”（如生成任務的詳細分析、編輯任務的多步推理過程），解決指令模糊問題。數據構建流程
2、模型層：輕量融合VLM ，兼顧結構化與自然圖像能力
基于FLUX.1 Kontext（支持生成與編輯統一的擴散Transformer），團隊設計 “輕量級VLM整合方案” ，避免傳統重投影器的訓練開銷：
引入Qwen-VL來增強對結構化圖像輸入的理解能力，通過 “輕量MLP連接器” 將其提取的高層語義（如圖表數值邏輯、公式符號關系）對齊到FLUX.1的特征空間，僅訓練少量參數即可實現能力遷移；采用 “三階段漸進訓練”：先對齊VLM與擴散模型特征（僅訓MLP），再混合自然圖像與結構化數據訓練（訓MLP+骨干），最后用帶思維鏈的樣本提升推理能力，確保模型不丟失自然圖像生成能力。三階段漸進式訓練流程
3、基準層：StructBench與StructScore ，精準評估 “準確性”
針對現有評估指標的缺陷，團隊提出專用基準與指標：
StructBench 基準：包含1714個分層抽樣樣本，覆蓋數學、圖表、表格等6類任務，每個樣本附帶 “細粒度QA對”（如 “Q：柱狀圖 X 軸標簽是什么？A：類別1/2/3”），用于驗證事實準確性；評估流程
StructScore 指標：通過 “原子化QA+開放回答評分” 評估 —— 將圖像屬性拆分為單個開放式問答（避免多屬性混淆），比較模型回答與標準答案的相似性進行賦分。生成任務看QA準確率，編輯任務則以 “0.1×視覺一致性+0.9×指令遵循” 加權（優先保證編輯有效性），該指標與人類偏好的皮爾遜相關系數超0.9 ，遠優于傳統指標。皮爾遜相關系數對比
顯著縮小 “理解-生成” 鴻溝研究人員將15個主流開源閉源模型進行對比，實驗結果如下所示。

由此可見，本方案展現出明顯優勢：
閉源仍領先，但整體仍不令人滿意：無論生成還是編輯，最佳模型的事實準確率約在“對半”附近，結構化視覺仍有大量提升空間；數據比架構更關鍵：不同開源范式（擴散/自回歸/離散擴散）與不同視覺編碼器并無一方法“通吃”；高質量、嚴格對齊、含推理標注的數據是決定性因素；推理能力關鍵：在復雜任務（如圖表類型轉換）上尤為明顯；給多種模型接入相同的“顯式推理軌跡”也能持續提升，顯示“擴展推理算力”對結構化生成/編輯至關重要。
而本項研究不單單是為了解決 “AI畫圖表” 的問題，還能夠推動統一多模態模型發展：
填補領域空白：首次系統梳理結構化視覺生成的核心需求，構建首個全鏈條解決方案，讓社區關注這一被忽視的重要方向；突破能力瓶頸：通過 “理解-生成” 的能力對齊，為統一多模態模型（既能看又能畫、既能解析又能創作）提供關鍵技術支撐；落地實際需求：為教育領域自動生成數學圖像、科研領域繪制實驗圖表、辦公領域編輯表格等場景，提供 “準確可靠” 的AI工具。研究團隊希望為構化視覺生成領域打下第一塊系統性基石，并期待更多研究者關注這一方向，共同推動多模態AI向 “精準理解、可靠生成” 邁進。
因為當AI能精準生成一張數值無誤的圖表、一筆不錯的數學公式時，它才真正從 “美化工具” 走向 “生產力工具” 。
論文鏈接：https://arxiv.org/pdf/2510.05091項目鏈接：https://structvisuals.github.io/GitHub鏈接：https://github.com/zhuole1025/Structured-Visuals
— 完 —
量子位 QbitAI
【告別AI“亂畫圖表”！港中文團隊發布首個結構化圖像生成編輯系統】關注我們，第一時間獲知前沿科技動態

告別AI“亂畫圖表”！港中文團隊發布首個結構化圖像生成編輯系統

推薦閱讀

適合在水杯上刻的句子

SX1使用的數據線是專用的,不能使用X55系列的數據線

用向向向造句三年級

永劫無間顧清寒捏臉數據晚風分享-晚風顧清寒怎么捏

鞋舌是哪個部位

iPhone系統怎么清理系統內存

tra8多少錢卡西歐tr150多少錢

鱔魚粥的做法鱔魚粥怎么做

邯鄲請一個律師起訴大概多少錢

五花肉是哪個部位的肉

怎么去了解一個公司,剛進公司怎么去了解

英國短毛貓吃老鼠嗎英國短毛貓生病吃什么

想給對方手機定位怎么定手機定位很簡單

如何成為蝦米音樂專欄作者

高職高考語文，高職高考語文跟普高語文一樣嗎

分享微博刪掉經常訪問一欄的操作方法。