又一國產圖像大模型開源！實測連續(xù)P圖絕了，中文渲染是短板_小米科技

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者｜江宇
編輯｜漠影
智東西12月8日報道，今日，美團正式發(fā)布并開源圖像生成模型LongCat-Image ，這是一款在圖像編輯能力上達到開源SOTA水準的6B參數模型，重點瞄準文生圖與單圖編輯兩大核心場景。
圖源：Hugging Face
從官方披露的基準測試結果來看， LongCat-Image主要對標了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流開源與閉源生圖模型，其核心優(yōu)化集中在“編輯可控性”和“中文文字渲染”兩項能力上。
而在實際體驗中，它在連續(xù)改圖、風格變化和材質細節(jié)上表現較好，但在復雜排版場景下，中文文字渲染仍存在不穩(wěn)定的情況。在涉及復雜UI設計、游戲界面生成等任務時，模型的審美也暴露出一定短板，這或許與其不具備聯網搜索能力有關。
在體驗入口方面，美團也同步提供了多種使用方式。在移動端， LongCat APP已支持文生圖與圖生圖能力；在網頁端，用戶也可通過 https://longcat.ai/ 進入圖片生成入口進行體驗。
對于開發(fā)者而言， LongCat-Image的模型權重與代碼也已同步開源：
Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Image GitHub：https://github.com/meituan-longcat/LongCat-Image
下面我們就來看看LongCat-Image的模型結構、評測成績和具體的實測表現。

一、從模型結構到評測成績， LongCat-Image把“編輯可控性”和“中文渲染”作為主攻方向從模型設計上看， LongCat-Image采用了文生圖與圖像編輯同源的統(tǒng)一架構，并通過漸進式學習策略，在僅6B參數規(guī)模下兼顧了指令遵循精準度、生圖質量與文字渲染三項能力的協同提升。
模型架構
這套訓練路線并非從零開始堆參數，而是基于文生圖中期訓練模型進行初始化，并在后續(xù)階段采用文生圖與指令編輯的多任務聯合學習機制，來避免編輯能力在后訓練階段被壓縮的問題。
在圖像編輯能力上， LongCat-Image在GEdit-Bench、ImgEdit-Bench等多個編輯類基準中取得了開源SOTA成績。
客觀基準測試性能對比
LongCat-Image通過多源數據預訓練、指令改寫策略與人工精標SFT數據的引入，使模型在面對復雜編輯要求時更不容易出現風格漂移和結構失真。
針對中文文字渲染這一長期痛點， LongCat-Image采用了覆蓋8105個規(guī)范漢字的合成字形數據進行預訓練，并在SFT階段引入真實世界文本圖片強化排版與字體泛化能力，在RL階段還引入OCR與美學雙獎勵模型共同約束，最終在ChineseWord評測中取得90.7分的成績，領先于現有開源模型。
在真實感方面， LongCat-Image通過對抗訓練和嚴格的數據篩選機制，刻意繞開AIGC“塑料感”的紋理陷阱，并在RL階段引入AIGC檢測器作為獎勵信號，反向引導模型學習真實世界的物理紋理與光影變化。
綜合評測結果顯示，在人類主觀評分（MOS）維度上， LongCat-Image在文本對齊、視覺真實度與美學質量等多個子項中的表現已接近Seedream4.0等商業(yè)模型水平。
人類主觀評分（MOS）對比
并列對比評估勝率（SBS）
在圖像編輯任務的并列對比評估（SBS）中， LongCat-Image-Edit在綜合質量與一致性兩項關鍵指標上，對NanoBanana和Qwen-Image-Edit等模型均取得較高勝率。
整體來看， LongCat-Image在圖像編輯任務上已逼近部分閉源模型水平，在文生圖基礎能力上也保持在開源頭部陣營。

二、從漫畫重繪到玩偶產品渲染，連續(xù)編輯穩(wěn)定，但中文渲染仍是短板從實際體驗過程來看， LongCat-Image在“連續(xù)指令可編輯性”上的表現是較為穩(wěn)定的，我們直接拿近期大火的《瘋狂動物城2》相關圖片進行測試，在同一角色基礎上連續(xù)進行多輪修改。
參考圖
指令：修改為像素風格作品。
指令：重繪為彩色，保留像素質感。
指令：圖片角色重繪為模仿樂高積木主題的動物。
在漫畫圖像測試中，通過像素風、彩色像素重繪以及模仿樂高積木動物主題的連續(xù)重繪指令，模型可以保持角色結構穩(wěn)定，同時完成風格與材質的多輪遷移。多次修改過程中，人物輪廓和構圖基本未出現明顯錯誤。
在此基礎上，我們也進一步嘗試了電影海報的制作場景，用同一角色圖進行主視覺海報生成與多語言標題渲染測試。
指令：電影《瘋狂動物城2》的宣傳海報，海報的主畫面是電影主角的精彩場面，主標題用藝術手寫字體“瘋狂動物城2” ，下面附上英文名“Zootopia” ，另外附上電影海報需要的其他小字，文字清晰可辨認。
在電影海報場景中，模型對參考圖的繼承能力較為穩(wěn)定，無論是角色形象還是動態(tài)姿勢，都能與原始圖片保持較高一致度，中英文標題的主標題表現也較為清晰。不過在“小字”區(qū)域，一系列細節(jié)文字仍然存在亂碼與英文混雜的問題，說明中文文字渲染在復雜排版場景下依然存在不穩(wěn)定性。
進一步測試人物檔案式中文海報時，模型可以正確渲染部分核心字段信息，但仍不可避免地出現中英文錯位與局部亂碼。
指令：生成動畫電影角色的人物檔案式宣傳海報，用文字體現以下信息：尼克?王爾德（Nick Wilde），是一只在迪士尼動畫電影《瘋狂動物城》中出場的狐貍。中文名：尼克狐尼克。外文名：Nick Wilde 。原型：赤狐。職業(yè)：從騙子到警察。搭檔：兔子警官朱迪。經典臺詞：“傷了你的小心臟？”
在產品級渲染測試中，朱迪警官玩偶在影棚光、臺燈暖光、自然光客廳與床品光照等多個現實場景下的質感表現相對穩(wěn)定。短絨毛的細節(jié)、眼睛的高光反射、沙發(fā)布料與玩偶絨毛之間的材質對比都能夠被較為準確地表現出來，整體更接近商業(yè)產品渲染效果。
相比之下，在主流模型較為擅長的游戲界面生成場景中， LongCat-Image的短板更為明顯。無論是卡牌游戲、射擊游戲，還是MOBA類第一視角界面，整體風格都偏向十多年前的UI設計審美，與當下主流游戲產品存在明顯代差。
指令：生成一個卡牌游戲界面。
指令：生成一個射擊游戲界面。
指令：生成一個英雄聯盟的游戲界面。
指令：生成一個王者榮耀第一視角的游戲界面。
從本次測試結果來看， LongCat-Image在改圖與產品渲染類任務中的可用性更高，而在游戲界面與復雜排版場景中的表現相對一般。

結語：開源圖像模型進入“可控編輯”競賽， AI生圖戰(zhàn)況升級從LongCat-Image的整體定位來看，美團并沒有試圖用更大的參數規(guī)模去正面沖擊旗艦級生圖模型，而是明確選擇在可控性、連續(xù)編輯和中文渲染這幾個方向上深挖。
【又一國產圖像大模型開源！實測連續(xù)P圖絕了，中文渲染是短板】圖像模型的競爭焦點，正在快速向“能否真正進入設計、產品、品牌等具體生產流程”的實用能力集中。

又一國產圖像大模型開源！實測連續(xù)P圖絕了，中文渲染是短板

推薦閱讀

補腎吃生蠔要吃幾個

諾基亞1200的自動發(fā)短信問題

冬季去頭屑洗發(fā)水去頭屑洗發(fā)水

水鏡先生是誰水鏡先生是何人

鍋蓋機頂盒怎么調

藥物過敏性皮炎下面一起來看一下

軟炸里脊的糊怎么做

如何用純牛奶制作成酸奶

真人快打11閃退進不去怎么辦 steam閃退進不去解決方法_網

放開那三國3神獸選擇推薦放開那三國3神獸選擇哪個好

高鐵新城什么時候拆遷，安慶市桐城市呂亭鎮(zhèn)什么時候規(guī)劃

汽車腳墊進水怎么處理

寶雞直達岳陽的高鐵站，廣西賓陽到湖南岳陽的高鐵有嗎

釣小鲅魚用什么亮片，海釣選那種亮片好請指教

開車1小時是多少油費

pptv電視機售后，PPTV55P電視操作系統(tǒng)保修時間多久