
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者|江宇
編輯|漠影
智東西12月8日報道 , 今日 , 美團正式發(fā)布并開源圖像生成模型LongCat-Image , 這是一款在圖像編輯能力上達到開源SOTA水準的6B參數模型 , 重點瞄準文生圖與單圖編輯兩大核心場景 。
圖源:Hugging Face
從官方披露的基準測試結果來看 , LongCat-Image主要對標了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流開源與閉源生圖模型 , 其核心優(yōu)化集中在“編輯可控性”和“中文文字渲染”兩項能力上 。
而在實際體驗中 , 它在連續(xù)改圖、風格變化和材質細節(jié)上表現較好 , 但在復雜排版場景下 , 中文文字渲染仍存在不穩(wěn)定的情況 。 在涉及復雜UI設計、游戲界面生成等任務時 , 模型的審美也暴露出一定短板 , 這或許與其不具備聯網搜索能力有關 。
在體驗入口方面 , 美團也同步提供了多種使用方式 。 在移動端 , LongCat APP已支持文生圖與圖生圖能力;在網頁端 , 用戶也可通過 https://longcat.ai/ 進入圖片生成入口進行體驗 。
對于開發(fā)者而言 , LongCat-Image的模型權重與代碼也已同步開源:
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Image GitHub:https://github.com/meituan-longcat/LongCat-Image
下面我們就來看看LongCat-Image的模型結構、評測成績和具體的實測表現 。
一、從模型結構到評測成績 , LongCat-Image把“編輯可控性”和“中文渲染”作為主攻方向從模型設計上看 , LongCat-Image采用了文生圖與圖像編輯同源的統(tǒng)一架構 , 并通過漸進式學習策略 , 在僅6B參數規(guī)模下兼顧了指令遵循精準度、生圖質量與文字渲染三項能力的協同提升 。
模型架構
這套訓練路線并非從零開始堆參數 , 而是基于文生圖中期訓練模型進行初始化 , 并在后續(xù)階段采用文生圖與指令編輯的多任務聯合學習機制 , 來避免編輯能力在后訓練階段被壓縮的問題 。
在圖像編輯能力上 , LongCat-Image在GEdit-Bench、ImgEdit-Bench等多個編輯類基準中取得了開源SOTA成績 。
客觀基準測試性能對比
LongCat-Image通過多源數據預訓練、指令改寫策略與人工精標SFT數據的引入 , 使模型在面對復雜編輯要求時更不容易出現風格漂移和結構失真 。
針對中文文字渲染這一長期痛點 , LongCat-Image采用了覆蓋8105個規(guī)范漢字的合成字形數據進行預訓練 , 并在SFT階段引入真實世界文本圖片強化排版與字體泛化能力 , 在RL階段還引入OCR與美學雙獎勵模型共同約束 , 最終在ChineseWord評測中取得90.7分的成績 , 領先于現有開源模型 。
在真實感方面 , LongCat-Image通過對抗訓練和嚴格的數據篩選機制 , 刻意繞開AIGC“塑料感”的紋理陷阱 , 并在RL階段引入AIGC檢測器作為獎勵信號 , 反向引導模型學習真實世界的物理紋理與光影變化 。
綜合評測結果顯示 , 在人類主觀評分(MOS)維度上 , LongCat-Image在文本對齊、視覺真實度與美學質量等多個子項中的表現已接近Seedream4.0等商業(yè)模型水平 。
人類主觀評分(MOS)對比
并列對比評估勝率(SBS)
在圖像編輯任務的并列對比評估(SBS)中 , LongCat-Image-Edit在綜合質量與一致性兩項關鍵指標上 , 對NanoBanana和Qwen-Image-Edit等模型均取得較高勝率 。
整體來看 , LongCat-Image在圖像編輯任務上已逼近部分閉源模型水平 , 在文生圖基礎能力上也保持在開源頭部陣營 。
二、從漫畫重繪到玩偶產品渲染 , 連續(xù)編輯穩(wěn)定 , 但中文渲染仍是短板從實際體驗過程來看 , LongCat-Image在“連續(xù)指令可編輯性”上的表現是較為穩(wěn)定的 , 我們直接拿近期大火的《瘋狂動物城2》相關圖片進行測試 , 在同一角色基礎上連續(xù)進行多輪修改 。
參考圖
指令:修改為像素風格作品 。
指令:重繪為彩色 , 保留像素質感 。
指令:圖片角色重繪為模仿樂高積木主題的動物 。
在漫畫圖像測試中 , 通過像素風、彩色像素重繪以及模仿樂高積木動物主題的連續(xù)重繪指令 , 模型可以保持角色結構穩(wěn)定 , 同時完成風格與材質的多輪遷移 。 多次修改過程中 , 人物輪廓和構圖基本未出現明顯錯誤 。
在此基礎上 , 我們也進一步嘗試了電影海報的制作場景 , 用同一角色圖進行主視覺海報生成與多語言標題渲染測試 。
指令:電影《瘋狂動物城2》的宣傳海報 , 海報的主畫面是電影主角的精彩場面 , 主標題用藝術手寫字體“瘋狂動物城2” , 下面附上英文名“Zootopia” , 另外附上電影海報需要的其他小字 , 文字清晰可辨認 。
在電影海報場景中 , 模型對參考圖的繼承能力較為穩(wěn)定 , 無論是角色形象還是動態(tài)姿勢 , 都能與原始圖片保持較高一致度 , 中英文標題的主標題表現也較為清晰 。 不過在“小字”區(qū)域 , 一系列細節(jié)文字仍然存在亂碼與英文混雜的問題 , 說明中文文字渲染在復雜排版場景下依然存在不穩(wěn)定性 。
進一步測試人物檔案式中文海報時 , 模型可以正確渲染部分核心字段信息 , 但仍不可避免地出現中英文錯位與局部亂碼 。
指令:生成動畫電影角色的人物檔案式宣傳海報 , 用文字體現以下信息: 尼克?王爾德(Nick Wilde) , 是一只在迪士尼動畫電影《瘋狂動物城》中出場的狐貍 。中文名:尼克狐尼克 。外文名:Nick Wilde 。原型:赤狐 。職業(yè):從騙子到警察 。搭檔:兔子警官朱迪 。經典臺詞:“傷了你的小心臟?”
在產品級渲染測試中 , 朱迪警官玩偶在影棚光、臺燈暖光、自然光客廳與床品光照等多個現實場景下的質感表現相對穩(wěn)定 。 短絨毛的細節(jié)、眼睛的高光反射、沙發(fā)布料與玩偶絨毛之間的材質對比都能夠被較為準確地表現出來 , 整體更接近商業(yè)產品渲染效果 。
相比之下 , 在主流模型較為擅長的游戲界面生成場景中 , LongCat-Image的短板更為明顯 。 無論是卡牌游戲、射擊游戲 , 還是MOBA類第一視角界面 , 整體風格都偏向十多年前的UI設計審美 , 與當下主流游戲產品存在明顯代差 。
指令:生成一個卡牌游戲界面 。
指令:生成一個射擊游戲界面 。
指令:生成一個英雄聯盟的游戲界面 。
指令:生成一個王者榮耀第一視角的游戲界面 。
從本次測試結果來看 , LongCat-Image在改圖與產品渲染類任務中的可用性更高 , 而在游戲界面與復雜排版場景中的表現相對一般 。
結語:開源圖像模型進入“可控編輯”競賽 , AI生圖戰(zhàn)況升級從LongCat-Image的整體定位來看 , 美團并沒有試圖用更大的參數規(guī)模去正面沖擊旗艦級生圖模型 , 而是明確選擇在可控性、連續(xù)編輯和中文渲染這幾個方向上深挖 。
【又一國產圖像大模型開源!實測連續(xù)P圖絕了,中文渲染是短板】圖像模型的競爭焦點 , 正在快速向“能否真正進入設計、產品、品牌等具體生產流程”的實用能力集中 。
推薦閱讀
- 小米17 Ultra搭載全新徠卡1英寸主攝,告別索尼改用國產
- 明年影像旗艦繼續(xù)一英寸大底,國產 2 億像素長焦加速上新
- 12月又一款新機官宣:12月8日,現已開售
- 不玩假把式!這家國產機器人悶聲量產5000臺,連黃曉明都買了
- 誰是最佳AI圖像工具,毫無疑問Nano Banana Pro是有力競爭者
- 國產手機廠商借AI優(yōu)勢搶客 蘋果在華陷困局
- 12月又一款新機官宣:12月8日,正式開售
- 又一高管棄庫克而去!蘋果UI設計負責人轉投Meta
- TechWeb微晚報:“國產GPU第一股”摩爾線程暴漲,小米疑似入局三折疊
- OpenAI又一收購,不到4億,拿下60人團隊6萬客戶
