昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

文章圖片

昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用

智東西
作者 | 李水青
編輯 | 心緣
智東西6月28日報道 , 昨日深夜 , 阿里推出多模態統一理解與生成模型Qwen VLo 。 該模型不僅能夠“看懂”世界 , 更能基于理解進行高質量的再創造 , 具有三大亮點:理解和生成更準確 , 支持開放指令編輯修改圖片 , 多語言指令支持 。
用戶即日起可以通過Qwen Chat訪問該模型(預覽版) , 比如直接發送類似“生成一張可愛貓咪的圖片”的提示來生成圖像 , 或者上傳一張貓咪的圖片并要求“給貓咪頭上加頂帽子”來修改圖像 。
Qwen VLo以一種漸進式生成方式生成圖片 。 在生成過程中 , 模型會對預測的內容不斷調整和優化 , 從而確保最終結果更加和諧一致 , 在提升視覺效果同時帶來更靈活和可控的創作體驗 。
體驗地址: https://chat.qwenlm.ai/

一、理解和生成更準確 , 支持開放指令修改圖片從最初的QwenVL到Qwen2.5 VL, 阿里本次推出的Qwen VLo在原始多模態理解與生成能力上進行了全面升級 。
以下是Qwen VLo的核心亮點:
1、更精準的內容理解與再創造
以往的多模態模型在生成過程中容易出現語義不一致的問題 , 例如將汽車誤生成其他類型的物體 , 或者無法保留原圖的關鍵結構特征 。 而Qwen VLo通過更強大的細節捕捉能力 , 能夠在生成過程中保持高度的語義一致性 。
2、支持開放指令編輯修改生成
用戶可以通過自然語言提出各種創意性指令 , 如“將這張畫風改為梵高風格”、“讓這張照片看起來像19世紀的老照片”或“給這張圖片添加一個晴朗的天空” 。 Qwen VLo能夠靈活響應這些開放性指令 , 并生成符合用戶預期的結果 。
無論是藝術風格遷移、場景重構還是細節修飾 , 模型都能應對 。 甚至一些傳統的視覺感知人物如預測深度圖、分割圖、檢測圖以及邊緣信息等也可以通過編輯指令輕松完成 。
更進一步 , 像很多更復雜的指令 , 比如一條指令中同時包含修改物體、修改文字、更換背景 , 模型也能完成 。
3、多語言指令支持
Qwen VLo支持包括中文、英文在內的多種語言指令 , 打破了語言壁壘 , 為全球用戶提供了統一且便捷的交互體驗 。

二、像人類畫師一樣精細創作 , 一句話“指哪改哪”Qwen VLo更像一個人類畫師 根據自己的理解再進行創作 , 下面是一些具體的例子 。
1、該模型能夠直接生成圖像 , 并對其進行修改 , 例如替換背景、添加主體、進行風格遷移 , 甚至可以完成基于開放指令的大幅修改 , 包括檢測和分割等視覺感知任務 。
用戶:生成一個可愛的柴犬
Qwen VLo:
用戶:背景改成草原
Qwen VLo:
用戶:給它帶上紅色帽子和黑色透明墨鏡帽子上寫著“QwenVLo”
Qwen VLo:
用戶:變成吉卜力風格
Qwen VLo:
用戶:變成3d Q版風格
Qwen VLo:
用戶:把它放到水晶球里
Qwen VLo:
用戶:桌面上擺著這個水晶球 , 生成以一個人的第一視角在公園的圓形咖啡桌上在筆記本上畫畫
Qwen VLo:
用戶:用藍色的蒙版檢測框框出圖中的筆
Qwen VLo:
用戶:用粉色的mask分割出圖中的狗狗邊緣
Qwen VLo:
2、Qwen VLo會根據自己的理解進行重新創作 , 這意味著在風格轉換和遷移方面擁有更大的發揮空間 , 比如將卡通變為寫實、將形象變成氣球等有趣的生成效果 。
用戶:變成真實照片
Qwen VLo:
用戶:背景換成埃菲爾鐵塔
Qwen VLo:
用戶:變成氣球飄到空中
Qwen VLo:
用戶:把西瓜換成榴蓮
Qwen VLo:
3、Qwen VLo在圖像與指令理解上的優勢使其能夠更好地解析復雜指令 , 一條指令中可以包含多個操作和修改 , 從而一次性完成多重任務 , 例如生成海報、組合物體等 。
Qwen VLo:
4、Qwen VLo除了能對圖像的編輯和再創作 , 還可以完成一些對已有信息的標注 , 比如檢測、分割、邊緣檢測等 。
用戶:生成擺滿水果的桌面
Qwen VLo:
用戶:預測邊緣檢測圖
Qwen VLo:
用戶:用紅色mask分割圖中香蕉的邊緣
Qwen VLo:
5、Qwen VLo可以支持多張圖像的輸入理解和生成 。 (多圖輸入的功能還沒有正式上線)
用戶:把這些洗浴用品 , 放到這個紅色的籃子里面
Qwen VLo:
6、除了圖文同時輸入的情況 , Qwen VLo也支持文本到圖像的直接生成 , 包括通用圖像和中英文海報等 。
用戶:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Qwen VLo!” made out of colorful energy
(一幅史詩級的動漫藝術作品:夜晚 , 一位巫師立于山頂 , 向黑暗的天空施展宇宙咒語 , 由彩色能量構成的“Qwen VLo!”字樣在夜空中顯現 。 )
Qwen VLo:
7、Qwen VLo支持動態長寬比的圖像生成 , 對于長寬比高達4:1 , 1:3等細長類型圖像也能輕松掌握 。 (極端長寬比圖像生成功能還沒有正式上線 。 )
用戶:動漫插畫;水彩手繪;前景是草坡 , 草坡上有個人在奔跑 , 動態感 , 然后是厚重的白云;藍色背景;顏色層次多漸變;過渡自然和諧
Qwen VLo:
8、作為統一的理解與生成模型 , Qwen VLo還可以對生成的內容進行再分析和理解 , 例如識別生成圖片中的狗和貓的品種 。
用戶:Generate a puppy and a kitten.
Qwen VLo:
用戶:What breed of cat and dog is this?
Qwen VLo:

結語:統一理解與生成 , 看圖說話再升級Qwen VLo還創新性地引入了一種全新的漸進式生成機制 , 這一機制不僅提升了生成效率 , 還適用于需要精細控制的長段落文字生成任務 。
同時 , Qwen VLo還屬于預覽階段 , 在生成的過程可能存在不符合事實、不完全和原圖一致、指令不遵循、在識別生圖和理解的意圖不夠穩定的問題 。
未來 , 模型不僅可以用文本回答問題 , 還可以用圖像來傳遞想法和含義 。 例如 , 生成示意圖、添加輔助線、標注關鍵區域等功能 , 都將為用戶提供更多元化的交流手段 。
【昨夜,阿里版GPT-4o登場,一句話精準P圖,免費可用】與此同時 , 具備輸出能力的多模態模型也為研發者提供了新的監督方式 。 通過生成任務 , 他們們可以更好地幫助模型理解世界 。

    推薦閱讀