剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片

剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費

文章圖片


機器之心報道
編輯:Panda、冷貓
千問 App , 大家都用上了吧?
這個被阿里委以重任的 AI 應用 , 今天迎來了一波史詩級更新:正式接入了阿里最強的兩大視覺模型 —— Qwen-Image 和 Wan 2.5 。

在 Hugging Face 等開源社區 , Qwen-Image 系列模型長期霸榜 , 被全球開發者玩出了花;而 Wan 2.5 則是業內少有、具備「原生音畫同步」能力的視頻生成新貴 。
但過去 , 想用上這些 SOTA 模型 , 你得會跑代碼、部署 ComfyUI , 或者苦等海外大廠的內測資格 。
今天 , 門檻消失了 。
千問 App 將這兩大頂流模型深度整合 , 讓普通用戶在手機上也能擁有一座「掌上影像工作室」 。
我們第一時間實測了這項更新 , 結果發現:它不僅「能打」 , 甚至在某些體驗上 , 比那些收費的「天花板」選手還要香 。
Qwen-Image
一句話無痕修圖
如果說文生圖已經卷到了「紅?!?, 那么精準的圖像編輯則是 2025 年各家大模型爭奪的真正高地 。
在這一領域 , 谷歌 DeepMind 最近發布的 Nano Banana Pro 憑借強大的邏輯推理能力到處刷屏:它能理解復雜的空間關系 , 甚至能像設計師一樣思考構圖 。
如果你以為這種「帶腦子畫畫」的能力只存在于谷歌的實驗室里 , 那可就錯了 。 在千問 App 實測 Qwen-Image 后 , 我們發現國產模型在「視覺邏輯」上的理解力同樣毫不遜色 。
強大的視覺邏輯理解
過去大部分 AI 繪圖模型都是「右腦發達 , 左腦簡單」:畫風唯美 , 但一遇到「在左邊的桌子上放立方體」這種邏輯指令 , 往往就會翻車 。
而 Qwen-Image 的核心突破在于 , 它不僅是在生成像素 , 更是在理解幾何與空間 。 它能像 Nano Banana Pro 一樣 , 識別畫面中的線條、透視和物體關系 , 并在原有基礎上進行符合物理規律的修改 。
比如說 , 圖像編輯模型的老大難問題:家居擺放 。
根據我們以前的經驗 , 很多模型在房間這類三維空間的場景下表現都不盡如人意 , 不是搞錯物體尺寸 , 就是搞錯透視關系 。
我們用 Qwen-Image 試一試:


提示詞:在客廳桌上添加一個空氣凈化器 , 并在凈化器上直接標注其尺寸(多長、多寬、多高)
從結果中已經能清晰看出 Qwen-Image 在幾何與空間理解上的實力:它不僅把空氣凈化器準確擺到了正確的位置 , 透視關系也處理得相當自然 , 連輔助線都能精準對齊到應標注的區域 , 整體效果十分可靠 。
SOTA 的一致性保持能力
對于普通用戶來說 , 比視覺邏輯理解更痛的痛點是:修圖太難了 。
通常情況下 , 你讓 AI 給照片里的人換個發型 , 往往連臉都換了;或者你想把兩個不同光線照片里的人 P 到一起 , 結果違和感極強 。 我們不得不通過不停地「抽卡」 , 才能偶然碰運氣獲得一張能用的圖像 。
反觀 Qwen-Image 則在這方面展現出了極強的能力 。 它在圖像編輯中極大地提升了主體一致性(Identity Consistency) 。
讓我們找一個高難度場景挑戰一下 , 將現實中實拍的寵物圖片替換到動畫電影的海報上:
【剛剛,千問App把谷歌和OpenAI的「付費絕活」塞進了手機,還免費】

提示詞:將參考圖 1 中的主體角色替換為參考圖 2 的寵物 , 保持參考圖 1 的其他元素不變 , 俏皮可愛 , 寵物特征不變
在這個場景中 , Qwen-Image 的表現可以說相當驚艷 。 它不僅精準保留了小邊牧的外貌特征 , 還巧妙融入了動畫風的元素 , 與海報整體的光影質感融合得十分自然 , 生成效果令人眼前一亮、非常滿意 。
相較而言 , Nano Banana Pro 在這個極具挑戰性的場景下就沒有那么優秀的表現了 , 盡管它很細節地將原海報夏奇羊的手替換成了毛茸茸的邊牧爪 , 但整體觀感卻不那么和諧 。

Nano Banana Pro 結果 , 提示詞同上 。
接下來 , 我們繼續腦洞大開 , 讓劉亦菲版的真人木蘭與迪斯尼動畫版木蘭同框 。
上傳兩張不同版本的木蘭圖像 , 利用 Qwen-Image 強大的多圖融合能力 , 生成一張「跨次元合影」 。


提示詞:將以上兩個人物組合成一張在長安城的合影
效果非常好 , 模型完美保留了真人的質感和動畫的線條 , 同時統一了環境光影 。
下面則是 Nano Banana Pro 在同樣提示詞下的結果 。

Nano Banana Pro 在人物跨時空融合上仍然非常強大 , 穩居圖像生成頭把交椅 。
整體體驗下來 , 我們認為 Qwen-Image 相比于頭部模型 Nano Banana Pro 仍有一定差距 , 但 Qwen-Image 也有自己的顯著優勢 , 比如其在場景一致性保持方面就遠勝 Nano Banana Pro 。 更何況 , 它還是一個免費開源的模型 。 用戶可以根據自己的獨特需求對其進行魔改 , 從而專注增強其某些特定方向的能力 , 比如光影調節、角度調整、事物替換等 。 普通用戶也可以通過千問 App 直接使用 。
Wan 2.5
一鍵直出有聲歌舞片
在很長一段時間里 , 我們看到的 AI 視頻都是「默片」 , 配音還得手動進行 。 2025 年 , AI 視頻生成進入了有聲紀元 。 當大洋彼岸的 Sora 2 和 Veo 3 還在用「原生音畫同步」定義行業新標準時 , 大部分普通用戶往往只能看著無聲的開源項目望洋興嘆 。
但今天 , 這一切的門檻被打破了 。
剛剛接入千問 App 的 Wan 2.5 是目前國內少有的、能讓普通用戶直接嘗試原生音畫同步的模型 。
你有多久沒有在 AI 生成的視頻里又唱又跳了?(梗)

讓我們回到喜人奇妙夜的舞臺:

提示詞:圖中三個人一起跳舞 , 動作夸張 , 并唱 “技能五子棋 , 飛沙走石 , 技能五子棋 , 力拔山兮”
這個結果甚至能和原版《技能五子棋》拼一拼抽象程度了 。
我們還能讓幾位練習生與某個著名的虛擬形象一起互動 。


提示詞:幫我生成視頻:讓圖中的三個人物都邊唱rap邊跳poping舞蹈 , 圖片上方拿籃球的卡通形象邊用指尖轉球邊跟人物們一起唱rap , 畫面生動有趣 。
值得一提的是 , 這個視頻的音樂 , 不是直接套模板拼湊出來的 , 也不是音頻驅動的 , 而是 AI 基于畫面場景自己推理生成的音樂!據我們所知 , 目前國內也就千問能做到這一點 。
它甚至還能駕馭語言類的表演:

提示詞:一個脫口秀演員在臺上說了一個笑話 , 內容是「別整天說自己是單身狗 , 狗在你這個年紀 , 早 die 了」 , 觀眾爆笑 。
千問 App 的多模態工作流
從圖到視頻一氣呵成
當今的 AI 視覺生成領域 , 一個值得關注的問題是「工具孤島」現象:你用 Midjourney 生成了一張絕美的圖 , 想讓它動起來 , 得保存下來上傳到 Runway;想讓它說話 , 還得再去買一個 HeyGen 的會員 。 這一套折騰下來 , 不僅費錢 , 畫質和一致性也會在不同模型的轉手中嚴重損耗 。
而千問 App 的一大殺手锏在于實現了一站式工作流 。
在這里 , 創作是流動的:你剛用 Qwen-Image 生成了一張角色圖 , 下一秒就能直接在同一個對話框里調用 Wan 2.5 , 讓它「活」過來 。 文生圖、圖像編輯、圖生視頻、視頻生音 , 所有頂尖模型在一個對話框里無縫串聯 。
比如這里 , 我們讓當前大熱《瘋狂動物城》的主角出鏡 , 為我們示范一下 。

提示詞:生成一張尼克狐尼克和朱迪兔朱迪在愛樂之城星光下 , 對視微笑的圖像
可以看到 , 在沒有提供任何參考圖像的情況下 , Qwen-Image 準確地理解了角色需求 , 并生成了非常讓人滿意的圖像 。 接下來換 Wan 2.5 出場 , 將上圖視頻化 。

提示詞:圖中兩個角色手牽手一起跳交誼舞 , 兔子唱歌 “city of stars , are you shining just for me”
接下來 , 我們試試將前面生成的動畫木蘭與真人木蘭合影變成視頻 。

提示詞:畫外音男聲 “cut” , 隨后左邊的人物對著鏡頭說:“導演 , 這段怎么樣?”
可以看到 , 聲音與人物口型甚至肢體動作都做到了相當好的同步 。 有趣的是 , Wan 2.5 甚至還給視頻加上了字幕 。 不過我們也能看到一個明顯缺點:視頻沒有按照指示生成畫外音 cut , 而是讓真人木蘭自己喊出來的 。
最后 , 《瘋狂動物城 2》的彩蛋暗示了鳥類的加入 , 我們決定提前「劇透」 。
首先 , 用 Qwen-Image 合成一張憤怒的小鳥在瘋狂動物城旅行的圖片 。

然后 , 用 Wan 2.5 將其變成一段視頻 。

提示詞:鳥揮動自拍桿并說:好了 , 這里還有什么好玩的?
經過這一系列實測 , 我們不僅驚嘆于生成效果的精良 —— 無論是光影的一致性還是音畫的同步率 , 都達到了準商業級的水準;更感慨于操作的極致絲滑 。
在千問 App 里 , 你不再需要像在 ComfyUI 里那樣連接復雜的節點 , 也不需要像在 Photoshop 里那樣精細地摳圖層 。 所有的創意實現 , 都濃縮在了一次次的自然對話之中 。 這種「所說即所得」或許才是 AI 創作工具進化的終極方向 。
技術揭秘
好萊塢級體驗是如何煉成的?
為什么千問 App 能在手機上跑出「好萊塢級」的效果?這背后其實是阿里巴巴在視覺生成領域技術厚積薄發 。
圖像編輯新高度:Qwen-Image-Edit 尤善一致性
在開源圖像生成領域 , 長期存在一個困境:
Flux.1:畫質佳且一致性強 , 但在文字渲染上稍顯吃力; Ideogram v2:文字渲染的王者 , 但在編輯的靈活性上略有不足; 其它 Edit 模型:能修圖 , 但往往「修了芝麻丟了西瓜」 , 導致人物 ID 崩壞(即主體偏移) 。而接入千問 App 的最新版 Qwen-Image-Edit , 正是為了打破困境而生 。 它是目前 Hugging Face 上最熱門的圖像模型之一 , 各種變體總下載量已突破 300 萬次 。

回首看 , Qwen-Image 的進化路徑非常清晰:
Qwen-Image 基礎模型:Qwen-Image 基礎模型:首發時便以「懂中文、會寫字」驚艷開源界 , 解決了 AI 畫不好漢字的頑疾 。
Qwen-Image 在多個圖像基準上都有 SOTA 的性能表現 , 包括用于通用圖像生成的 GenEval、DPG 和 OneIG-Bench , 以及用于圖像編輯的 GEdit、ImgEdit 和 GSO 。 此外 , 在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的結果表明 , Qwen-Image 在文本渲染方面表現尤為出色 。
Qwen-Image-Edit:引入了語義與外觀雙重編輯機制 。 它創新性地將輸入圖像同時輸入到 Qwen2.5-VL(實現視覺語義控制)和 VAE Encoder(實現視覺外觀控制) 。 這意味著它既能做 Low-level 的像素級修補(如去水印、換背景) , 也能做 High-level 的語義重構(如把貓變成狗 , 但姿態不變) 。 參閱報道《剛剛 , 阿里圖像編輯大殺器 Qwen-Image-Edit 上線 , 橫掃像素與語義編輯 , 網友:再見 PS》 。 Qwen-Image-Edit-2509:相比之前 , 支持多圖像輸入(person+person、person+product、person+scene 等組合) , 并且單圖編輯的一致性(人物 ID 保持、商品或文字編輯的保真性)有顯著改善 。
Qwen-Image 架構示意圖
在最新的更新中 , Qwen-Image 模型重點解決了主體偏移問題 。 簡單來說 , 它給人物或物體加上了「ID 鎖」 , 無論你怎么換背景、換光影 , 臉還是那張臉 , 產品還是那個產品 。 這種工業級的一致性 , 是它能實現多圖融合和精準修圖的底氣 。
此外 , 新模型還展現出了比肩 Nano Banana Pro 的幾何推理能力 。 它不再只是單純的像素生成 , 而是開始理解畫面中的透視、空間和結構 , 這讓它在處理室內設計、建筑草圖等專業任務時 , 能像人類設計師一樣遵循物理邏輯 。
視頻生成新范式:Wan 2.5 強在原生多模態
如果說 Qwen-Image 贏在「全能」 , 那么 Wan 2.5 則勝在「原生」 。
目前的視頻生成模型大多是拼湊出來的:首先生成無聲視頻 , 再用音頻模型配樂 , 最后強制對齊 。 這種散裝流程導致畫面和聲音經常失配 , 很難做到精準卡點 。
Wan 2.5 的核心突破在于采用了原生多模態架構 。
在同一個模型框架下 , 它能同時接收和處理文本、圖像、視頻和音頻信號 。 對模型來說 , 「貓貓張嘴」和「一聲喵嗚」不是兩件事 , 而是同一件事的兩個面 。
正是基于這種統一的理解 , Wan 2.5 才能實現那些高難度的「通感」操作:
對口型(Lip-sync):因為模型知道發音與口型的對應關系 , 所以能讓靜態照片開口唱歌 。 音畫卡點:因為模型理解動作節奏與音樂節拍的內在聯系 , 所以能生成「邊唱邊跳」的復雜視頻 。這種原生能力讓千問 App 的視頻生成告別了默片時代 , 真正進入了視聽一體的新階段 。
將工業級視覺編輯和生成能力
放入普通用戶手掌
這次更新看似只是 App 里的幾個新功能 , 實則是阿里在多模態領域長期技術積累的一次集中釋放 。
眾所周知 , 阿里近年已經構建起一個非常龐大、系統化的多模態生成模型生態 。 從懂語言、懂視覺的 Qwen 系列 , 到懂視頻、懂聲音的 Wan 系列 , 這個家族幾乎覆蓋了文生圖、圖像編輯、文生視頻、音畫同步等所有核心賽道 。
更難得的是 , 無論在哪個細分領域 , 這些模型都穩居全球第一梯隊:Qwen-Image 長期霸榜 Hugging Face;Wan 2.5 更是不僅追平甚至在音畫同步等體驗上超越了海外閉源頂流 。
過去 , 這些強大的能力往往分散在 GitHub 的代碼倉庫里 , 是極客們的專屬玩具 。 而今天 , 千問 App 將阿里最強的多模態模型深度整合在了一起 。
它真正成為了多模態生成的聚合入口 , 一鍵為普通用戶打開了通往全能創作的「任意門」 。
在這個門里 , 你不需要懂代碼 , 不需要買顯卡 , 只需要一點點創意 , 就能把腦海中的畫面變成現實 , 而且是有聲有色、活靈活現的現實 。
文中視頻鏈接:https://mp.weixin.qq.com/s/0H_01R8UwZbJVfxWG9zNSg

    推薦閱讀