剛剛，千問App把谷歌和OpenAI的「付費絕活」塞進了手機，還免費

2026-01-12 dram 三星電子

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：Panda、冷貓
千問 App ，大家都用上了吧？
這個被阿里委以重任的 AI 應用，今天迎來了一波史詩級更新：正式接入了阿里最強的兩大視覺模型 —— Qwen-Image 和 Wan 2.5 。

在 Hugging Face 等開源社區， Qwen-Image 系列模型長期霸榜，被全球開發者玩出了花；而 Wan 2.5 則是業內少有、具備「原生音畫同步」能力的視頻生成新貴。
但過去，想用上這些 SOTA 模型，你得會跑代碼、部署 ComfyUI ，或者苦等海外大廠的內測資格。
今天，門檻消失了。
千問 App 將這兩大頂流模型深度整合，讓普通用戶在手機上也能擁有一座「掌上影像工作室」。
我們第一時間實測了這項更新，結果發現：它不僅「能打」，甚至在某些體驗上，比那些收費的「天花板」選手還要香。
Qwen-Image
一句話無痕修圖
如果說文生圖已經卷到了「紅?！?，那么精準的圖像編輯則是 2025 年各家大模型爭奪的真正高地。
在這一領域，谷歌 DeepMind 最近發布的 Nano Banana Pro 憑借強大的邏輯推理能力到處刷屏：它能理解復雜的空間關系，甚至能像設計師一樣思考構圖。
如果你以為這種「帶腦子畫畫」的能力只存在于谷歌的實驗室里，那可就錯了。在千問 App 實測 Qwen-Image 后，我們發現國產模型在「視覺邏輯」上的理解力同樣毫不遜色。
強大的視覺邏輯理解
過去大部分 AI 繪圖模型都是「右腦發達，左腦簡單」：畫風唯美，但一遇到「在左邊的桌子上放立方體」這種邏輯指令，往往就會翻車。
而 Qwen-Image 的核心突破在于，它不僅是在生成像素，更是在理解幾何與空間。它能像 Nano Banana Pro 一樣，識別畫面中的線條、透視和物體關系，并在原有基礎上進行符合物理規律的修改。
比如說，圖像編輯模型的老大難問題：家居擺放。
根據我們以前的經驗，很多模型在房間這類三維空間的場景下表現都不盡如人意，不是搞錯物體尺寸，就是搞錯透視關系。
我們用 Qwen-Image 試一試：

提示詞：在客廳桌上添加一個空氣凈化器，并在凈化器上直接標注其尺寸（多長、多寬、多高）
從結果中已經能清晰看出 Qwen-Image 在幾何與空間理解上的實力：它不僅把空氣凈化器準確擺到了正確的位置，透視關系也處理得相當自然，連輔助線都能精準對齊到應標注的區域，整體效果十分可靠。
SOTA 的一致性保持能力
對于普通用戶來說，比視覺邏輯理解更痛的痛點是：修圖太難了。
通常情況下，你讓 AI 給照片里的人換個發型，往往連臉都換了；或者你想把兩個不同光線照片里的人 P 到一起，結果違和感極強。我們不得不通過不停地「抽卡」，才能偶然碰運氣獲得一張能用的圖像。
反觀 Qwen-Image 則在這方面展現出了極強的能力。它在圖像編輯中極大地提升了主體一致性（Identity Consistency）。
讓我們找一個高難度場景挑戰一下，將現實中實拍的寵物圖片替換到動畫電影的海報上：
【剛剛，千問App把谷歌和OpenAI的「付費絕活」塞進了手機，還免費】

提示詞：將參考圖 1 中的主體角色替換為參考圖 2 的寵物，保持參考圖 1 的其他元素不變，俏皮可愛，寵物特征不變
在這個場景中， Qwen-Image 的表現可以說相當驚艷。它不僅精準保留了小邊牧的外貌特征，還巧妙融入了動畫風的元素，與海報整體的光影質感融合得十分自然，生成效果令人眼前一亮、非常滿意。
相較而言， Nano Banana Pro 在這個極具挑戰性的場景下就沒有那么優秀的表現了，盡管它很細節地將原海報夏奇羊的手替換成了毛茸茸的邊牧爪，但整體觀感卻不那么和諧。

Nano Banana Pro 結果，提示詞同上。
接下來，我們繼續腦洞大開，讓劉亦菲版的真人木蘭與迪斯尼動畫版木蘭同框。
上傳兩張不同版本的木蘭圖像，利用 Qwen-Image 強大的多圖融合能力，生成一張「跨次元合影」。

提示詞：將以上兩個人物組合成一張在長安城的合影
效果非常好，模型完美保留了真人的質感和動畫的線條，同時統一了環境光影。
下面則是 Nano Banana Pro 在同樣提示詞下的結果。

Nano Banana Pro 在人物跨時空融合上仍然非常強大，穩居圖像生成頭把交椅。
整體體驗下來，我們認為 Qwen-Image 相比于頭部模型 Nano Banana Pro 仍有一定差距，但 Qwen-Image 也有自己的顯著優勢，比如其在場景一致性保持方面就遠勝 Nano Banana Pro 。更何況，它還是一個免費開源的模型。用戶可以根據自己的獨特需求對其進行魔改，從而專注增強其某些特定方向的能力，比如光影調節、角度調整、事物替換等。普通用戶也可以通過千問 App 直接使用。
Wan 2.5
一鍵直出有聲歌舞片
在很長一段時間里，我們看到的 AI 視頻都是「默片」，配音還得手動進行。 2025 年， AI 視頻生成進入了有聲紀元。當大洋彼岸的 Sora 2 和 Veo 3 還在用「原生音畫同步」定義行業新標準時，大部分普通用戶往往只能看著無聲的開源項目望洋興嘆。
但今天，這一切的門檻被打破了。
剛剛接入千問 App 的 Wan 2.5 是目前國內少有的、能讓普通用戶直接嘗試原生音畫同步的模型。
你有多久沒有在 AI 生成的視頻里又唱又跳了？（梗）

讓我們回到喜人奇妙夜的舞臺：

提示詞：圖中三個人一起跳舞，動作夸張，并唱 “技能五子棋，飛沙走石，技能五子棋，力拔山兮”
這個結果甚至能和原版《技能五子棋》拼一拼抽象程度了。
我們還能讓幾位練習生與某個著名的虛擬形象一起互動。

提示詞：幫我生成視頻：讓圖中的三個人物都邊唱rap邊跳poping舞蹈，圖片上方拿籃球的卡通形象邊用指尖轉球邊跟人物們一起唱rap ，畫面生動有趣。
值得一提的是，這個視頻的音樂，不是直接套模板拼湊出來的，也不是音頻驅動的，而是 AI 基于畫面場景自己推理生成的音樂！據我們所知，目前國內也就千問能做到這一點。
它甚至還能駕馭語言類的表演：

提示詞：一個脫口秀演員在臺上說了一個笑話，內容是「別整天說自己是單身狗，狗在你這個年紀，早 die 了」，觀眾爆笑。
千問 App 的多模態工作流
從圖到視頻一氣呵成
當今的 AI 視覺生成領域，一個值得關注的問題是「工具孤島」現象：你用 Midjourney 生成了一張絕美的圖，想讓它動起來，得保存下來上傳到 Runway；想讓它說話，還得再去買一個 HeyGen 的會員。這一套折騰下來，不僅費錢，畫質和一致性也會在不同模型的轉手中嚴重損耗。
而千問 App 的一大殺手锏在于實現了一站式工作流。
在這里，創作是流動的：你剛用 Qwen-Image 生成了一張角色圖，下一秒就能直接在同一個對話框里調用 Wan 2.5 ，讓它「活」過來。文生圖、圖像編輯、圖生視頻、視頻生音，所有頂尖模型在一個對話框里無縫串聯。
比如這里，我們讓當前大熱《瘋狂動物城》的主角出鏡，為我們示范一下。

提示詞：生成一張尼克狐尼克和朱迪兔朱迪在愛樂之城星光下，對視微笑的圖像
可以看到，在沒有提供任何參考圖像的情況下， Qwen-Image 準確地理解了角色需求，并生成了非常讓人滿意的圖像。接下來換 Wan 2.5 出場，將上圖視頻化。

提示詞：圖中兩個角色手牽手一起跳交誼舞，兔子唱歌 “city of stars ， are you shining just for me”
接下來，我們試試將前面生成的動畫木蘭與真人木蘭合影變成視頻。

提示詞：畫外音男聲 “cut” ，隨后左邊的人物對著鏡頭說：“導演，這段怎么樣？”
可以看到，聲音與人物口型甚至肢體動作都做到了相當好的同步。有趣的是， Wan 2.5 甚至還給視頻加上了字幕。不過我們也能看到一個明顯缺點：視頻沒有按照指示生成畫外音 cut ，而是讓真人木蘭自己喊出來的。
最后，《瘋狂動物城 2》的彩蛋暗示了鳥類的加入，我們決定提前「劇透」。
首先，用 Qwen-Image 合成一張憤怒的小鳥在瘋狂動物城旅行的圖片。

然后，用 Wan 2.5 將其變成一段視頻。

提示詞：鳥揮動自拍桿并說：好了，這里還有什么好玩的？
經過這一系列實測，我們不僅驚嘆于生成效果的精良 —— 無論是光影的一致性還是音畫的同步率，都達到了準商業級的水準；更感慨于操作的極致絲滑。
在千問 App 里，你不再需要像在 ComfyUI 里那樣連接復雜的節點，也不需要像在 Photoshop 里那樣精細地摳圖層。所有的創意實現，都濃縮在了一次次的自然對話之中。這種「所說即所得」或許才是 AI 創作工具進化的終極方向。
技術揭秘
好萊塢級體驗是如何煉成的？
為什么千問 App 能在手機上跑出「好萊塢級」的效果？這背后其實是阿里巴巴在視覺生成領域技術厚積薄發。
圖像編輯新高度：Qwen-Image-Edit 尤善一致性
在開源圖像生成領域，長期存在一個困境：
Flux.1：畫質佳且一致性強，但在文字渲染上稍顯吃力； Ideogram v2：文字渲染的王者，但在編輯的靈活性上略有不足；其它 Edit 模型：能修圖，但往往「修了芝麻丟了西瓜」，導致人物 ID 崩壞（即主體偏移）。而接入千問 App 的最新版 Qwen-Image-Edit ，正是為了打破困境而生。它是目前 Hugging Face 上最熱門的圖像模型之一，各種變體總下載量已突破 300 萬次。

回首看， Qwen-Image 的進化路徑非常清晰：
Qwen-Image 基礎模型：Qwen-Image 基礎模型：首發時便以「懂中文、會寫字」驚艷開源界，解決了 AI 畫不好漢字的頑疾。
Qwen-Image 在多個圖像基準上都有 SOTA 的性能表現，包括用于通用圖像生成的 GenEval、DPG 和 OneIG-Bench ，以及用于圖像編輯的 GEdit、ImgEdit 和 GSO 。此外，在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的結果表明， Qwen-Image 在文本渲染方面表現尤為出色。
Qwen-Image-Edit：引入了語義與外觀雙重編輯機制。它創新性地將輸入圖像同時輸入到 Qwen2.5-VL（實現視覺語義控制）和 VAE Encoder（實現視覺外觀控制）。這意味著它既能做 Low-level 的像素級修補（如去水印、換背景），也能做 High-level 的語義重構（如把貓變成狗，但姿態不變）。參閱報道《剛剛，阿里圖像編輯大殺器 Qwen-Image-Edit 上線，橫掃像素與語義編輯，網友：再見 PS》。 Qwen-Image-Edit-2509：相比之前，支持多圖像輸入（person+person、person+product、person+scene 等組合），并且單圖編輯的一致性（人物 ID 保持、商品或文字編輯的保真性）有顯著改善。
Qwen-Image 架構示意圖
在最新的更新中， Qwen-Image 模型重點解決了主體偏移問題。簡單來說，它給人物或物體加上了「ID 鎖」，無論你怎么換背景、換光影，臉還是那張臉，產品還是那個產品。這種工業級的一致性，是它能實現多圖融合和精準修圖的底氣。
此外，新模型還展現出了比肩 Nano Banana Pro 的幾何推理能力。它不再只是單純的像素生成，而是開始理解畫面中的透視、空間和結構，這讓它在處理室內設計、建筑草圖等專業任務時，能像人類設計師一樣遵循物理邏輯。
視頻生成新范式：Wan 2.5 強在原生多模態
如果說 Qwen-Image 贏在「全能」，那么 Wan 2.5 則勝在「原生」。
目前的視頻生成模型大多是拼湊出來的：首先生成無聲視頻，再用音頻模型配樂，最后強制對齊。這種散裝流程導致畫面和聲音經常失配，很難做到精準卡點。
Wan 2.5 的核心突破在于采用了原生多模態架構。
在同一個模型框架下，它能同時接收和處理文本、圖像、視頻和音頻信號。對模型來說，「貓貓張嘴」和「一聲喵嗚」不是兩件事，而是同一件事的兩個面。
正是基于這種統一的理解， Wan 2.5 才能實現那些高難度的「通感」操作：
對口型（Lip-sync）：因為模型知道發音與口型的對應關系，所以能讓靜態照片開口唱歌。音畫卡點：因為模型理解動作節奏與音樂節拍的內在聯系，所以能生成「邊唱邊跳」的復雜視頻。這種原生能力讓千問 App 的視頻生成告別了默片時代，真正進入了視聽一體的新階段。
將工業級視覺編輯和生成能力
放入普通用戶手掌
這次更新看似只是 App 里的幾個新功能，實則是阿里在多模態領域長期技術積累的一次集中釋放。
眾所周知，阿里近年已經構建起一個非常龐大、系統化的多模態生成模型生態。從懂語言、懂視覺的 Qwen 系列，到懂視頻、懂聲音的 Wan 系列，這個家族幾乎覆蓋了文生圖、圖像編輯、文生視頻、音畫同步等所有核心賽道。
更難得的是，無論在哪個細分領域，這些模型都穩居全球第一梯隊：Qwen-Image 長期霸榜 Hugging Face；Wan 2.5 更是不僅追平甚至在音畫同步等體驗上超越了海外閉源頂流。
過去，這些強大的能力往往分散在 GitHub 的代碼倉庫里，是極客們的專屬玩具。而今天，千問 App 將阿里最強的多模態模型深度整合在了一起。
它真正成為了多模態生成的聚合入口，一鍵為普通用戶打開了通往全能創作的「任意門」。
在這個門里，你不需要懂代碼，不需要買顯卡，只需要一點點創意，就能把腦海中的畫面變成現實，而且是有聲有色、活靈活現的現實。
文中視頻鏈接：https://mp.weixin.qq.com/s/0H_01R8UwZbJVfxWG9zNSg

推薦閱讀

上一篇：華為新開源！擴散語言模型突破32K上下文，還解鎖了「慢思考」

下一篇：前端沒死，AI APP正在返祖