Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了

文章圖片

編輯:犀牛 Aeneas
【新智元導讀】當Seedance 2.0刷屏全網時 , 一匹中國黑馬已悄然沖上全球AI視頻榜第二 。 昆侖天工SkyReels-V4強勢殺入頂級牌桌 , 多模態輸入、音畫同步直出影院級大片 , 實力驚艷超群!


最近 , 全球AI圈風頭最盛的模型當屬Seedance 2.0了 。
模型一出 , 瞬間引爆全網 。
就當所有人的目光都聚焦在Seedance 2.0的狂歡與爭議上時 , 一匹黑馬已悄然殺入了全球AI榜單的頂級牌桌 。
就在剛剛 , Artificial Analysis更新了文本到視頻(含音頻)全球榜單 。
在這份由OpenAI、Google、Anthropic等頭部AI公司共同認可的權威排行榜上 , 一個來自中國的名字闖入了最前列:
昆侖天工SkyReels-V4 , 全球現役模型排名第2 , 歷史所有模型排名第4!


Artificial Analysis 榜單: https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true
在這個匯聚了Veo 3.1、Sora 2、Kling 3.0、Wan 2.6等全球頂尖選手的競技場上 , SkyReels-V4以實打實的技術硬實力 , 一舉超越了絕大多數明星產品 。
這不是一次偶然的驚艷亮相 , 而是昆侖天工在 AI 視頻大模型領域厚積薄發的一次集中爆發 。

先看效果
SkyReels-V4 到底能做什么?
空談數據 , 不如直接看能力 。
【Seedance2.0炸場后,又一中國黑馬登頂AA榜單!AI味沒了】SkyReels-V4的野心遠不止于「生成一段好看的視頻」 。
它想要做的 , 是成為全球首個同時支持多模態輸入、聯合音視頻生成、統一生成/修復/編輯任務的視頻基礎模型 。
舉幾個直觀的例子 。
比如現在最火的短劇 。 只需要兩個角色圖片 , 以及角色的臺詞即可 。

輸入SkyReels-V4后 , 它直接就生成了一段1080p、32FPS、15秒的影院級視頻 。
這個效果 , 已經基本上沒啥AI味了 。
歪果仁也沒問題 。

不得不說 , 真的很難看出是AI生成的 。
同時給多個參考圖像和音頻輸入 , 三個角色分別是一只黑貓、一只澳大利亞牧牛犬和一只棕熊 。

仔細看 , 畫面和聲音完全對得上 , 節奏卡得基準 , 嘴型都嚴絲合縫 , 挑不出毛病 。
SkyReels-V4最讓人眼前一亮的能力 , 就是讓你擁有多模態參考的創作自由 。
假設你手頭有兩張角色設計圖、一段舞蹈動作的參考視頻 , 你可以把這三者同時丟給SkyReels-V4 , 它會忠實地用兩張圖像的角色外觀 , 執行視頻中的舞蹈動作 , 配合音頻的節奏律動 , 生成一段全新的、高質量的視頻作品 。
這種跨模態的精準融合控制能力 , 在當前的視頻大模型中幾乎是獨一份 。
比如這段經典電影中男女演員隨音樂起舞的視頻 , 質感極其驚艷 。

舞蹈演員換成邊牧和英短 , 效果也是同樣自然 。
可以說 , SkyReels-V4真正做到了角色一致性、高質量動作生成、精準音畫同步、電影級的視覺呈現 , 幾乎可以直接用于商業級展示 。
首幀參考功能 , 可以讓它的多模態控制更為靈活 。
輸入以下首幀 , 我們就分別得到了喝咖啡的兵馬俑、拉小提琴的陶俑和打排球的labubu 。




運動參考功能 , 可以把跳舞的舞者一鍵換成動漫角色 , 動作絕對一致 。


另外 , SkyReels-V4的一站式全流程修復編輯功能 , 也是好用到爆 。
如果視頻中有個礙眼的水印 , 可以直接去掉 。
一句prompt , 就能去掉短劇中的特定人物 , 比如下面鏡頭中穿旗袍和穿紅裙的女演員 。
角色的衣服不滿意?直接一鍵修改 。 比如這位舉杠鈴的老人 , 白背心一鍵被變成了藍色T恤 , 畫面自然得看不出改動痕跡 。


甚至 , 你可以把整個視頻的風格從寫實一鍵切換到樂高積木風 。
古裝劇這種寫實、厚重的影像風格 , 都能瞬間變成充滿童趣和創意的視覺表達 , 而且動作、鏡頭調度和劇情節奏依然保留 , 風格遷移完成度驚人 。
也就是說 , 從此創作者再也不會被單一美術風格綁定 , 同一段內容 , 可以根據商業需求快速切換視覺語言 , 在史詩、卡通動畫、積木玩具風之間來回切換 。
這就打開了IP二次創作和品牌聯名的空間 , 讓內容的商業想象力空間暴漲 。


SkyReels-V4還能幫我們把靜態的鏡頭 , 變成電影級的推拉搖移 。
原本只是一個男人坐在原地拋著橘子 , 畫面像監控一樣靜止、沒有起伏 。
但加入鏡頭語言后 , 原本靜態的記錄畫面 , 一下子就有了呼吸感 , 被轉化為極有敘事張力和節奏設計的電影級運鏡 。


更方便的是 , 過去你需要在Premiere、AE、各種AI工具之間反復切換才能完成的工作 。
現在 , SkyReels-V4一個模型就能全部搞定了 。

三大創新打破行業天花板
SkyReels-V4 的強悍表現背后 , 是三項關鍵技術突破 。

技術報告入口: https://arxiv.org/pdf/2602.21818
第一 , 雙流 MMDiT 架構——讓音視頻真正「合為一體」 。
當前主流的視頻生成模型在處理音頻時 , 普遍采用「先生成視頻 , 再后貼音頻」的淺層融合方案 , 這種做法導致的結果就是音畫不同步、唇形對不上、音效跟畫面割裂 。
SkyReels-V4 徹底換了一種思路 。
它采用對稱雙流架構設計:視頻和音頻各有一條獨立的處理分支 , 但兩條分支共享同一個文本編碼器 , 并通過雙向跨注意力機制在整個網絡的所有層級上實現深度交互 。

簡單來說 , 視頻在生成的每一步都在「聽」音頻在做什么 , 音頻在生成的每一步都在「看」視頻在做什么——它們不是各干各的、最后拼在一起 , 而是從一開始就在互相引導、協同生長 。
為了解決音頻和視頻在時間尺度上的天然不匹配問題(視頻是一幀一幀的 , 音頻是連續波形的) , 團隊還創新性地使用了RoPE頻率縮放技術 , 將音頻的位置編碼頻率精確地調整為與視頻幀率相匹配的比例 , 實現了毫秒級的時間對齊精度 。
這就是為什么SkyReels-V4的唇形同步能做到如此的準確率——因為音視頻從生成機制的底層就是綁定的 。
第二 , 統一拼接框架——一個模型 , 包攬所有視頻操作 。
傳統的視頻AI工具鏈是碎片化的:文生視頻用一個模型 , 圖生視頻用另一個 , 視頻修復用第三個 , 風格遷移用第四個……每切換一個工具 , 都意味著上下文信息的丟失和創作流程的斷裂 。
SkyReels-V4提出了一個精巧的「通道拼接+時序拼接」雙維統一范式 。
它的核心思想是:無論你想做什么任務——文字生成視頻、圖片生成視頻、視頻延展、區域修復、風格遷移、物體移除——本質上都可以被轉化為「給定某些已知條件 , 生成未知區域」的修復問題 。
通過一組靈活的輸入組件 , 模型只需要調整掩碼配置就能在不同任務間無縫切換 。
比如文生視頻時掩碼全為0(完全從零生成) , 圖生視頻時只有首幀掩碼為1(鎖定參考圖 , 續寫后續畫面) , 視頻編輯時保留區域掩碼為1、編輯區域掩碼為0(只改你想改的部分) 。
這種設計的優雅之處在于:用戶不需要關心底層在調用哪個功能模塊 , 只需要告訴模型「我想要什么」 , 模型自己就能理解并執行 。
它讓專業級視頻創作從「工具鏈操作」變成了「意圖表達」 。
第三 , 高效生成策略——在質量和速度之間找到最優解 。
1080p分辨率、32FPS幀率、15秒時長——這個規格參數放在一年前 , 光是計算量就足以勸退大多數研究團隊 。
SkyReels-V4的工程團隊設計了一套巧妙的「低分辨率全序列 + 高分辨率關鍵幀」聯合生成策略:模型先快速生成低分辨率的完整視頻和高分辨率的關鍵幀 , 再通過專門的超分辨率和幀插值模塊重構最終的高質量視頻 。
配合自研的視頻稀疏注意力(VSA)機制 , 注意力計算成本降低了約3倍 , 讓影院級規格的視頻生成真正具備了實用價值 。

此外 , 模型還采用了多階段漸進式訓練策略——從256px的文本到圖像預訓練起步 , 逐步擴展到480p、720p、1080p的多分辨率訓練 , 最后通過大規模多模態數據和精選高質量數據的微調進行精打細磨 。
這種「由粗到精」的訓練路徑 , 確保了模型在每個分辨率等級上都有扎實的基礎能力 。

視頻+音樂
未來市場爆發的金礦
SkyReels-V4 并不是一個孤立的產品——它是昆侖天工「全模態 AI 創作生態」拼圖中的關鍵一塊 。
昆侖天工旗下還有一個同樣在全球市場打出聲量的產品:AI 音樂創作平臺 Mureka 。
Mureka O1 是全球首個引入 CoT(思維鏈)技術的音樂推理大模型 , 在音樂創作質量上全面超越了 Suno 等競品 , 登頂 SOTA 。
最新的 Mureka V8 在音色、演奏技法、情感表達上持續突破 , 用戶遍布全球 100 多個國家和地區 。
當我們把 SkyReels-V4 的視頻生成能力和 Mureka 的音樂創作能力放在一起看 , 一個巨大的想象空間打開了:一家公司同時擁有全球頂尖的視頻大模型和音樂大模型 , 從畫面到聲音、從配樂到人聲、從特效到情感表達 , 全鏈路打通 。
這意味著一個品牌方可以用一句話描述自己想要的廣告創意 , 從畫面、配樂、旁白到音效 , 一站式生成完整的視頻廣告 。
一個獨立音樂人可以把自己創作的歌曲直接變成高質量MV , 不需要再花費數萬元請拍攝團隊 。
一個教育機構可以把課程內容自動轉化為配有講解語音、背景音樂和動態畫面的教學視頻 。
在當前的 AI 市場上 , 同時在視頻和音樂兩個賽道都達到全球領先水平的玩家 , 屈指可數 。
可以說 , 視頻+音樂的未來市場 , 是一座亟待爆發的金礦 。
國外大廠已經紛紛下手 , 比如谷歌推出的Veo 3與Flow工具鏈 , 能同時生成視覺內容與音樂軌道 , 甚至整段視頻和聲音都能按需生成 , 直接就能一站式創作短片 。

Adobe在Firefly中新增了AI Soundtrack與AI Voice-over生成器 , 可以根據視頻風格自動生成背景音樂 , 由此 , 廣告視頻可以自動配樂 , 影視預告片可以快速做出Demo 。

美國AI語音/音樂公司ElevenLabs發布了與著名音樂人合作的AI生成項目 , 同時計劃結合視頻和音樂創作 。
本質上 , 這條路線也是視頻+音樂創意協同生成的未來方向 。

ElevenLabs的最新項目:Liza Minnelli和Art Garfunkel
現在 , 這些大廠嘗試的路徑 , 昆侖萬維已經完美復現!

SkyReels-V4的出現 , 恰逢其時
昆侖天工的技術報告已經明確展示 , SkyReels-V4和Mureka之間的技術協同已經在實際產品中落地——此前發布的全網首支AI音樂人MV , 音樂由Mureka生成 , 視頻由SkyReels技術支撐 , 就是這種全模態能力的一次預演 。
巧合的是 , AI視頻生成市場正處于一個微妙的轉折點 。
Seedance 2.0的橫空出世毫無疑問攪動了整個行業 , 馮驥稱其「Kill the game」 , 影視颶風的Tim連呼六次「恐怖」 , 海外社交平臺上一碼難求 。
但硬幣的另一面是:Seedance 2.0在爆紅的同時迅速遭遇了風控收緊 , 大量被Seedance 2.0驚艷效果吸引、但因風控收緊的創作者 , 正在積極尋找替代方案 。
SkyReels-V4恰好在這個時間窗口 , 交出了一份足夠硬核的成績單 。
更重要的是 , SkyReels-V4 的「全模態參考」能力——支持文本、圖像、視頻、掩碼、音頻等多種輸入組合——在功能覆蓋度上甚至比Seedance 2.0更為全面 。
對于那些需要穩定、專業、全流程視頻創作能力的用戶來說 , SkyReels-V4 提供了一個值得認真考慮的選擇 。
當然 , AI視頻生成是一個百花齊放的賽道 , 每個模型都有自己的優勢和適用場景 。
但SkyReels-V4用這次榜單成績證明了一件事:在這場全球競技中 , 中國AI 視頻技術不只有一個選項 。

持續迭代的長期主義


回顧昆侖天工在視頻大模型領域的發展軌跡 , 你會發現SkyReels-V4的崛起絕非偶然 。

  • 2025年2月 , 開源SkyReels-V1——中國首個面向AI短劇創作的視頻生成模型 , 基于千萬級級影視數據訓練 , 支持 33 種微表情和 400 多種動作組合 。
  • 2025年4月 , 發布SkyReels-V2——全球首個使用擴散強迫(Diffusion Forcing)框架的無限時長電影生成模型 , 在VBench1.0評測中拿下開源最高分 。
  • 2026年1月 , 開源SkyReels-V3——新一代多模態視頻生成系統 , 支持1-4 張參考圖像輸入 , 實現多主體視頻生成、音頻驅動和視頻到視頻生成 。
  • 2026年2月 , SkyReels-V4發布——全球首個同時支持多模態輸入、聯合音視頻生成、統一全場景任務的視頻基礎模型 , Artificial Analysis全球榜 TOP2 。
從 V1 到 V4 , 每一代的迭代都不是簡單的參數堆疊 , 而是架構層面的創新突破 。
V1 解決了影視級質感的問題 , V2 攻克了無限時長生成的難題 , V3 引入了多模態參考能力 , V4 則實現了音視頻聯合生成和全場景統一框架的終極整合 。
這種持續創新迭代的節奏 , 配合 Mureka 在 AI 音樂領域的領先地位、Skywork 系列在大語言模型和多模態推理上的突破、以及 DramaWave 短劇平臺的商業化落地 , 昆侖天工正在構建一個覆蓋「算力—模型—應用」的完整 AI 生態閉環 。

AI 視頻創作的
「大一統」時刻正在到來
站在2026年初回望 , AI視頻生成領域在過去一年經歷了翻天覆地的變化 。
從Sora掀起的第一波浪潮 , 到Veo、Kling、Seedance等模型的百家爭鳴 , 再到SkyReels-V4以「全模態參考+音視頻聯合生成+統一任務框架」的三位一體能力沖上全球榜單前列——我們正在見證一個新時代的開啟 。
在這個時代里 , 視頻創作不再是專業團隊的專屬特權 , 而是每一個有創意的人都能觸及的表達方式 。
而SkyReels-V4所代表的技術方向——用一個模型、一次操作 , 完成從文字構思到音視頻成品的全流程創作——正是通往那個未來的最清晰路徑 。
昆侖天工在技術報告中透露了未來三大方向:擴展更長時長(30 秒+)的視頻生成能力、增強實時交互編輯功能、開放模型API接口與更多創作工具生態集成 。
這些方向中的每一個 , 都將進一步拉近AI視頻創作與專業影視制作之間的距離 。
AI 視頻的競賽遠未結束 , 但SkyReels-V4已經用全球TOP2的成績證明:在這條賽道上 , 來自中國昆侖天工的聲音 , 值得全世界傾聽 。

    推薦閱讀