Seedance2.0炸場后，又一中國黑馬登頂AA榜單！AI味沒了

2026-03-29 ai 人工智能 openai Google seedance2.0

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：犀牛 Aeneas
【新智元導讀】當Seedance 2.0刷屏全網時，一匹中國黑馬已悄然沖上全球AI視頻榜第二。昆侖天工SkyReels-V4強勢殺入頂級牌桌，多模態輸入、音畫同步直出影院級大片，實力驚艷超群！

最近，全球AI圈風頭最盛的模型當屬Seedance 2.0了。
模型一出，瞬間引爆全網。
就當所有人的目光都聚焦在Seedance 2.0的狂歡與爭議上時，一匹黑馬已悄然殺入了全球AI榜單的頂級牌桌。
就在剛剛， Artificial Analysis更新了文本到視頻（含音頻）全球榜單。
在這份由OpenAI、Google、Anthropic等頭部AI公司共同認可的權威排行榜上，一個來自中國的名字闖入了最前列：
昆侖天工SkyReels-V4 ，全球現役模型排名第2 ，歷史所有模型排名第4！

Artificial Analysis 榜單： https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true
在這個匯聚了Veo 3.1、Sora 2、Kling 3.0、Wan 2.6等全球頂尖選手的競技場上， SkyReels-V4以實打實的技術硬實力，一舉超越了絕大多數明星產品。
這不是一次偶然的驚艷亮相，而是昆侖天工在 AI 視頻大模型領域厚積薄發的一次集中爆發。

先看效果
SkyReels-V4 到底能做什么？
空談數據，不如直接看能力。
【Seedance2.0炸場后，又一中國黑馬登頂AA榜單！AI味沒了】SkyReels-V4的野心遠不止于「生成一段好看的視頻」。
它想要做的，是成為全球首個同時支持多模態輸入、聯合音視頻生成、統一生成/修復/編輯任務的視頻基礎模型。
舉幾個直觀的例子。
比如現在最火的短劇。只需要兩個角色圖片，以及角色的臺詞即可。

輸入SkyReels-V4后，它直接就生成了一段1080p、32FPS、15秒的影院級視頻。
這個效果，已經基本上沒啥AI味了。
歪果仁也沒問題。

不得不說，真的很難看出是AI生成的。
同時給多個參考圖像和音頻輸入，三個角色分別是一只黑貓、一只澳大利亞牧牛犬和一只棕熊。

仔細看，畫面和聲音完全對得上，節奏卡得基準，嘴型都嚴絲合縫，挑不出毛病。
SkyReels-V4最讓人眼前一亮的能力，就是讓你擁有多模態參考的創作自由。
假設你手頭有兩張角色設計圖、一段舞蹈動作的參考視頻，你可以把這三者同時丟給SkyReels-V4 ，它會忠實地用兩張圖像的角色外觀，執行視頻中的舞蹈動作，配合音頻的節奏律動，生成一段全新的、高質量的視頻作品。
這種跨模態的精準融合控制能力，在當前的視頻大模型中幾乎是獨一份。
比如這段經典電影中男女演員隨音樂起舞的視頻，質感極其驚艷。

舞蹈演員換成邊牧和英短，效果也是同樣自然。
可以說， SkyReels-V4真正做到了角色一致性、高質量動作生成、精準音畫同步、電影級的視覺呈現，幾乎可以直接用于商業級展示。
首幀參考功能，可以讓它的多模態控制更為靈活。
輸入以下首幀，我們就分別得到了喝咖啡的兵馬俑、拉小提琴的陶俑和打排球的labubu 。

運動參考功能，可以把跳舞的舞者一鍵換成動漫角色，動作絕對一致。

另外， SkyReels-V4的一站式全流程修復編輯功能，也是好用到爆。
如果視頻中有個礙眼的水印，可以直接去掉。
一句prompt ，就能去掉短劇中的特定人物，比如下面鏡頭中穿旗袍和穿紅裙的女演員。
角色的衣服不滿意？直接一鍵修改。比如這位舉杠鈴的老人，白背心一鍵被變成了藍色T恤，畫面自然得看不出改動痕跡。

甚至，你可以把整個視頻的風格從寫實一鍵切換到樂高積木風。
古裝劇這種寫實、厚重的影像風格，都能瞬間變成充滿童趣和創意的視覺表達，而且動作、鏡頭調度和劇情節奏依然保留，風格遷移完成度驚人。
也就是說，從此創作者再也不會被單一美術風格綁定，同一段內容，可以根據商業需求快速切換視覺語言，在史詩、卡通動畫、積木玩具風之間來回切換。
這就打開了IP二次創作和品牌聯名的空間，讓內容的商業想象力空間暴漲。

SkyReels-V4還能幫我們把靜態的鏡頭，變成電影級的推拉搖移。
原本只是一個男人坐在原地拋著橘子，畫面像監控一樣靜止、沒有起伏。
但加入鏡頭語言后，原本靜態的記錄畫面，一下子就有了呼吸感，被轉化為極有敘事張力和節奏設計的電影級運鏡。

更方便的是，過去你需要在Premiere、AE、各種AI工具之間反復切換才能完成的工作。
現在， SkyReels-V4一個模型就能全部搞定了。

三大創新打破行業天花板
SkyReels-V4 的強悍表現背后，是三項關鍵技術突破。

技術報告入口： https://arxiv.org/pdf/2602.21818
第一，雙流 MMDiT 架構——讓音視頻真正「合為一體」。
當前主流的視頻生成模型在處理音頻時，普遍采用「先生成視頻，再后貼音頻」的淺層融合方案，這種做法導致的結果就是音畫不同步、唇形對不上、音效跟畫面割裂。
SkyReels-V4 徹底換了一種思路。
它采用對稱雙流架構設計：視頻和音頻各有一條獨立的處理分支，但兩條分支共享同一個文本編碼器，并通過雙向跨注意力機制在整個網絡的所有層級上實現深度交互。

簡單來說，視頻在生成的每一步都在「聽」音頻在做什么，音頻在生成的每一步都在「看」視頻在做什么——它們不是各干各的、最后拼在一起，而是從一開始就在互相引導、協同生長。
為了解決音頻和視頻在時間尺度上的天然不匹配問題（視頻是一幀一幀的，音頻是連續波形的），團隊還創新性地使用了RoPE頻率縮放技術，將音頻的位置編碼頻率精確地調整為與視頻幀率相匹配的比例，實現了毫秒級的時間對齊精度。
這就是為什么SkyReels-V4的唇形同步能做到如此的準確率——因為音視頻從生成機制的底層就是綁定的。
第二，統一拼接框架——一個模型，包攬所有視頻操作。
傳統的視頻AI工具鏈是碎片化的：文生視頻用一個模型，圖生視頻用另一個，視頻修復用第三個，風格遷移用第四個……每切換一個工具，都意味著上下文信息的丟失和創作流程的斷裂。
SkyReels-V4提出了一個精巧的「通道拼接+時序拼接」雙維統一范式。
它的核心思想是：無論你想做什么任務——文字生成視頻、圖片生成視頻、視頻延展、區域修復、風格遷移、物體移除——本質上都可以被轉化為「給定某些已知條件，生成未知區域」的修復問題。
通過一組靈活的輸入組件，模型只需要調整掩碼配置就能在不同任務間無縫切換。
比如文生視頻時掩碼全為0（完全從零生成），圖生視頻時只有首幀掩碼為1（鎖定參考圖，續寫后續畫面），視頻編輯時保留區域掩碼為1、編輯區域掩碼為0（只改你想改的部分）。
這種設計的優雅之處在于：用戶不需要關心底層在調用哪個功能模塊，只需要告訴模型「我想要什么」，模型自己就能理解并執行。
它讓專業級視頻創作從「工具鏈操作」變成了「意圖表達」。
第三，高效生成策略——在質量和速度之間找到最優解。
1080p分辨率、32FPS幀率、15秒時長——這個規格參數放在一年前，光是計算量就足以勸退大多數研究團隊。
SkyReels-V4的工程團隊設計了一套巧妙的「低分辨率全序列 + 高分辨率關鍵幀」聯合生成策略：模型先快速生成低分辨率的完整視頻和高分辨率的關鍵幀，再通過專門的超分辨率和幀插值模塊重構最終的高質量視頻。
配合自研的視頻稀疏注意力（VSA）機制，注意力計算成本降低了約3倍，讓影院級規格的視頻生成真正具備了實用價值。

此外，模型還采用了多階段漸進式訓練策略——從256px的文本到圖像預訓練起步，逐步擴展到480p、720p、1080p的多分辨率訓練，最后通過大規模多模態數據和精選高質量數據的微調進行精打細磨。
這種「由粗到精」的訓練路徑，確保了模型在每個分辨率等級上都有扎實的基礎能力。

視頻+音樂
未來市場爆發的金礦
SkyReels-V4 并不是一個孤立的產品——它是昆侖天工「全模態 AI 創作生態」拼圖中的關鍵一塊。
昆侖天工旗下還有一個同樣在全球市場打出聲量的產品：AI 音樂創作平臺 Mureka 。
Mureka O1 是全球首個引入 CoT（思維鏈）技術的音樂推理大模型，在音樂創作質量上全面超越了 Suno 等競品，登頂 SOTA 。
最新的 Mureka V8 在音色、演奏技法、情感表達上持續突破，用戶遍布全球 100 多個國家和地區。
當我們把 SkyReels-V4 的視頻生成能力和 Mureka 的音樂創作能力放在一起看，一個巨大的想象空間打開了：一家公司同時擁有全球頂尖的視頻大模型和音樂大模型，從畫面到聲音、從配樂到人聲、從特效到情感表達，全鏈路打通。
這意味著一個品牌方可以用一句話描述自己想要的廣告創意，從畫面、配樂、旁白到音效，一站式生成完整的視頻廣告。
一個獨立音樂人可以把自己創作的歌曲直接變成高質量MV ，不需要再花費數萬元請拍攝團隊。
一個教育機構可以把課程內容自動轉化為配有講解語音、背景音樂和動態畫面的教學視頻。
在當前的 AI 市場上，同時在視頻和音樂兩個賽道都達到全球領先水平的玩家，屈指可數。
可以說，視頻+音樂的未來市場，是一座亟待爆發的金礦。
國外大廠已經紛紛下手，比如谷歌推出的Veo 3與Flow工具鏈，能同時生成視覺內容與音樂軌道，甚至整段視頻和聲音都能按需生成，直接就能一站式創作短片。

Adobe在Firefly中新增了AI Soundtrack與AI Voice-over生成器，可以根據視頻風格自動生成背景音樂，由此，廣告視頻可以自動配樂，影視預告片可以快速做出Demo 。

美國AI語音/音樂公司ElevenLabs發布了與著名音樂人合作的AI生成項目，同時計劃結合視頻和音樂創作。
本質上，這條路線也是視頻+音樂創意協同生成的未來方向。

ElevenLabs的最新項目：Liza Minnelli和Art Garfunkel
現在，這些大廠嘗試的路徑，昆侖萬維已經完美復現！

SkyReels-V4的出現，恰逢其時
昆侖天工的技術報告已經明確展示， SkyReels-V4和Mureka之間的技術協同已經在實際產品中落地——此前發布的全網首支AI音樂人MV ，音樂由Mureka生成，視頻由SkyReels技術支撐，就是這種全模態能力的一次預演。
巧合的是， AI視頻生成市場正處于一個微妙的轉折點。
Seedance 2.0的橫空出世毫無疑問攪動了整個行業，馮驥稱其「Kill the game」，影視颶風的Tim連呼六次「恐怖」，海外社交平臺上一碼難求。
但硬幣的另一面是：Seedance 2.0在爆紅的同時迅速遭遇了風控收緊，大量被Seedance 2.0驚艷效果吸引、但因風控收緊的創作者，正在積極尋找替代方案。
SkyReels-V4恰好在這個時間窗口，交出了一份足夠硬核的成績單。
更重要的是， SkyReels-V4 的「全模態參考」能力——支持文本、圖像、視頻、掩碼、音頻等多種輸入組合——在功能覆蓋度上甚至比Seedance 2.0更為全面。
對于那些需要穩定、專業、全流程視頻創作能力的用戶來說， SkyReels-V4 提供了一個值得認真考慮的選擇。
當然， AI視頻生成是一個百花齊放的賽道，每個模型都有自己的優勢和適用場景。
但SkyReels-V4用這次榜單成績證明了一件事：在這場全球競技中，中國AI 視頻技術不只有一個選項。

持續迭代的長期主義

回顧昆侖天工在視頻大模型領域的發展軌跡，你會發現SkyReels-V4的崛起絕非偶然。

2025年2月，開源SkyReels-V1——中國首個面向AI短劇創作的視頻生成模型，基于千萬級級影視數據訓練，支持 33 種微表情和 400 多種動作組合。
2025年4月，發布SkyReels-V2——全球首個使用擴散強迫（Diffusion Forcing）框架的無限時長電影生成模型，在VBench1.0評測中拿下開源最高分。
2026年1月，開源SkyReels-V3——新一代多模態視頻生成系統，支持1-4 張參考圖像輸入，實現多主體視頻生成、音頻驅動和視頻到視頻生成。
2026年2月， SkyReels-V4發布——全球首個同時支持多模態輸入、聯合音視頻生成、統一全場景任務的視頻基礎模型， Artificial Analysis全球榜 TOP2 。

從 V1 到 V4 ，每一代的迭代都不是簡單的參數堆疊，而是架構層面的創新突破。
V1 解決了影視級質感的問題， V2 攻克了無限時長生成的難題， V3 引入了多模態參考能力， V4 則實現了音視頻聯合生成和全場景統一框架的終極整合。
這種持續創新迭代的節奏，配合 Mureka 在 AI 音樂領域的領先地位、Skywork 系列在大語言模型和多模態推理上的突破、以及 DramaWave 短劇平臺的商業化落地，昆侖天工正在構建一個覆蓋「算力—模型—應用」的完整 AI 生態閉環。

AI 視頻創作的
「大一統」時刻正在到來
站在2026年初回望， AI視頻生成領域在過去一年經歷了翻天覆地的變化。
從Sora掀起的第一波浪潮，到Veo、Kling、Seedance等模型的百家爭鳴，再到SkyReels-V4以「全模態參考+音視頻聯合生成+統一任務框架」的三位一體能力沖上全球榜單前列——我們正在見證一個新時代的開啟。
在這個時代里，視頻創作不再是專業團隊的專屬特權，而是每一個有創意的人都能觸及的表達方式。
而SkyReels-V4所代表的技術方向——用一個模型、一次操作，完成從文字構思到音視頻成品的全流程創作——正是通往那個未來的最清晰路徑。
昆侖天工在技術報告中透露了未來三大方向：擴展更長時長（30 秒+）的視頻生成能力、增強實時交互編輯功能、開放模型API接口與更多創作工具生態集成。
這些方向中的每一個，都將進一步拉近AI視頻創作與專業影視制作之間的距離。
AI 視頻的競賽遠未結束，但SkyReels-V4已經用全球TOP2的成績證明：在這條賽道上，來自中國昆侖天工的聲音，值得全世界傾聽。

推薦閱讀

上一篇：超跑？小米概念車曝光 | 魅族宣布暫停國內手機項目| 一加15T現身

下一篇：莊思民：高通以AI原生6G加速下一代無線技術落地