Sora2還在5秒打轉，字節AI生視頻已經4分鐘“起飛”

2026-02-17 教師人工智能 ai sora

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI
從5秒到4分鐘， Sora2也做不到的分鐘級長視頻生成，字節做到了！
先來看一個前方潛水員拍攝的“真實”海底世界Vlog：
視頻鏈接：https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ
華生，有發現么？不同于一般的AI生成視頻，只有短短幾秒鐘……這個片子全程1分40秒，都是“水分”、都是AI 。
這就是字節和UCLA聯合提出的新方法——Self-Forcing++ ，無需更換模型架構或重新收集長視頻數據集，就能輕松生成分鐘級長視頻，也不會后期畫質突然變糊或卡住。
通過利用教師知識和自生成視頻片段指導自回歸生成，最長生成視頻可達4分15秒，而且高質量、還開源。
話不多說，再看幾個視頻效果嘗嘗鮮。
長達3分鐘的無人機視角下的海岸線， be like：
視頻鏈接：https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ
時長拉到極致， 4分15秒跟隨大象的腳步縱覽草原美景。
視頻鏈接：https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ
而相同時長下，此前的長視頻生成SOTA SkyReels做出的效果是醬紫的：（重生之我成為一只螞蟻）
視頻鏈接：https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ
Self-Forcing++在短時長上繼承了Self-Forcing的高質量畫面效果，長時長生成也能達成性能指標All kill ，視覺穩定性大幅領先CausVid等方法。
或許， AI電影時代離我們已不再遙遠……下面來康康更多詳細內容。
從5秒到4分15秒先一起來思考下這個問題：為啥現在的AI視頻質量這么高，但還是很容易被人捉蟲AI生成？
其實bug就出自視頻長度。
無論是Sora2、字節Wan ，還是騰訊混元、谷歌Veo ，視頻內容再真假難辨，長度卻都只有5到10秒。
即使勉勉強強做出長視頻，也是只有前幾秒能看，后面畫面通通崩壞。
原因無他，傳統擴散視頻生成模型依賴Transformer結構，即使改用雙向教師模型將知識蒸餾給學生模型，由于模型本身無法生成長視頻的限制，還是會持續不斷積累誤差。
于是針對這一問題，字節提出Self-Forcing++方法抑制后期質量下降，不再依賴長視頻教師模型訓練，而是讓模型在自己的錯誤中成長。

首先是視頻長度上，分別從噪聲初始化、蒸餾方式、緩存機制三方面優化訓練過程：
反向噪聲初始化：讓學生模型生成遠超5秒（實驗用100秒）的干凈幀序列，再按擴散噪聲調度向序列中重新注入噪聲。擴展分布匹配蒸餾：在幀序列生成后，從中隨機抽取5秒連續窗口，計算學生與教師模型在窗口內的分布差異（KL散度），然后通過最小化該差異完成訓練。滾動KV緩存訓練：在訓練與推理階段均采用滾動KV緩存，訓練時用該緩存生成遠超教師監督時長的序列，用于擴展DMD計算。簡單來說，就是讓LLM在犯錯-修正-再犯錯的循環中，逐漸學會長時間的穩定生成。

另外，由于自回歸模型使用滑動窗口或稀疏注意力生成長序列時，容易出現長時記憶丟失的情況，還需要引入組相對策略優化（GRPO）改善視頻平滑性。
通過計算每一步的重要性權重，結合當前自回歸生成的對數概率總和，衡量生成策略的合理性，再將相鄰幀光流的相對大小作為運動連續性代理指標，引導模型優化，最終可有效減少畫面突變異常。

【Sora2還在5秒打轉，字節AI生視頻已經4分鐘“起飛”】研究人員同時發現，現有長視頻評估所使用的VBench基準并不完全準確，一些過亮的壞視頻也會被誤判為好。
為此他們將Gemini-2.5-Pro作為評委，讓模型按照過曝光、誤差積累等維度以0-100分評分，可以更為精準地衡量視覺穩定性（Visual Stability）。
這一點在后續的實驗結果中也得以驗證。
兼顧時長和質量研究人員主要設計了兩類場景評估，分別對比該方法與基準模型（包括自回歸模型與雙向模型）在短時長視頻質量和長時長生成上的效果。
其中短時長場景（5s）仍然采用VBench基準，根據946個提示詞從16個維度評估生成質量。

結果顯示， Self-Forcing++在語義得分（80.37）和總得分（83.11）上均超過NOVA、SkyReels-V2、CausVid等模型，只略低于Wan2.1的總得分84.67 。
說明Self-Forcing++雖并未專門針對短視頻進行訓練，但其在短時長場景中仍能保持高視覺質量與語義一致性。

在50秒生成時，視覺穩定性得分為90.94 ，遠超CausVid（40.47）和Self-Forcing（40.12），動態程度更是Self-Forcing得分的1.6倍，文本對齊得分（26.37）也高于多數基準，證明其在中長時長場景的穩定性。

而在75秒到100秒生成中，文本對齊得分可達26.04、動態程度為54.12 ，相比CausVid分別提升6.67%和56.4% ，相比Self-Forcing則提升18.36%和104.9% 。
視覺穩定性得分（84.22）為Self-Forcing（32.03）的2.6倍，且framewise質量（60.66）與基準模型相當，說明其在極長時長下仍能保持高保真度與一致性。

長視頻生成通常存在的失效模式，如運動停滯、保真度退化， Self-Forcing++均未出現類似情況，視頻全程保持連貫運動和穩定亮度及質量。
最終實驗驗證得出， Self-Forcing++可最長生成4分15秒的視頻，比原先的5秒提升近50倍，且在保真度和一致性上優于基線方法。
參考鏈接：[1
https://self-forcing-plus-plus.github.io/[2
https://arxiv.org/abs/2510.02283
— 完 —
量子位 QbitAI
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：LCD真的更護眼？LCD/OLED技術對比

下一篇：亞馬遜“盲眼”機器人30秒跑酷首秀驚艷！華人學者領銜