別只盯著Sora,中國AI視頻的實時交互已悄悄領先

別只盯著Sora,中國AI視頻的實時交互已悄悄領先

文章圖片

別只盯著Sora,中國AI視頻的實時交互已悄悄領先

文章圖片

別只盯著Sora,中國AI視頻的實時交互已悄悄領先

文章圖片

別只盯著Sora,中國AI視頻的實時交互已悄悄領先

文章圖片



剛剛過去的十一黃金周 , 大家一定沒少刷到Sora2生成的視頻 , 山姆·奧特曼到處給人送祝福 , 看得觀眾忍俊不禁 。 不過 , 等普通人真想用Sora做段自己的視頻才發現 , AI視頻還是沒有想象中一樣簡單 。
我們看到的AI長視頻 , 一般是由多個幾秒長的短視頻拼接而成的 。 也就是說 , 用戶要先把完整創意拆成幾個分鏡 , 每一段劇情分別準備獨立的圖片和Prompt提示詞描述 , 每一次生成都得碰運氣 , 后期拼接時還容易跳幀、風格斷裂 , 感覺不滿意想調整 , 只能重寫Prompt、重新生成 。
這種創作模式 , 也被稱為“抽卡” , 就像手游里氪重金抽 SSR , 花了時間、Token、算力和錢 , 還不一定拿到想要的結果 , 再加上海外平臺高昂的訂閱費 , 到底誰在說AI視頻的制作門檻被Sora打下來了?
其實 , AI視頻技術的大眾普及這一塊兒 , 國內視頻平臺早就走在了前面 。 最近我們就注意到 , 百度9月25日發布的“蒸汽機”最新版本 , 有兩個非常重要的升級:一是長視頻流式生成的產品體驗 , 二是模型支持實時交互 。

前者可以用一張圖、一段視頻生成長視頻突破5s、10s限制 , 并支持邊做邊改 , 創作AI視頻不用再一次次“抽卡”賭運氣 , 可以在預覽中實時調整;后者則拓展了AI視頻的邊界 , 比如直播數字人這類需要實時推理會話的長視頻 , 類sora模型還無法做到 。
可以發現 , 在AI大眾化這件事上 , deepseek、百度蒸汽機這樣的國內科技企業 , 是真的悶聲干大事 。 而這 , 也是中國AI的本色之一 。 或許比起sora , 國內視頻平臺正在終結AI視頻的抽卡魔咒 , 才是更值得大家關注的AI大事件 。

手游圈有一句話 , 玄不救非 , 氪能改命 。 指的是想抽到一張滿意的角色 , 要么靠玄學碰運氣 , 要么靠氪金砸錢 。 現階段的大多數AI視頻工具 , 就是這么工作的 。
常規的AI長視頻生成流程 , 采用首尾幀續寫技術 , 或者簡單續寫能力 , 雖然一次生成的視頻時長更長了 , 但前后頻缺乏連貫性 , 調整前后邏輯、對齊音畫等 , 比傳統拍攝后期還累人;畫質和細節也容易不穩定 , 比如人物一活動 , 肢體和空間的關系就不符合物理規律了 。 想要調整 , 就得重新上傳圖片和“抽卡” , 把流程再來一遍 , 而且花錢不討好 , 反復抽卡、多次生成 , 需要消耗大量計算資源 , 最終成本都要由用戶買單 。
對于創作者和普通人來說 , 這樣的AI長視頻能力是無法實現創作自由的 , 大多嘗鮮之后就棄之不用了 。

為什么AI無法一次生成高質量的長視頻 , 而被迫陷入抽卡魔咒呢?行業普遍陷入了技術瓶頸:
瓶頸一 , 模型記不住 , 也就是長時序連貫性建模難題 。
傳統的擴散模型 , 是一種固定窗口的生成模式 , 對長視頻生成非常不友好 , 一方面窗口大小和生成成本是指數級關系 , 另外一方面通過簡單反復續寫 , 會存在較為嚴重的全局一致性和連續性問題 。 生成時長超過10秒 , 幀間累積誤差就會指數級增長 , 就像一個記性不好的人 , 做事做到第十秒 , 基本把前面干過什么忘光了 , 所以長視頻越做越亂 , 前后內容不一致 。
有的平臺為了緩解這個問題 , 支持用戶手動上傳關鍵幀 , 這就意味著 , 30秒視頻得傳6組 , 操作復雜度直接翻了好幾倍 , 而且鏡頭切換可能不自然 , 并沒能發揮出AIGC提質增效的效果 。
瓶頸二 , 模型聽不懂、算不快 , 也就是實時交互受限 。
在互動視頻、直播等場景中 , 對視頻的持續時長與實時生成能力提出了更高要求 。 但傳統視頻生成 , 只能靠抽卡和調整提示詞 , 來不斷試錯 , 用戶無法在生成過程中就進行修改和微調 , 是因為Transformer架構的二次計算復雜度很高 , 在生成長視頻時要實時互動 , 一是對GPU顯存與計算效率提出更高要求 , 需要軟硬件協同優化來提升推理效率 。 還有成本考量 , 計算開銷隨生成時長呈平方級增長 , 為了控制成本 , 模廠只能限制時長 , 還必須等全部算完才能輸出結果 。
上述技術瓶頸 , 導致AI長視頻不連貫、改不了、成本高 , 因此 , 目前這類短視頻生成技術主要應用于工具層面 , 如視頻片段與素材制作 , 這顯然無法滿足C段和B端的復雜創作需求 。
百度“蒸汽機”10.15版本的核心突破 , 就是把長視頻變成流式生成、實時交互 , 整個過程中 , 用戶可以邊瀏覽邊生成 , 支持在幀數間改寫、續寫 , 隨時打斷并修改提示詞 , 就能實時生成想要的畫面 , 從而打破了傳統視頻生成的“抽卡”魔咒 。

面對行業普遍的10秒局限 , 以及用戶反復抽卡的無力 , 百度蒸汽機靠四大技術突破 , 從根源上破解了長視頻生成的效率、質量與成本難題 , 終結“抽卡”模式 。
突破一:基礎架構改造 , 解決長視頻生成難題 , 一張圖一段文字極簡生成 。
傳統模型生成超10秒視頻就會片段斷裂 , 還得補關鍵幀 。 百度蒸汽機引入自回歸擴散模型 , 搭建流式滑窗架構 , 通過階梯獨立噪聲構造 , 為每一幀匹配精準噪聲級別 , 配合動態緩沖區管理 , 同步處理模糊草圖、半完成幀及高精度畫面等多狀態畫面 , 實現“邊生成邊調整”的實時交互生成流程 。
我們上傳了一張騎在黑龍背上的視頻 , 自動生成12秒視頻 , 全程無需補充任何素材 , 而且生成過程中 , 還可以隨時選擇繼續生成或修改提示詞 。
突破二:訓推偏差消除 , 解決累積誤差 , 告別 “越生越崩” 的質量衰減 。
AI生成的視頻前5秒正常 , 后面人物空間關系就扭曲變形了 , 這種情況經常出現 , 本質是傳統滑窗方法的誤差累積問題 , 導致生成的視頻質量嚴重下降 。
但我們用百度蒸汽機生成了一個長鏡頭的雙人互動 , 在長達20秒的時間里 , 兩個人物都保持了一致性 , 即使是在近景互動時也符合物理邏輯 。
原來 , 百度蒸汽機通過歷史幀擾動增強技術 , 在訓練時故意加入幀誤差 , 讓模型具備自我糾錯能力 , 變得更加魯棒 , 緩解自回歸模型的累積誤差問題 。
突破三 , 一致性優化 , 讓長視頻像接力賽一樣絲滑 。
行業普遍采用的片段拼接技術 , 經常出現走路跳步、音畫脫節等情況 , 比如人物說話時唇形與聲音對不上 。 百度蒸汽機采用全局規劃與局部參考相結合的優化方法 , 解決長視頻連續性與一致性問題 。 其中 , 引入錨點幀引導 , 保障全局記憶 , 引入了key frame建立全局注意力錨點 , 保證模型的長期記憶能力 , 引入歷史參考幀 , 作為上下文信息 , 使得模型具備短期記憶能力 , 保障連續生成 。 前后過渡像傳遞接力棒一樣流暢自然 , 多人對話等場景的AI視頻一次生成質量更高 。
突破四:實時流式計算 , 實現邊生成邊修改的創作自由 。
以前生成3分鐘視頻得等40分鐘 , 而且生成后無法修改 , 一點就得重算 。 百度蒸汽機基于自回歸擴散架構 , 突破高壓縮比生成技術 , 大幅提升擴散模型流式推理性能 , 保障效果和效率的極致平衡 , 滿足實時交互的推理需求 。
比如我們用V2V模式 , 上傳一段賽車視頻 , 百度蒸汽機能夠在幾分鐘之內 , 就將視頻拓展到10秒以上 。 如果想改寫結局 , 可以選擇續改 , 選中關鍵階段的幀 , 直接輸入其他結果的提示詞 , 比如“銀車加速超過黃車”或“黃車加速超過銀車” , 就能生成新的結局 , 輕松搞定不同劇情 。
【別只盯著Sora,中國AI視頻的實時交互已悄悄領先】也就是說長視頻生成過程從黑箱變成了流式體驗 , 模型推理出多少 , 用戶就能實時預覽多少 , 不需要等待全部生成完成 。 而且百度蒸汽機升級了窗口注意力機制 , 將計算復雜度降為線性 , 結合模型蒸餾技術 , 大幅提升計算效率 , 降低推理耗時 , 所以整個生成過程僅用時幾分鐘 。 整個制作過程既可控 , 又省力 。
百度蒸汽機的四大突破 , 用技術把AI視頻的創作模式 , 從靠運氣抽卡變成了按需創作 。 這會推動行業發生至少兩個變化:
一是創作門檻進一步降低 。 由于AI長視頻的生成質量和效率得到提高 , 不再需要用戶上傳多張圖和prompt , 不再需要費心描述和準備關鍵幀 , 一次生成高可用 , 長視頻生成真的走向了人人可用的簡單時代 。
二是應用場景進一步延伸 。 傳統長視頻生成技術 , 難以承載復雜的創作需求 , 無法滿足數字人這類實時交互長視頻的需求 。 百度蒸汽機全新的技術架構實現長視頻流式生成體驗 , 支持實時互動 , 可以拓展出AI導購、AI老師、AI陪伴等沉浸式數字人場景 。 支持開放世界的生成 , 比如游戲地圖、旅游景點體驗、宇宙空間等 , 都可以任意創造 , 比如家長可以用一張長城或宇宙的圖片 , 為孩子生成虛擬長城或虛擬宇宙 , 為教育、旅游、游戲打開新可能 。
某個噱頭或爆款玩法 , 或許能在短時間內帶火AI視頻的關注度 , 但一時熱度終會在門檻暴露后退潮 。 唯有扎扎實實的底層技術突破 , 才能為AI視頻生成的大眾化普及鋪平道路 , 真正降低使用門檻、拓展使用邊界 , 承接住不斷涌入的創作者和新用戶 。

Sora2的科幻短片刷爆社交平臺時 , 不少人又開始感慨 , “AI視頻創作的天花板在海外” 。 但真實體驗過的創作者恐怕都會認同 , 這些海外AI視頻創作與普通人仍有距離 。 百度蒸汽機為代表的國內視頻平臺 , 更加普通人友好 。
一方面 , 國內平臺更早跳出了炫技式研發 , 不像sora這樣“憋個大招” , 以更快的技術迭代速度 , 貼實用戶需求 。
拿百度蒸汽機來說 , 迭代速度堪稱行業標桿 , 可以說是“月月有突破” 。 今年3月首發即實現高精度圖生視頻 , 5月登頂VBench-I2V權威榜單 , 畫質達專業影視級;7月推出全球首個中文音視頻一體化模型 , 8月實現多人對話生成 , 9月發布“通用AI長視頻生成”功能……
這種應用驅動研發的路徑 , 背后是搜索、百家號等場景的真實需求直接反推模型升級 , 讓百度蒸汽機的技術突破始終貼合用戶痛點 , 解決普通人的使用難題 。

此外 , AI視頻生成的大規模、產業級應用 , 國內視頻平臺也別有優勢 。
相比不懂中文語境的Sora、sunway等 , 百度蒸汽機等國內模型憑借億級中文多模態數據訓練 , 不僅中文唇形和語音能精準同步 , 還能生成方言 , 讓創作者的內容更容易打開中文市場 。
國內平臺也更懂產業落地AI的成本難題 , 比如百度蒸汽機堅持技術普惠 , 依托百度智能云“百舸”平臺與昆侖芯片 , 結合模型參數壓縮、算力動態調度等技術 , 將推理效率提升3倍 , 刊例價較同類產品低至七成 , 并采用“按量后付+資源包”靈活計費模式 , 不讓用戶白花冤枉錢 。 相較海外平臺的服務費與訂閱費 , 大幅降低了產業級使用成本 , 也為AI視頻生成的規模落地拆除了門檻 。
從抽卡試錯到按需創作 , 百度蒸汽機的技術突破不僅改變了AI視頻的創作邏輯 , 更展示了與海外平臺不同的技術產業化、技術普惠化之路 。
正如大語言模型、對話式AI的普及歷程一樣 , AI長視頻的全民時代 , 將由國內平臺開啟 。

    推薦閱讀