對話生數科技CEO駱怡航:參考生視頻讓創作回歸本質,下一步將推進實時生成

對話生數科技CEO駱怡航:參考生視頻讓創作回歸本質,下一步將推進實時生成

智東西
作者 | 陳駿達
編輯 | 心緣
智東西7月30日報道 , 在2025世界人工智能大會(WAIC 2025)期間 , 視頻生成獨角獸生數科技的CEO駱怡航博士與媒體進行深入交流 , 詳細介紹了生數科技視頻生成技術的最新進展 , 并分享了他對視頻生成技術未來發展方向的見解 。
駱怡航著重談到今年7月發布的Vidu Q1參考生功能 , 他認為 , 與文生視頻、圖生視頻相比 , 參考生視頻才是整個AI視頻創作范式的底層功能 。 這種方式既不會像文生視頻那樣缺乏一致性 , 也不會像圖生視頻那樣限制模型的發揮 。
生數科技去年全球首發參考生視頻功能 , 已經迭代4個版本 。 同時 , 該公司也在一致性方向不斷投入 , 駱怡航認為一致性對廣告、影視等商業創作而言至關重要 。
駱怡航也談到了上周生數科技聯合清華大學發布的具身智能模型Vidar , 這是國內首個基于視頻生成模型的具身基座模型 。 雖然具身智能的大規模應用還需要時間 , 但生數科技會將數字世界與物理世界的結合作為探索方向之一 , 并有可能在具身智能產業成熟后加大投入 。
采訪中 , 駱怡航還針對生數科技的商業化策略、技術升級方向、AIGC產業趨勢等問題進行分享 。
值得一提的是 , 今天恰好是生數科技視頻生成模型Vidu全球上線一周年 。 上線1年 , Vidu生成視頻總數已超過3億個 , 用戶數超3000萬 , B端落地率達到行業第一 , 這些數據也帶動Vidu上線8個月后年化收入突破2000萬美元(約合人民幣1.44億元) 。

一、參考生回歸視頻拍攝本質 , Vidu架構可擴展至具身智能視頻生成當前有多種實現形式 , 包括圖生視頻、文生視頻、參考生視頻等 。 其中 , 圖生視頻因其給予了創作者更多的控制力 , 而獲得廣泛使用 。
圖生視頻需要用戶上傳完整的首幀圖或尾幀圖 , 模型以此為基準 , 生成畫面 。 但由于圖像中的各種元素已經被固定 , 模型很難對畫面中的內容進行調整、修改 , 無法完全發揮出視頻生成模型在創造力上的優勢 。
駱怡航認為 , 參考生視頻讓業界回到了本身視頻拍攝的本質:用戶可上傳人物、道具、場景等元素 , 無需將其通過P圖、生圖、融圖等繁瑣環節 , 而是直接根據參考圖直出視頻 。
最近推出的Vidu Q1參考生視頻能力進一步提升 , 已經支持了七個主體的參考 , 基本可以滿足大部分場景需求 。
Vidu參考生視頻同時具備主體庫功能 , 用戶可以上傳人物或者商品的正面、側面、背面圖 , 確保元素在不同場景下的主體一致性 。
面向專業創作場景 , Vidu參考生視頻提供了提示詞專業模式 。 用戶輸入簡單的提示詞后 , 模型能夠將用戶的簡單提示詞改寫為專業提示詞 , 讓最終作品質量更高 , 制作效率提升 。
參考生視頻這項技術滿足了商業化場景對內容創作的需求 , 生數科技Vidu已在廣告電商、互聯網、動漫、影視、文旅、教育、游戲、廣電等八大行業落地應用 。
在Vidu視頻生成模型的基礎上 , 生數科技和清華大學共同打造了具身智能模型Vidar , 這一模型與Vidu一脈相承 。
駱怡航稱 , Vidu架構在設計之初就具備一定通用性 , 可勝任時空信息一致性的生成 , 在這個基礎架構之上 , 只需進行少量數據、低成本的微調 , 便可將生成的虛擬視頻轉化為控制具身智能的動作信息 。
Vidar的主要創新在于 , 能突破原有VLA路線中優質數據難以獲取和具身智能難以泛化的問題 , 實現了具身智能的少樣本泛化 , 所需真機人類操作數據量約為行業典型值的千分之一 。
【對話生數科技CEO駱怡航:參考生視頻讓創作回歸本質,下一步將推進實時生成】
二、視頻生成技術分三步走 , 將優先滿足專業用戶需求駱怡航還分享了視頻生成技術發展過程中人與AI協作三階段的觀點 。
第一個階段仍是圖生視頻為主 , 需要文生圖再生視頻或者用首尾幀再生視頻的復雜流程 , 雖然它在生產環節、效率上相比傳統流程有所進步 , 但還未達到100%的效率提升 。
第二階段以參考生視頻為主要功能 , 無需中間分鏡生成環節 , 只要把主體選好 , 就可以直接生成視頻 。 根據生數科技得到的用戶反饋 , 這種方式給效率帶來了明顯提升 。
第三個階段中 , 將有大量內容100%由AI生成 , 內容生產執行的效率和成功率極大提升 , 創作者可以把大量時間投入到故事創意和關鍵設計上 。
駱怡航稱 , 目前生數Vidu正推動AI視頻內容生成由第二個階段向第三個階段轉變 。
生數科技當前最高的優先級依舊是滿足視頻行業最嚴格、最復雜的專業要求 , 同時擴展、反哺C端用戶 。
對此 , 駱怡航解釋道 , 當前視頻生成技術尚無法支撐普通用戶打造高質量視頻 , 仍需在一致性、速度上實現突破 , 才能實現AI視頻創作的普惠 。
生數科技可以在服務B端專業用戶的過程中 , 逐步打磨這些技術 , 例如根據廣告電商客戶的需求提升一致性 , 或是在動畫場景針對性地提升風格和生產效率 。 這些在專業領域的技術積累 , 最終可以惠及C端用戶 。

結語:視頻生成技術持續迭代 , 速度與成本仍有突破空間隨著視頻生成模型能力的持續迭代 , 有越來越多的企業開始探索其應用價值 , 尤其是在影視制作、廣告營銷、教育培訓等場景中 。 不過 , 要真正實現規?;涞?, 仍有很長的路要走 。
在采訪的最后 , 駱怡航也分享了他眼中視頻生成未來的優化空間 。 首先 , 一致性作為基礎問題 , 仍需要進一步提升;解決一致性問題后 , 下一步就是讓視頻生成做到“快”、“好”、“省” 。
其中 , “快”和“省”的部分還有很大突破空間 , 現在生數科技已經實現最快幾秒鐘生成視頻片段、分鐘級生成1080P視頻片段 , 未來會推進AI視頻實時生成 。

    推薦閱讀