
文章圖片

文章圖片

文章圖片
機(jī)器之心報道
機(jī)器之心編輯部
近日 , 一家名為 CraftStory 的 AI 初創(chuàng)公司推出了 Model 2.0 視頻生成系統(tǒng) , 憑借可生成長達(dá)五分鐘的富有表現(xiàn)力、可媲美專業(yè)水準(zhǔn)、以人為中心的視頻 , 破解了困擾 AI 視頻生成行業(yè)長久以來的「視頻時長」難題 , 引起熱議 , 并被視為或?qū)⑹?OpenAI 的 Sora 和 Google 的 Veo 的強(qiáng)有力競爭者 。
資料顯示 , CraftStory 由全球使用最廣泛的計算機(jī)視覺庫 OpenCV 的創(chuàng)建者 Victor Erukhimov 創(chuàng)立 , 他是 OpenCV 的早期貢獻(xiàn)者之一 , 參與了 OpenCV 庫的開發(fā)和維護(hù) 。 此外 , 他曾聯(lián)合創(chuàng)立 Itseez——專注于開發(fā)運(yùn)行于嵌入式平臺(特別是汽車安全系統(tǒng))的計算機(jī)視覺解決方案 , 擔(dān)任首席技術(shù)官、首席執(zhí)行官和總裁 , 2016 年 Itseez 被英特爾收購 。
CraftStory 此次推出的 Model 2.0 視頻生成系統(tǒng)在視頻時長上的突破 , 可能會為那些難以擴(kuò)大視頻制作規(guī)模以用于培訓(xùn)、營銷和客戶教育的企業(yè) , 帶來巨大的商業(yè)價值 。
大家都知道 , 包括當(dāng)前的行業(yè)佼佼者 OpenAI 的 Sora 2 , 所生成的視頻時長上限也僅為 25 秒 , 同類模型生成的視頻片段也在這個范圍甚至更短 , 雖然生成的視頻畫面精美、性能優(yōu)良 , 但從市場角度考慮 , 難以將其廣泛應(yīng)用 , 尤其是一些電影或長劇集 。
據(jù)了解 , CraftStory 之所以能夠破解視頻時長難題 , 突破性進(jìn)展在于該公司的并行擴(kuò)散架構(gòu) , 這是一種從根本上不同的 AI 模型生成視頻的方法 。
傳統(tǒng)視頻生成模型的工作原理是在越來越大的三維空間中運(yùn)行擴(kuò)散算法 , 其中時間代表第三個軸 。 為了生成更長的視頻 , 這些模型需要相應(yīng)更大的網(wǎng)絡(luò)、更多的訓(xùn)練數(shù)據(jù)以及更多的計算資源 。
而 CraftStory 會在整個視頻播放過程中同時運(yùn)行多個較小的擴(kuò)散算法 , 并通過雙向約束將它們連接起來 。
據(jù) Victor Erukhimov 介紹 , 之所以這樣做 , 是因?yàn)椤敢曨l的后半部分也會影響前半部分 , 這一點(diǎn)非常重要 , 因?yàn)槿绻饌€進(jìn)行處理 , 那么出現(xiàn)在前半部分中的瑕疵就會傳播到后半部分 , 然后不斷累積 。 」
比如 , 對于一個 5 分鐘的視頻片段 , CraftStory 的系統(tǒng)不是生成 8 秒的片段 , 然后拼接其他片段 , 而是通過相互關(guān)聯(lián)的擴(kuò)散過程同時處理所有 5 分鐘的片段 。
另外 , 在模型訓(xùn)練數(shù)據(jù)上 , 除了從互聯(lián)網(wǎng)抓取視頻外 , CraftStory 聘請專業(yè)工作室 , 使用高幀率攝像系統(tǒng)拍攝演員 , 即使是手指等快速移動的物體也能捕捉到清晰的細(xì)節(jié) , 從而避免了標(biāo)準(zhǔn) 30 幀 / 秒 YouTube 視頻中固有的運(yùn)動模糊 , 從中獲取自有素材去對模型進(jìn)行訓(xùn)練 。 因?yàn)樵?Victor Erukhimov 看來 , 制作高質(zhì)量視頻并不需要大量數(shù)據(jù) , 也不需要大量培訓(xùn)預(yù)算 , 而是高質(zhì)量的數(shù)據(jù) 。
Model 2.0 是一個「視頻到視頻」的轉(zhuǎn)換模型:以圖像和行車視頻作為輸入 , 并利用行車視頻中人物的動作 , 根據(jù)圖像生成輸出視頻 。 用戶可以上傳自己的視頻 , 也可以使用 CraftStory 提供的預(yù)設(shè)視頻 。 該模型經(jīng)過訓(xùn)練 , 即使在長達(dá)數(shù)分鐘的視頻序列中 , 也能保留人物的身份、情感和細(xì)微差別 。
目前 , 該系統(tǒng)可在大約 15 分鐘內(nèi)生成 30 秒的低分辨率視頻片段 。 先進(jìn)的唇形同步系統(tǒng)可將嘴部動作與腳本或音軌同步 , 而手勢對齊算法則確保肢體語言與語音節(jié)奏和情感基調(diào)相匹配 。
視頻一經(jīng)發(fā)布 , 引起網(wǎng)友熱議 , 有網(wǎng)友認(rèn)為 , 「CraftStory 利用并行傳播和專有數(shù)據(jù)打造的長篇 AI 視頻是一項(xiàng)明智之舉 。 它突顯了深厚的計算機(jī)視覺技術(shù)如何能夠克服龐大的計算預(yù)算限制 , 滿足企業(yè)對時長至關(guān)重要的、以人為本的持續(xù)內(nèi)容的關(guān)鍵需求 。 」
也有網(wǎng)友認(rèn)為 , Model 2.0 很好地解決了行業(yè)中的「8 秒 AI 視頻難題」 , 「這可能會徹底改變公司處理培訓(xùn)、營銷和故事講述的方式 。 」另外 , CraftStory 的視頻幀率更高 , 「OpenAI是不是要好好反省一下……」
資料顯示 , 本周 CraftStory 剛剛完成一輪 200 萬美元的融資 , 相較于大廠動輒數(shù)億甚至數(shù)十億美元的融資來說 , 這個數(shù)額并不高 , 但 Victor Erukhimov 似乎并不認(rèn)同「巨額資金是成功的先決條件」 。
他在接受媒體采訪時談道 , 「我并不完全認(rèn)同計算能力是通往成功的唯一途徑 , 擁有計算能力當(dāng)然會有幫助 。 但如果你僅僅靠一份 PPT 就籌集到十億美元 , 最終沒有人會滿意 , 無論是創(chuàng)始人還是投資者 。 」
而不同于大多數(shù)視頻生成企業(yè)聚焦消費(fèi)者的創(chuàng)意工具這一塊 , CraftStory 瞄準(zhǔn) ToB 市場 , 更關(guān)注企業(yè) , 尤其是軟件公司該如何制作出色的培訓(xùn)視頻、產(chǎn)品視頻和發(fā)布視頻 。
據(jù) Victor Erukhimov 透露 , CraftStory 的下一個重大發(fā)展方向是「文本轉(zhuǎn)視頻」模型 , 該模型將允許用戶直接從腳本生成長篇內(nèi)容 。 此外 , 團(tuán)隊還在開發(fā)對移動鏡頭場景的支持 , 包括在高端廣告中常見的「邊走邊說」格式 。
參考鏈接:
https://venturebeat.com/ai/opencv-founders-launch-ai-video-startup-to-take-on-openai-and-google
https://x.com/craftstoryai/status/1991147573592080652
【并行擴(kuò)散架構(gòu)突破極限,5分鐘AI視頻生成,叫板OpenAI與谷歌?】https://craftstory.com/countdown/
推薦閱讀
- 面向AI超級周期 諾基亞宣布重大戰(zhàn)略與組織架構(gòu)調(diào)整
- 何愷明團(tuán)隊新作:擴(kuò)散模型可能被用錯了
- 高通第五代驍龍8突然官宣:架構(gòu)細(xì)節(jié)均已清晰,11月26日發(fā)布
- 超算存儲架構(gòu):VAST Data等四家公司打造頂級數(shù)據(jù)存儲方案
- 華為MatePad Edge采用創(chuàng)新散熱架構(gòu) 實(shí)現(xiàn)業(yè)界領(lǐng)先28W性能釋放
- Dell PowerScale閃電項(xiàng)目實(shí)現(xiàn)并行化升級提速文件處理性能
- 賽昉科技發(fā)布首款基于RISC-V架構(gòu)的數(shù)據(jù)中心管理芯片
- Lumina-DiMOO:多模態(tài)擴(kuò)散語言模型重塑圖像生成與理解
- Zen 7架構(gòu)首現(xiàn)身!AMD全新CPU路線圖來了
- 獨(dú)孤求敗!AMD公布Zen 7架構(gòu):首款A(yù)I原生x86處理器 首發(fā)兩大新技術(shù)
