并行擴(kuò)散架構(gòu)突破極限，5分鐘AI視頻生成，叫板OpenAI與谷歌？_新能源

文章圖片

文章圖片

文章圖片

機(jī)器之心報道
機(jī)器之心編輯部
近日，一家名為 CraftStory 的 AI 初創(chuàng)公司推出了 Model 2.0 視頻生成系統(tǒng) ，憑借可生成長達(dá)五分鐘的富有表現(xiàn)力、可媲美專業(yè)水準(zhǔn)、以人為中心的視頻，破解了困擾 AI 視頻生成行業(yè)長久以來的「視頻時長」難題，引起熱議，并被視為或?qū)⑹?OpenAI 的 Sora 和 Google 的 Veo 的強(qiáng)有力競爭者。

資料顯示， CraftStory 由全球使用最廣泛的計算機(jī)視覺庫 OpenCV 的創(chuàng)建者 Victor Erukhimov 創(chuàng)立，他是 OpenCV 的早期貢獻(xiàn)者之一，參與了 OpenCV 庫的開發(fā)和維護(hù) 。此外，他曾聯(lián)合創(chuàng)立 Itseez——專注于開發(fā)運(yùn)行于嵌入式平臺（特別是汽車安全系統(tǒng)）的計算機(jī)視覺解決方案，擔(dān)任首席技術(shù)官、首席執(zhí)行官和總裁， 2016 年 Itseez 被英特爾收購。
CraftStory 此次推出的 Model 2.0 視頻生成系統(tǒng)在視頻時長上的突破，可能會為那些難以擴(kuò)大視頻制作規(guī)模以用于培訓(xùn)、營銷和客戶教育的企業(yè) ，帶來巨大的商業(yè)價值。

大家都知道，包括當(dāng)前的行業(yè)佼佼者 OpenAI 的 Sora 2 ，所生成的視頻時長上限也僅為 25 秒，同類模型生成的視頻片段也在這個范圍甚至更短，雖然生成的視頻畫面精美、性能優(yōu)良，但從市場角度考慮，難以將其廣泛應(yīng)用，尤其是一些電影或長劇集。
據(jù)了解， CraftStory 之所以能夠破解視頻時長難題，突破性進(jìn)展在于該公司的并行擴(kuò)散架構(gòu) ，這是一種從根本上不同的 AI 模型生成視頻的方法。
傳統(tǒng)視頻生成模型的工作原理是在越來越大的三維空間中運(yùn)行擴(kuò)散算法，其中時間代表第三個軸。為了生成更長的視頻，這些模型需要相應(yīng)更大的網(wǎng)絡(luò)、更多的訓(xùn)練數(shù)據(jù)以及更多的計算資源。
而 CraftStory 會在整個視頻播放過程中同時運(yùn)行多個較小的擴(kuò)散算法，并通過雙向約束將它們連接起來。
據(jù) Victor Erukhimov 介紹，之所以這樣做，是因?yàn)椤敢曨l的后半部分也會影響前半部分，這一點(diǎn)非常重要，因?yàn)槿绻饌€進(jìn)行處理，那么出現(xiàn)在前半部分中的瑕疵就會傳播到后半部分，然后不斷累積。」
比如，對于一個 5 分鐘的視頻片段， CraftStory 的系統(tǒng)不是生成 8 秒的片段，然后拼接其他片段，而是通過相互關(guān)聯(lián)的擴(kuò)散過程同時處理所有 5 分鐘的片段。
另外，在模型訓(xùn)練數(shù)據(jù)上，除了從互聯(lián)網(wǎng)抓取視頻外， CraftStory 聘請專業(yè)工作室，使用高幀率攝像系統(tǒng)拍攝演員，即使是手指等快速移動的物體也能捕捉到清晰的細(xì)節(jié) ，從而避免了標(biāo)準(zhǔn) 30 幀 / 秒 YouTube 視頻中固有的運(yùn)動模糊，從中獲取自有素材去對模型進(jìn)行訓(xùn)練。因?yàn)樵?Victor Erukhimov 看來，制作高質(zhì)量視頻并不需要大量數(shù)據(jù) ，也不需要大量培訓(xùn)預(yù)算，而是高質(zhì)量的數(shù)據(jù) 。
Model 2.0 是一個「視頻到視頻」的轉(zhuǎn)換模型：以圖像和行車視頻作為輸入，并利用行車視頻中人物的動作，根據(jù)圖像生成輸出視頻。用戶可以上傳自己的視頻，也可以使用 CraftStory 提供的預(yù)設(shè)視頻。該模型經(jīng)過訓(xùn)練，即使在長達(dá)數(shù)分鐘的視頻序列中，也能保留人物的身份、情感和細(xì)微差別。
目前，該系統(tǒng)可在大約 15 分鐘內(nèi)生成 30 秒的低分辨率視頻片段。先進(jìn)的唇形同步系統(tǒng)可將嘴部動作與腳本或音軌同步，而手勢對齊算法則確保肢體語言與語音節(jié)奏和情感基調(diào)相匹配。
視頻一經(jīng)發(fā)布，引起網(wǎng)友熱議，有網(wǎng)友認(rèn)為，「CraftStory 利用并行傳播和專有數(shù)據(jù)打造的長篇 AI 視頻是一項(xiàng)明智之舉。它突顯了深厚的計算機(jī)視覺技術(shù)如何能夠克服龐大的計算預(yù)算限制，滿足企業(yè)對時長至關(guān)重要的、以人為本的持續(xù)內(nèi)容的關(guān)鍵需求。」

也有網(wǎng)友認(rèn)為， Model 2.0 很好地解決了行業(yè)中的「8 秒 AI 視頻難題」，「這可能會徹底改變公司處理培訓(xùn)、營銷和故事講述的方式。」另外， CraftStory 的視頻幀率更高，「OpenAI是不是要好好反省一下……」

資料顯示，本周 CraftStory 剛剛完成一輪 200 萬美元的融資，相較于大廠動輒數(shù)億甚至數(shù)十億美元的融資來說，這個數(shù)額并不高，但 Victor Erukhimov 似乎并不認(rèn)同「巨額資金是成功的先決條件」。
他在接受媒體采訪時談道，「我并不完全認(rèn)同計算能力是通往成功的唯一途徑，擁有計算能力當(dāng)然會有幫助。但如果你僅僅靠一份 PPT 就籌集到十億美元，最終沒有人會滿意，無論是創(chuàng)始人還是投資者。」
而不同于大多數(shù)視頻生成企業(yè)聚焦消費(fèi)者的創(chuàng)意工具這一塊， CraftStory 瞄準(zhǔn) ToB 市場，更關(guān)注企業(yè) ，尤其是軟件公司該如何制作出色的培訓(xùn)視頻、產(chǎn)品視頻和發(fā)布視頻。
據(jù) Victor Erukhimov 透露， CraftStory 的下一個重大發(fā)展方向是「文本轉(zhuǎn)視頻」模型，該模型將允許用戶直接從腳本生成長篇內(nèi)容。此外，團(tuán)隊還在開發(fā)對移動鏡頭場景的支持，包括在高端廣告中常見的「邊走邊說」格式。
參考鏈接：
https://venturebeat.com/ai/opencv-founders-launch-ai-video-startup-to-take-on-openai-and-google
https://x.com/craftstoryai/status/1991147573592080652
【并行擴(kuò)散架構(gòu)突破極限，5分鐘AI視頻生成，叫板OpenAI與谷歌？】https://craftstory.com/countdown/

并行擴(kuò)散架構(gòu)突破極限，5分鐘AI視頻生成，叫板OpenAI與谷歌？

推薦閱讀

晚上只喝啤酒反而瘦了為什么還胖了晚上只喝啤酒反而瘦了什么原因

2022廣東省高考體育類一分一段分?jǐn)?shù)統(tǒng)計表

大專生畢業(yè)需要什么條件

微信一次性刪除多個聊天記錄

夏季豬舍防潮的辦法

新鮮的車?yán)遄邮怯驳倪€是軟的_車?yán)遄釉趺磁袛嘈虏恍迈r

2023年11月份最吉利開廁哪天

鎧甲勇士拿瓦演員表鎧甲勇士拿瓦由誰主演

Mac與Windows如何創(chuàng)建局域網(wǎng)共享文件夾并互相訪問

沒趕上火車可以退票或者改簽嗎？

小米6 陶瓷白哪個,小米6可以用幾年

樂山二手面包車報價，二手面包車長安星光09款10年的二手車多少錢

體驗(yàn)廣汽傳祺GS5,廣汽傳祺gs5評價

酒店網(wǎng)站的類別,在網(wǎng)上訂酒店選哪個網(wǎng)站好

2021年各手機(jī)品牌旗艦機(jī) ZOL中關(guān)村在線

都江堰和紫坪鋪水庫是什么關(guān)系，臥龍巴郎山屬于岷江流域嗎