新手上路 如何本地部署ComfyUI 用AI圖生視頻

新手上路 如何本地部署ComfyUI 用AI圖生視頻

文章圖片

新手上路 如何本地部署ComfyUI 用AI圖生視頻

文章圖片

新手上路 如何本地部署ComfyUI 用AI圖生視頻

文章圖片

新手上路 如何本地部署ComfyUI 用AI圖生視頻

文章圖片

新手上路 如何本地部署ComfyUI 用AI圖生視頻

文章圖片

新手上路 如何本地部署ComfyUI 用AI圖生視頻

文章圖片

新手上路 如何本地部署ComfyUI 用AI圖生視頻

文章圖片

新手上路 如何本地部署ComfyUI 用AI圖生視頻

文章圖片

新手上路 如何本地部署ComfyUI 用AI圖生視頻

目前AI技術日益成熟 , 網絡上已經鋪天蓋地出現了AI生成的各種內容 , 包括文章、圖片、視頻等等 。 此前我們簡單科普過本地大語言模型DeepSeek以及StableDiffusion的部署和應用 。
不過除了文章和圖片 , 現在正有越來越多的AI視頻出現在短視頻平臺 , 如面向年輕人的“橘貓系列” , 面向中老年人的“嬰兒系列” 。 今天我們就通過本地部署ComfyUI工作流 , 來看看如何生成那些好玩的AI短視頻 。
前期準備工作 , 前往B站下載 @秋葉aaaki 大佬的【ComfyUI】繪世啟動器 。
本次我們將使用【通義萬相 Wan 2.1】的模型來進行簡單的圖生視頻制作 , 通過科學上網下載Wan 2.1模型
列表中有大量模型 , 主要包含【i2v】與【t2v】 , 分別為圖生視頻與文生視頻 。
如果你的顯卡顯存低于10GB , 建議選擇t2v 1.3B FP16精度的模型;但不建議選擇i2v的圖生視頻模型 , 因為基本無法生成視頻 。
如果顯卡顯存高于12GB , 可選模型就較多了 , 如i2v 480p FP8或者t2v 14B FP8 。
本次我們使用的顯卡為iGame GeForce RTX 5070 Ti Advanced OC 16GB , 可以選擇i2v 720p FP16或t2v 14B FP8精度的模型 。
iGame GeForce RTX 5070 Ti Advanced OC 16GB擁有8960個CUDA , 采用16GB GDDR7顯存 , 位寬256bit , 帶寬896 GB/s 。 算力方面 , FP16與FP32精度浮點運算為 43.94 TFLOPS , 280個第五代Tensor Core可以帶來1406 AI TOPS算力 。
本代RTX 5070 Ti相較上一代最大的變化就是顯存與算力方面的提升 , 16GB大顯存不僅在游戲方面可以無壓力4K , 在AI創作方面 , 更可以解鎖眾多高精度大模型 , 畢竟無論是語言、圖片或是視頻模型 , 顯存是最重要的“鑰匙” 。
回到上面的模型選擇 , 雖然擁有16GB的RTX 5070 Ti可以選擇i2v 720p FP16模型 , 不過FP16與FP8精度的模型實際生成視頻差別并不大 , 但FP8精度生成的速度要快很多 , 反而是分辨率比較重要 。
下載好模型后放到:根目錄-models-diffusion_models下 , 以我們的測試平臺為例:
【ComfyUI-aki-v1.6\\ComfyUI\\models\\diffusion_models\\i2v】
按照以上步驟 , 再下載好Clip Vision、Text encoder、VAE模型(同一個網址分別在不同目錄下) , 分別放到對應的根目錄下即可 。
使用繪世ComfyUI啟動器 , 一鍵啟動 。 即可看到ComfyUI的初始界面 , 先選擇【Manager】 , 將紅框中原本的Stable Version切換為Nightly Version , 然后更新全部 。
等待更新好 , 界面會跳出重啟的提示 , 退出所有界面 , 包括啟動器 , 再次進入后會安裝更新 。 更新完成后再次進入ComfyUI的初始界面即可開始創作 。 在左側工作流中 , 選擇Wan2.1 圖生視頻 。
即可看到完整的Wan2.1 圖生視頻工作流界面 , 下面我們分別講解 。
最左上角UNet加載器為加載模型的地方 , 現在我們使用的為圖生視頻工作流 , 所以要選擇剛剛下載的i2v , 如果是t2v則會報錯 。 我們選擇了720P_14B_FP8模型 , 分辨率較高 , 生成速度會比較慢 。
下面的為剪枝類型 , 可以使用默認的 , 也可以選擇對應的FP8_e4m3fn 。
CLIP模型選擇umt5_xxl_fp8 , 與上面的模型做對應 , 類型選擇wan 。 因為這里面還有fp16或者bf16的模型 , 如果選錯了 , 同樣會報錯 。
CLIP視覺選擇下載好的clip_vision_h , 這里只有一個模型 , 應該不會出錯 。
在頁面偏右側的加載VAE模型中 , 選擇wan_2.1_vae 。
在圖像的尺寸調整中 , 可根據選擇的模型自定義 , 我們選擇了720p的模型 , 這里可以將寬度設置為1280×720 , 如果是豎圖則是720×1280 , 不過這個尺寸比較容易爆顯存 , 16GB以下的顯存建議可以適當調低尺寸 。 如果是480p的模型 , 則可以設置為640×480或480×640.
Wan圖像到視頻可控制生成視頻的總幀數 , 這里設置為45幀 。 所以可以簡單理解生成的視頻有多長 , 但幀數與時間并無直接關系 。
下面的批次大小直接設置為1 , 這里代表同時渲染多少幀 , 它不同于圖片渲染 , 高了會直接爆顯存 , 所以1即可 。
在視頻輸出節點中 , 可以調節視頻的每秒幀數 , 這里設置每秒16幀 , 所以視頻總幀率為45/16≈2.8秒 。
在format可以選擇輸出格式 , 主要為gif或mp4 , 視頻格式的話選擇h264-mp4即可 。
Tea Cach可以簡單理解為渲染抽幀給渲染提速 , 可以簡單理解為在一次渲染中 , 少渲染幾個不重要的幀 , 但前提是降低質量 。
第一項為抽幀的頻率 , 可控制在0.1-0.2之間 , 太高視頻質量會很差 。 第二三項分別為抽幀開始和截至時間 , 0.1為抽幀介入的時間在視頻10%的時間點 , 1為結束時間 。 最下方coefficients則要根據大模型選擇對應的 , 它不分FP8或者FP16精度 , 只選擇對應的分辨率即可 。
該節點可以在不增加現存壓力和時間消耗的基礎之上 , 讓視頻畫面添加更多細節 , 范圍值在0-10 , 大家可以從1或1.5這種幅度累加 。
【新手上路 如何本地部署ComfyUI 用AI圖生視頻】提示詞框 , 綠色為正提示詞 , 紅色為反向提示詞 。 其實CLIP文本編碼并無正反之分 , 不過工作流在制作時 , 手動區分了不同框的提示定義 , 并用顏色作為區分 。 紅色的反向提示詞是官方提供的 , 默認即可 。

    推薦閱讀