DeepMind率先提出CoF:視頻模型有自己的思維鏈

DeepMind率先提出CoF:視頻模型有自己的思維鏈

文章圖片

DeepMind率先提出CoF:視頻模型有自己的思維鏈

文章圖片

DeepMind率先提出CoF:視頻模型有自己的思維鏈

文章圖片

DeepMind率先提出CoF:視頻模型有自己的思維鏈

文章圖片

DeepMind率先提出CoF:視頻模型有自己的思維鏈

文章圖片

DeepMind率先提出CoF:視頻模型有自己的思維鏈

【DeepMind率先提出CoF:視頻模型有自己的思維鏈】CoT思維鏈的下一步是什么?
DeepMind提出幀鏈CoF(chain-of-frames) 。
逐幀視頻生成類似于語言模型中的鏈式思維 。 就像鏈式思維(CoT)使語言模型能夠用符號進行推理一樣 , “幀鏈”(CoF)使視頻模型能夠在時間和空間上進行推理 。
以上觀點來自DeepMind最新公開的Veo 3論文 , 類比語言模型中的CoT , 他們首次提出了CoF這一概念 。
并且 , 團隊通過大量測試發現——
以Veo 3為代表的視頻模型正在發展通用視覺理解能力 , 可以零樣本解決從“看”到“想”的全鏈條視覺任務 , 而且進步飛快 , 未來有望成為機器視覺的“通用基礎模型” 。
更簡單粗暴的總結就是 , “Veo 3是視覺推理領域的GPT-3時刻” 。
Anyway , 要想深入理解這一新概念以及其價值意義 , 還是先來看看論文原文吧——

DeepMind首次提出CoF概念據論文介紹 , CoF的提出源于DeepMind團隊的一個好奇:
視頻生成模型能不能像ChatGPT這類大語言模型(LLM)一樣 , 不用專門練某個任務 , 就能搞定各種視覺工作 , 最終變成“通用視覺基礎模型”?
為什么追求通用?主要是現在的機器視覺領域還停留在“NLP的老階段”——
要分割物體就得用“Segment Anything”、要檢測物體就得用YOLO、換個任務就得重新調模型、甚至重訓……
既然現在的視頻生成模型和LLM用的是同一套底層邏輯——用海量數據“大力出奇跡” , 那說明通用視覺并非無稽之談 。
為了驗證這一猜想 , 團隊用了一個非常簡單粗暴的方法:只給提示 , 不搞特殊訓練 。 通過Google的API , 給模型“一張初始圖(當第一?。 ? 一段文字指令” , 讓模型生成8秒、720p的視頻 。
這和LLM“用提示替代專屬訓練”的邏輯完全一致 , 目的就是為了驗證模型的原生通用能力 , 純靠模型自己去完成任務 。
而通過一系列測試 , 團隊發現視頻模型真的具備通用潛力 。
具體而言 , 他們以Veo 3為實驗對象 , 發現其具備四大能力(層層遞進):
第一 , 不用專門訓練 , Veo 3就能搞定很多經典視覺任務 , 具備感知能力 。
無論是基礎任務(如把模糊圖變清晰) , 還是復雜任務(如在一堆東西里找“藍色的球”) , 它都能輕松應對 。
第二 , 光看明白還不夠 , Veo 3還能“建立視覺世界的規則” , 具備建模能力 。
這體現在它既懂物理(如知道石頭會沉) , 又懂抽象關系(如把能裝進背包的東西放進去)上 。
第三 , 基于“看明白”和“懂規律” , Veo 3還能主動改變視覺世界 , 具備操控能力 。
比如改改圖(給小鳥加上圍巾、置身雪景) , 或者搞3D和模擬(讓騎士從朝前變成單膝跪地) 。
第四 , 整合前面的能力 , Veo 3可以實現跨時空視覺推理 , 也就是所謂的CoF幀鏈 。
給它一道解迷宮的難題:讓紅點從起點沿白色路徑走到綠點 。
Veo 3能生成紅點一步步規劃路徑的視頻 , 不碰黑墻 。 5×5迷宮玩了10次 , Veo 3成功率78% , Veo 2才14% 。
更多推理測試也表明 , 雖然推理能力還不完美(復雜的旋轉類比會出錯) , 但已經能看到“視覺智能的雛形”了 。
整體而言 , 團隊通過測試得出了以下三個核心結論:
1、經過對62項定性任務和7項定量任務中生成的18384個視頻的分析 , 團隊發現Veo 3能夠解決許多它未曾接受過訓練或調整的任務 。
2、Veo 3利用其感知、建模和操作視覺世界的能力 , 展現出了類似“幀鏈(CoF)”的視覺推理的早期形態 。
3、盡管針對特定任務定制的模型在零樣本視頻模型中表現更優 , 但團隊觀察到從Veo 2到Veo 3的性能有了顯著且一致的提升 , 這表明視頻模型的能力正在迅速發展 。

“通才會取代專才”此外 , 基于Veo 3當前的表現以及成本可能持續下降的預測 , DeepMind也大膽開麥:
在視頻模型領域 , 未來“通才”會取代“專才” 。
具體而言 , Veo 3作為通用視頻模型 , 在特定任務上確實仍落后于專用SOTA模型 , 如邊緣檢測精度不及專門優化的算法 。
但從發展趨勢看 , 這種差距正隨模型能力快速提升而縮小 , 類似早期大語言模型(如GPT-3)雖整體不如任務微調模型 , 但通過架構、數據與訓練方法的演進 , 最終成長為強大的通用基礎模型 。
比如相比前一代Veo 2 , Veo 3在短期內全面升級 。 這證明模型的通用視覺與生成能力正處于快速上升期 , 類比2020年前后LLM的突飛猛進階段 。
其次 , 通過多嘗試(pass@10) 策略 , 即同一任務多次生成并擇優 , Veo 3性能顯著高于單次生成 , 且隨著嘗試次數增加仍有提升空間 , 無明顯上限 。 而且結合推理時縮放、RLHF指令微調等技術 , Veo 3性能仍有望進一步提升 。
此外 , 盡管目前視頻生成的成本高于專用任務模型 , 但根據Epoch AI的數據——LLM推理成本每年下降9~900倍 , 且NLP早期通用模型(如GPT-3)也曾因成本被質疑 , 但最終因“通用價值+成本下降”替代了專屬模型 。
因此 , 大概率機器視覺會走上同樣路徑 , 未來視頻模型的成本問題將逐步得到解決 。
總而言之 , DeepMind對通用視頻模型可謂信心滿滿 。
而此次提出的新概念CoF , 也正如網友所言 , 有望和當初的CoT一樣 , 為視頻模型開辟出新的道路 。
論文:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf
參考鏈接:
[1
https://x.com/AndrewCurran_/status/1971997723261075905
[2
https://simonwillison.net/2025/Sep/27/video-models-are-zero-shot-learners-and-reasoners/
本文來自微信公眾號“量子位” , 作者:一水 , 36氪經授權發布 。

    推薦閱讀