DeepMind率先提出CoF：視頻模型有自己的思維鏈

2026-04-26

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

【DeepMind率先提出CoF：視頻模型有自己的思維鏈】CoT思維鏈的下一步是什么？
DeepMind提出幀鏈CoF（chain-of-frames）。
逐幀視頻生成類似于語言模型中的鏈式思維。就像鏈式思維（CoT）使語言模型能夠用符號進行推理一樣， “幀鏈”（CoF）使視頻模型能夠在時間和空間上進行推理。
以上觀點來自DeepMind最新公開的Veo 3論文，類比語言模型中的CoT ，他們首次提出了CoF這一概念。
并且，團隊通過大量測試發現——
以Veo 3為代表的視頻模型正在發展通用視覺理解能力，可以零樣本解決從“看”到“想”的全鏈條視覺任務，而且進步飛快，未來有望成為機器視覺的“通用基礎模型” 。
更簡單粗暴的總結就是， “Veo 3是視覺推理領域的GPT-3時刻” 。
Anyway ，要想深入理解這一新概念以及其價值意義，還是先來看看論文原文吧——

DeepMind首次提出CoF概念據論文介紹， CoF的提出源于DeepMind團隊的一個好奇：
視頻生成模型能不能像ChatGPT這類大語言模型（LLM）一樣，不用專門練某個任務，就能搞定各種視覺工作，最終變成“通用視覺基礎模型”？
為什么追求通用？主要是現在的機器視覺領域還停留在“NLP的老階段”——
要分割物體就得用“Segment Anything”、要檢測物體就得用YOLO、換個任務就得重新調模型、甚至重訓……
既然現在的視頻生成模型和LLM用的是同一套底層邏輯——用海量數據“大力出奇跡” ，那說明通用視覺并非無稽之談。
為了驗證這一猜想，團隊用了一個非常簡單粗暴的方法：只給提示，不搞特殊訓練。通過Google的API ，給模型“一張初始圖（當第一?。 ? 一段文字指令” ，讓模型生成8秒、720p的視頻。
這和LLM“用提示替代專屬訓練”的邏輯完全一致，目的就是為了驗證模型的原生通用能力，純靠模型自己去完成任務。
而通過一系列測試，團隊發現視頻模型真的具備通用潛力。
具體而言，他們以Veo 3為實驗對象，發現其具備四大能力（層層遞進）：
第一，不用專門訓練， Veo 3就能搞定很多經典視覺任務，具備感知能力。
無論是基礎任務（如把模糊圖變清晰），還是復雜任務（如在一堆東西里找“藍色的球”），它都能輕松應對。
第二，光看明白還不夠， Veo 3還能“建立視覺世界的規則” ，具備建模能力。
這體現在它既懂物理（如知道石頭會沉），又懂抽象關系（如把能裝進背包的東西放進去）上。
第三，基于“看明白”和“懂規律” ， Veo 3還能主動改變視覺世界，具備操控能力。
比如改改圖（給小鳥加上圍巾、置身雪景），或者搞3D和模擬（讓騎士從朝前變成單膝跪地）。
第四，整合前面的能力， Veo 3可以實現跨時空視覺推理，也就是所謂的CoF幀鏈。
給它一道解迷宮的難題：讓紅點從起點沿白色路徑走到綠點。
Veo 3能生成紅點一步步規劃路徑的視頻，不碰黑墻。 5×5迷宮玩了10次， Veo 3成功率78% ， Veo 2才14% 。
更多推理測試也表明，雖然推理能力還不完美（復雜的旋轉類比會出錯），但已經能看到“視覺智能的雛形”了。
整體而言，團隊通過測試得出了以下三個核心結論：
1、經過對62項定性任務和7項定量任務中生成的18384個視頻的分析，團隊發現Veo 3能夠解決許多它未曾接受過訓練或調整的任務。
2、Veo 3利用其感知、建模和操作視覺世界的能力，展現出了類似“幀鏈（CoF）”的視覺推理的早期形態。
3、盡管針對特定任務定制的模型在零樣本視頻模型中表現更優，但團隊觀察到從Veo 2到Veo 3的性能有了顯著且一致的提升，這表明視頻模型的能力正在迅速發展。

“通才會取代專才”此外，基于Veo 3當前的表現以及成本可能持續下降的預測， DeepMind也大膽開麥：
在視頻模型領域，未來“通才”會取代“專才” 。
具體而言， Veo 3作為通用視頻模型，在特定任務上確實仍落后于專用SOTA模型，如邊緣檢測精度不及專門優化的算法。
但從發展趨勢看，這種差距正隨模型能力快速提升而縮小，類似早期大語言模型（如GPT-3）雖整體不如任務微調模型，但通過架構、數據與訓練方法的演進，最終成長為強大的通用基礎模型。
比如相比前一代Veo 2 ， Veo 3在短期內全面升級。這證明模型的通用視覺與生成能力正處于快速上升期，類比2020年前后LLM的突飛猛進階段。
其次，通過多嘗試（pass@10）策略，即同一任務多次生成并擇優， Veo 3性能顯著高于單次生成，且隨著嘗試次數增加仍有提升空間，無明顯上限。而且結合推理時縮放、RLHF指令微調等技術， Veo 3性能仍有望進一步提升。
此外，盡管目前視頻生成的成本高于專用任務模型，但根據Epoch AI的數據——LLM推理成本每年下降9~900倍，且NLP早期通用模型（如GPT-3）也曾因成本被質疑，但最終因“通用價值+成本下降”替代了專屬模型。
因此，大概率機器視覺會走上同樣路徑，未來視頻模型的成本問題將逐步得到解決。
總而言之， DeepMind對通用視頻模型可謂信心滿滿。
而此次提出的新概念CoF ，也正如網友所言，有望和當初的CoT一樣，為視頻模型開辟出新的道路。
論文：https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf
參考鏈接：
[1
https://x.com/AndrewCurran_/status/1971997723261075905
[2
https://simonwillison.net/2025/Sep/27/video-models-are-zero-shot-learners-and-reasoners/
本文來自微信公眾號“量子位” ，作者：一水， 36氪經授權發布。

推薦閱讀

上一篇：穩了，華為 Mate 80 提前發？

下一篇：從“綠皮火車”到“高鐵”：潮闊的 3D 打印突圍｜最前線