FOCUS 關鍵幀提?。洪L視頻理解能力提升11.9%,只需采樣

FOCUS 關鍵幀提?。洪L視頻理解能力提升11.9%,只需采樣

文章圖片

FOCUS 關鍵幀提?。洪L視頻理解能力提升11.9%,只需采樣

文章圖片

FOCUS 關鍵幀提?。洪L視頻理解能力提升11.9%,只需采樣

文章圖片

FOCUS 關鍵幀提?。洪L視頻理解能力提升11.9%,只需采樣

文章圖片

FOCUS 關鍵幀提?。洪L視頻理解能力提升11.9%,只需采樣

文章圖片




本文第一作者朱子瑞為新加坡國立大學四年級博士生 , 本科畢業于清華大學 , 研究方向為多模態大模型和后訓練優化 。 通訊作者為 TikTok 內容智能負責人 Kanchan Sarkar、Meta楊振恒博士(相關工作完成于其在 TikTok 任職期間)以及新加坡國立大學校長青年教授尤洋老師 。

文章速覽

長視頻會使 MLLM 的視覺 token 規??焖僭鲩L , 但推理階段的計算與上下文預算有限 , 難以對全量幀進行處理 。

現有關鍵幀方案通常還需先用 CLIP/BLIP 等視覺編碼器全視頻逐幀預掃描 , 即使最終只保留少量幀 , 前置計算成本依然很高 。

本文提出 FOCUS:將關鍵幀選擇建模為組合純探索(CPE)多臂賭博機 , 以自適應的 “探索 — 利用” 策略在無需遍歷全幀的前提下先鎖定高價值時間段 , 再在段內精挑關鍵幀 。

無需訓練、即插即用:可直接接入現有 MLLM(如 GPT-4o 或 Qwen)的推理流程 , 不依賴特定模型結構與訓練方式 。 效果更強:在20 分鐘 的長視頻 VQA benchmark 設定下 , FOCUS 選幀相較均勻抽幀可帶來 11.9% 的性能提升 。 成本更低:不依賴降采樣等預過濾手段 , 平均只需觀察2% 的幀即可達到上述收益 , 顯著降低推理計算開銷 。


論文標題:FOCUS: Efficient Keyframe Selection for Long Video Understanding 論文鏈接:https://arxiv.org/abs/2510.27280 代碼倉庫:https://github.com/NUS-HPC-AI-Lab/FOCUS
背景:長視頻理解為什么難?

長視頻理解是多模態大模型(MLLM)中最為困難的問題之一 。 一段小時級、30fps 的標準視頻往往包含十萬量級以上的幀數 。

對于主流 MLLM 而言 , 無論是先將視頻幀編碼為視覺 token、還是進一步進行跨模態交互建模 , 計算與上下文開銷都會隨幀數快速增長:“全量幀輸入” 在絕大多數真實推理場景中并不現實 。

因此 , “挑選關鍵幀” 幾乎是所有長視頻系統的必經步驟 。 最常見的均勻抽?。 ń擋裳┧淙荒蕓爻殺?, 卻容易錯過集中在短片段中的決定性證據 , 導致模型在核心信息缺失的情況下 “盲答” 。

現有關鍵幀方法大致分為兩類:一類是 training-based , 訓練輕量選擇器從全量幀中挑子集 , 但面臨標注困難、組合爆炸帶來的訓練與工程成本 , 以及對下游模型結構 / 訓練方式的依賴;另一類是 training-free 的檢索式方案 , 用 CLIP、BLIP 等編碼器計算 “幀 — 文本” 相關性再選幀 。

后者雖免訓練 , 卻往往需要先對全視頻逐幀預編碼 , 面對小時級視頻時單視頻計算開銷仍可能達到約FLOPs 量級 , 難以部署 。

因此 , 我們需要一種更高效的選幀方式:在不犧牲準確性的前提下 , 避免對全視頻逐幀預掃 , 降低推理代價 , 用盡可能少的觀測幀數快速定位與 query 相關的高價值片段 , 真正滿足現實系統的效率與可用性要求 。

方法:FOCUS 的兩階段探索 - 利用

基于上述動機 , 本文提出 FOCUS , 一個無需訓練、可即插即用的關鍵幀選擇算法 。 FOCUS 的核心思想是:將 “在預算內找到最有用的幀” 視為一個組合探索問題 —— 算法不必先看完整視頻再做選擇 , 而是可以通過少量試探性采樣(探索)逐步縮小候選范圍 , 再將預算集中到最有價值的區域(利用) 。



具體而言 , FOCUS 將關鍵幀選擇建模為組合純探索(CPE)的多臂賭博機問題 , 并采用兩階段的 coarse-to-fine 策略:

第一階段:定位高價值時間段(粗粒度探索) 。

我們把長視頻切分為若干時間段 , 將每個時間段視作一個 “臂” 。 FOCUS 在有限預算下 , 對不同時間段進行自適應抽樣:對 “可能與 query 更相關” 的時間段分配更多采樣 , 對明顯無關的時間段快速減少采樣 。 通過維護每個時間段的估計收益與不確定性(置信界) , 算法可以在不遍歷全視頻的情況下 , 把注意力收斂到少量候選高價值時間段 。

第二階段:在段內精挑關鍵?。 ㄏ噶6壤茫?。

當候選時間段被鎖定后 , FOCUS 在這些時間段內部進一步選擇?。 和ü?“少量試探 + 置信驅動” 的方式 , 把幀預算集中到最相關的畫面上 , 輸出最終關鍵幀集合供下游 MLLM 推理 。



FOCUS 的效率優勢使其可以作為一個前置模塊 , 直接插入現有 MLLM 推理 pipeline , 在不同模型、不同任務上復用 。

實驗:即插即用的長視頻理解利器

為了驗證 FOCUS 的通用性與有效性 , 作者在四個公開視頻問答(Video QA)基準上進行了評測 , 并選擇了四種常用的 MLLM 作為下游推理模型 , 包括 GPT-4o、Qwen2-VL、LLaVA-OV、LLaVA-Video 等 。





作者進一步地將 FOCUS 與目前最有代表性的關鍵幀選擇方法進行了對比 。



結果表明:在長視頻場景(例如20 分鐘 的設定)下 , FOCUS 相比均勻抽幀帶來最高 11.9% 的性能提升 。 同時 , FOCUS 在不依賴降采樣等預過濾手段的情況下 , 平均僅需觀察2% 的幀即可達到上述收益 , 顯著降低了關鍵幀選擇與推理階段的總體計算開銷 。

分析:高效定位視頻關鍵信息

1. 可視化:FOCUS 能更精準地找到與 query 相關的證據片段

作者對若干典型樣例進行可視化分析:在長視頻中 , FOCUS 通過兩階段探索快速將注意力收斂到少量高價值片段 , 再在片段內部挑出證據幀 , 使得輸入給 MLLM 的幀更 “信息密集” , 從而提升回答質量 。



2. 效率提升:相比全幀預掃的選幀范式 , FOCUS 的端到端開銷更可控

FOCUS 的效率優勢在于:它的選擇過程本身就是省幀的 , 能夠在探索階段動態跳過大量無關區域 , 避免將計算預算花在 “無用的全量預掃” 上 , 相對于基線方法大大降低推理開銷 。



同時 FOCUS 提供了清晰的預算控制接口:當系統更關注性能時 , 可以適當增加探索預算;當系統更關注吞吐 / 延遲時 , 可以通過調整超參數收緊預算 。



總結

長視頻理解的核心難點在于:視覺 token 隨幀數快速膨脹 , 均勻抽幀又容易漏掉關鍵證據;而現有關鍵幀方法存在著訓練代價高、依賴模型結構的問題 , 或者雖免訓練仍需全幀預編碼 , 難以滿足真實系統的效率要求 。

【FOCUS 關鍵幀提?。洪L視頻理解能力提升11.9%,只需采樣】FOCUS 將選幀建模為組合純探索 , 通過兩階段 “探索 — 利用” 在不遍歷全幀的情況下定位與 query 相關的高價值片段;平均僅觀察2% 幀即可在長視頻設定下帶來最高 +11.9% 的準確率提升 。 它可作為即插即用的推理組件 , 為 MLLM 長視頻應用提供更可控的成本與表現 。

    推薦閱讀