
文章圖片

文章圖片

文章圖片

盡管大型語言模型(LLMs)和大型視覺 - 語言模型(VLMs)在視頻分析和長語境處理方面取得了顯著進展 , 但它們在處理信息密集的數小時長視頻時仍顯示出局限性 。
- 論文標題:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
- 論文鏈接:https://arxiv.org/pdf/2505.18079
本文提出了一種新穎的智能體 Deep Video Discovery (DVD) , 通過將長視頻分割為更短的片段并將其視作環境 , 利用 LLM 先進的推理能力來思考問題并自主規劃 , 選擇具有適當參數的工具來從環境中逐步獲取信息 , 最終回答問題 。 在最新的推理模型 OpenAI o3 的幫助下 ,DVD 以這一簡潔有效的 agentic 框架在非常具有挑戰性的 LVBench 上以 74.2% 的準確率大幅超越了之前的工作 。 這一工作將以 MCP Server 的形式開源 。
圖 1:左:DeepVideoDiscovery 的流程示意圖 。 右:LVBench 上的性能比較 。
不同于之前的視頻智能體框架依賴于手動設計的固定工作流程 , DVD 強調其作為智能體的自主性 , 即通過自主規劃 , 決策和行動來解決問題 。
【微軟推出深度視頻探索智能體,登頂多個長視頻理解基準】
為了充分利用這一自主性 , 我們將原始的長視頻轉換為多粒度視頻數據庫 , 并提供了一套以搜索為中心的工具使得智能體在不同階段搜集不同粒度的信息 。 具體來說該系統主要由三個核心組件構成:多粒度視頻數據庫、以搜索為中心的工具集以及作為智能體協調器的 LLM 。
圖 2:DeepVideoDiscovery 分為兩個 stage , 首先將長視頻轉化為多粒度的視頻數據庫 , 然后通過自主搜索和工具使用對用戶的問題生成回答 。
在 “多粒度視頻數據庫構建” 階段 , 系統將超長視頻轉換為一個結構化數據庫 , 通過統一將視頻分割成短片段(例如 5 秒) , 并提取全局、片段和幀級別的多粒度信息 , 包括主題中心化摘要、片段字幕及其嵌入向量 , 以及原始解碼幀... 。
隨后在 “智能體搜索和回答” 階段 , DVD 智能體配備了三個核心工具:
(1) 全局瀏覽(Global Browse) , 用于獲取高層上下文信息和視頻內容的全局摘要(包括視頻物體和事件摘要) 。
(2) 片段搜索(Clip Search)工具 , 實現通過片段描述 Embedding 對視頻內容進行高效語義檢索 , 并返回排名靠前的相關視頻片段及其字幕和時間范圍 。
(3) 幀檢查(Frame Inspect) , 用于從指定時間范圍內的像素級信息中提取細粒度細節 , 并提供開放格式的視覺問答(VQA)響應 。
LLM 作為核心認知驅動器 , 在迭代的 “觀察 - 推理 - 行動” 循環中 , 根據累積的知識和推理證據采取行動 , 從而賦予智能體自主、證據引導和靈活的行動機制 , 有效地將原始查詢分解為逐步細化的子查詢來解答問題 。
表 1:本文提出的 Deep Video Discovery 在 LVBench 上以較大的幅度領先已有的工作 。
該系統在多個長視頻基準測試上進行了全面評估 , 展現了其卓越的效率和強大的性能 。 在極具挑戰性的 LVBench 數據集上 , DVD 智能體取得了 74.2% 的最新準確率 , 大幅超越了所有現有工作 , 包括先前的最先進模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升) 。 在輔助轉錄的幫助下 , 準確率進一步提高到 76.0% 。 在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他長視頻基準測試中 , DVD 也持續超越了先前的最先進性能 。
圖 3:不同基礎模型在智能體中的行為分析 。 圖中可以明顯看出不同基礎模型表現出顯著的行為模式差異 , 不具有推理能力 GPT-4o 表現出非常單一的行為模型 。
消融研究證實了工具設計的有效性 , 并強調了推理模型在整個智能體系統中的關鍵作用:更換推理模型(如使用 OpenAI o4-mini 或 GPT-4o)會導致性能下降 , 這表明 LLM 推理能力的缺失會導致智能體行為崩潰 。 對智能體推理行為的分析也揭示了不同模型在工具調用模式、推理深度和準確性之間的關聯 , 例如 GPT-4o 表現出過度自信和行為崩潰 , 傾向于過早結束推理 。 這些行為模式的分析進一步為未來的智能體設計以及基礎語言模型的發展提供了實踐參考 。
推薦閱讀
- 看片神器!AirPods 將推出實時對話翻譯功能
- 獨家揭秘OpenAI核心文件:AGI五級突破實錘,微軟130億投資或打水漂
- 微軟宣稱Win11比Win10快2.3倍!結果是新電腦VS. 9年前老爺機
- 顯存占用驟降20%!NVIDIA DLSS新模型終于正式推出
- 小米AI眼鏡深度體驗:續航長、軟件強,但工程機味道濃
- 微軟宣稱Windows 11比Windows 10速度提高2.3倍
- 九鯊推出JF15K風冷散熱器:雙塔四風扇
- 更加小巧易用 Jabra 推出 PanaCast 40 VBS
- 谷歌推出Gemini AI編碼工具
- Insta360也搞生態系統 推出無線迷你麥克風Mic Air
