頂刊TPAMI|多模態視頻理解領域重磅數據更新:MeViSv2發布

頂刊TPAMI|多模態視頻理解領域重磅數據更新:MeViSv2發布

文章圖片

頂刊TPAMI|多模態視頻理解領域重磅數據更新:MeViSv2發布

文章圖片

頂刊TPAMI|多模態視頻理解領域重磅數據更新:MeViSv2發布

文章圖片

頂刊TPAMI|多模態視頻理解領域重磅數據更新:MeViSv2發布

文章圖片

頂刊TPAMI|多模態視頻理解領域重磅數據更新:MeViSv2發布

文章圖片


【頂刊TPAMI|多模態視頻理解領域重磅數據更新:MeViSv2發布】

近日 , 多模態視頻理解領域迎來重磅更新!由復旦大學、上海財經大學、南洋理工大學聯合打造的 MeViSv2 數據集正式發布 , 并已被頂刊 IEEE TPAMI 錄用 。



論文:MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation , TPAMI 2025 arXiv 鏈接:https://arxiv.org/abs/2512.10945 數據集官網:https://henghuiding.com/MeViS/ 數據集下載:https://henghuiding.com/MeViS/#dataset 評測平臺:https://www.codabench.org/competitions/11420/ 單位:復旦大學、上海財經大學、南洋理工大學
作為目前該領域最具有代表性的數據集之一 , MeViSv2 圍繞復雜動作推理來挑戰現有模型的多模態處理能力 , 其包含 2006 個視頻、8171 個目標及 33072 條文本 / 音頻表達 , 通過新增 15 萬秒音頻數據實現了向原生多模態的進化 。

該數據集不僅全面支持 RVOS、RMOT、AVOS 以及 RMEG 四大核心任務 , 更引入了 “無目標語句” 和 “運動推理” 等機制 , 旨在挑戰模型邏輯推理與魯棒性的天花板 。 目前 , 數據集、代碼及評測平臺均已開放 。


圖 1:MeViS 示例 , MeViS 中的表達主要側重于運動屬性 , 使得僅憑單幀圖像無法識別目標對象 。 最新的 MeViSv2 進一步提供了運動推理和無目標表達式 , 同時給每一個文本提供了對應的音頻記錄 。

MeViSv1:從 “靜態特征識別” 到 “動態運動理解”

指向性視頻分割(RVOS)是多模態視頻理解的重要方向 , 近年備受關注 。 依托自然語言交互的靈活性 , RVOS 在具身智能、視頻編輯和輔助駕駛等領域展現出廣闊的應用前景 。 然而 , 在 Refer-YouTube-VOS 和 DAVIS 等早期 RVOS 數據集中 , 研究人員發現了一個 “隱形缺陷”:目標物體往往具有顯而易見的靜態屬性 。 模型只需看一眼單幀圖像 , 依靠 “紅衣服”、“左邊” 等靜態線索就能鎖定目標 , 完全忽略了視頻作為 “時間序列” 的動態本質 。

為了打破這一局限 , MeViS (Motion expressions Video Segmentation) 應運而生 。 其初版 MeViSv1 便確立了探索像素級視頻理解的三大核心理念:

運動優先 (Motion Priority):標注指南強制要求語言表達式必須側重于描述對象的運動線索(例如:奔跑、飛翔、移動) , 而非靜態特征 , 迫使模型必須關注視頻的時間動態信息 。復雜場景 (Complex Scenes):視頻素材特意選自復雜、多對象的場景 , 拒絕 “簡單背景下的單一個體” , 極大提高了辨識難度 。長時序關聯 (Long-term Dependency):MeViS 視頻的平均時長為 13.16 秒 , 目標物體平均持續時間長達 10.88 秒 , 遠超同類數據集(通常僅約 5 秒) 。 這對模型理解長時許動作以及處理相似物體間的長時許混淆提出了極高要求 。
在這一理念下 , MeViSv1 提供了超過 28000 個高質量語句標注 , 覆蓋 2006 個視頻中的 8171 個物體。 如上圖 1 的第一個樣例所示 , 三只鸚鵡外觀極度相似 , 靜態特征失效 , 只有理解了 “The bird flying away” 這一動態描述 , 模型才能準確定位目標 。 截至目前 , MeViSv1 在 CodaLab 上已吸引全球近千支隊伍參加評測、累計 1 萬余次提交 , 并且成功在 CVPR 2024、ECCV 2024、CVPR 2025、ICCV 2025 上舉辦全球挑戰賽 , 吸引了數百支來自國內外頂尖機構的隊伍參賽 , 這為 MeViSv2 的全面進化奠定了堅實基礎 。

MeViSv2:邁向更通用的原生多模態視頻理解

MeViSv2 在 MeViSv1 的基礎上進行了顯著的擴展和增強 , 尤其是在多模態數據方面 , 旨在提供一個更具挑戰性、更貼近真實世界、覆蓋多模態全場景的視頻理解研究平臺 。 MeViSv2 的整體的設計選擇延續了 MeViSv1 數據集的挑戰性 , 同時相比于 MeViSv1 , 其有三個最大亮點:

1. 模態增加:音頻支持

MeViSv2 的一大亮點是首次為全部的 33072 個文本語句都配對了對應的語音指令 。 這進一步拓展了多模態支持 , 同時也標志著 MeViS 已經從視頻數據集進化為原生多模態數據集 。 這些音頻數據總時長超過 150000 秒 , 源于幾十位不同年齡、性別和背景的真人錄制以及先進的 TTS 模型合成 , 保證了語音數據的多樣性、自然性和真實感 。

相比于冷冰冰的文本 , 音頻作為人類認知的體現 , 在日常交互中更加自然、普遍和便捷 。 它承載著豐富的語義信息 , 并能捕捉到文本本身無法傳達的語調、情感和重音等細微差別 。 這些特質有助于更精確的目標識別和分割 。 MeViSv2 中新加入的音頻格式不僅支持音頻引導視頻對象分割 , 還支持真正的多模態視頻理解任務 , 通過結合文本和音頻兩者的優勢 , 多模態引用表達在增強視頻理解以及支持更自然、直觀的交互方面提供了顯著的優勢和靈活性 。

2. 任務更廣:四大核心任務

除了音頻與分割掩碼 , MeViSv2 還系統性地補充了精確的物體軌跡標注 , 使其一躍成為迄今為止規模最大的指向性多目標追蹤 (RMOT) 數據集 。 憑借超過 33000 條語句和 2000 個視頻的龐大體量 , MeViSv2 為 RMOT 提供了遠超現有基準的訓練數據 , 是研發下一代高精度多目標追蹤模型的理想土壤 。

總的來說 , 在多模態數據的全面加持下 , MeViSv2 打破了任務壁壘 , 僅憑單一數據集即可支持多模態視頻理解領域的四大核心任務:

指向性視頻目標分割(RVOS , Referring Video Object Segmentation) 音頻引導視頻目標分割(AVOS , Audio-guided Video Object Segmentation) 指向性多目標追蹤(RMOT , Referring Multi-Object Tracking) 運動指向性語句生成(RMEG , Referring Motion Expression Generation)
這些任務全方位覆蓋了圖像、音頻、分割掩碼、邊界框以及生成式理解等關鍵維度 , 確立了 MeViSv2 作為視頻理解領域首個真正全能數據集的地位 。

3. 規模增大:更具挑戰性的語句類型與數量


表 1:MeViSv2、MeViSv1 與其他多模態視頻分割數據集對比 。

MeViSv2 將總表達式數量擴充至 33072 條 , 相較于 MeViSv1 新增了 4502 條極具挑戰性的語句 。 這一擴展絕非簡單的數字堆砌 , 而是專為大模型時代量身定制 , 精準覆蓋了當前 AI 推理能力最核心的兩大挑戰瓶頸:

運動推理語句 (Motion Reasoning Expressions): 從 “看動作” 到 “懂因果” 這類語句不再直白描述動作 , 而是通過隱式查詢要求模型進行復雜的邏輯推理 。 如圖 2 (a) 所示:面對 “What is causing the cage to shake?” 的提問 , 模型不能只尋找 “晃動的籠子” , 而必須觀察視頻細節 , 推斷出是籠內那只正在撲騰的鳥(橙色掩碼)引發了震動 。 如圖 2 (b) 所示:對于 “The one whose life is being threatened” 這一描述 , 模型需要理解獅子捕獵斑馬的動態關系 , 才能準確定位到被追逐的斑馬 , 而非捕食者 。 無目標語句 (No-Target Expressions):拒絕 “指鹿為馬” , 為了解決模型在目標不存在時仍強行輸出的 “幻覺” 問題 , MeViSv2 引入了具有欺騙性的無目標表達。 如圖 2 (c) 所示:語句描述 “Moving coins from right pile to left pile” , 這看起來是一個非常具體的動作描述 。 但實際上 , 視頻中的鸚鵡是叼起硬幣從左邊挪到右邊 , 而非從右到左 。 如圖 (b) 所示:語句詢問 “The dog whose life is being threatened” , 盡管視頻中有激烈的追逐畫面 , 但主角是斑馬而非狗 。 面對這些極具誤導性的描述 , MeViSv2 要求模型具備 “判偽” 能力 , 在視頻中沒有匹配對象時 , 堅定地輸出 “無目標” , 從而極大地增強了現實應用中的魯棒性 。

圖 2:MeViSv2 中新增的運動推理語句和無目標語句示例 。 圖中標記為橙色的物體為運動推理語句的目標 , 而無目標語句是具有欺騙性 , 但不指代任何對象的語句 。

LMPM++:大語言模型驅動的時序推理模型

面對 MeViSv2 帶來的長時序依賴與復雜邏輯挑戰 , 傳統的基于 “關鍵幀采樣” 或 “靜態特征匹配” 的方法已顯得力不從心 。 為此 , 該團隊提出了全新的基線方法:Language-guided Motion Perception and Matching (LMPM++) 。 如圖 3 所示 , LMPM++ 巧妙地將大語言模型 (LLM) 的推理能力引入了視頻理解 , 通過以下四大技術創新 , 有效解決了 “看不全”、“理不清” 和 “亂指認” 的三大難題:


圖 3:LMPM++ 模型架構 。 LMPM++ 采用了以“對象為中心”的 LLM 作為基礎 , 實現了靈活的多模態推理以及復雜的目標指代 。

1. 核心架構:以 “對象” 為中心的 LLM

推理為了處理長達 200 幀的視頻序列 , LMPM++ 摒棄了計算昂貴的逐幀特征輸入方式 。 它首先生成語言引導的查詢 , 檢測視頻中的潛在對象并將其轉化為輕量級的目標嵌入(Object Embeddings) 。 這些目標嵌入隨后被輸入到 LLM(Video-LLaMA)中 。 借助 LLM 強大的上下文建模能力 , LMPM++ 能夠跨越整個視頻時序 , 捕捉那些稍縱即逝的動作或長周期的行為模式 。

2. 原生多模態

統一 Text 與 Audio 接口為了適配 MeViSv2 的多模態特性 , LMPM++ 設計了統一的指令格式 。 通過引入Text和Audio標簽以及對應的投影層 , 模型將文本和音頻特征映射到同一語義空間 。 這意味著 , 無論是輸入 “一只飛走的鳥” 的文本 , 還是對應的語音指令 , LLM 都能以相同的方式理解并執行 , 真正實現了模態無關的統一感知 。

3. 創新損失

時間級對比學習 (Temporal-level Contrastive Loss) 動作的順序往往決定了語義(例如區分 “先蹲下再起跳” 與 “先起跳再蹲下”) 。 LMPM++ 引入了時間級對比損失:通過隨機打亂目標嵌入的時間順序作為負樣本 , 強制模型學習正確的時間結構 。 這一設計極大地增強了模型對復雜動作序列的辨識能力 , 避免了因時序混亂導致的誤判 。

4. 自適應輸出

解決 “無目標” 幻覺針對 MeViSv2 中的 “無目標語句” 陷阱 , LMPM++ 摒棄了傳統 RVOS 方法強制輸出 Top-1 結果的策略 。 模型被訓練預測目標數量 No , 并動態生成對應數量的SEGToken 。 當 No=0 時 , 模型不輸出任何掩碼 。 這種自適應輸出策略使得 LMPM++ 在面對欺騙性指令時能夠 “保持沉默” , 從而大幅提升了 N-acc.(無目標準確率)指標 。

實驗

1.RVOS 任務


表 2:RVOS 方法在 MeViSv2 上的性能對比 。

如表 2 所示 , 無目標準確率(N-acc.)和目標準確率(T-acc.)兩個指標是為 MeViSv2 新增的 “無目標語句” 而設計的新指標 。 N-acc. 專門用于衡量模型識別 “無目標” 樣本的能力 , 計算方式為正確識別出的 “無目標” 樣本占所有實際 “無目標” 樣本的比例 。 而 T-acc. 則反映了模型在具備識別負樣本能力的同時 , 是否會誤傷真實目標 , 其計算基于被正確識別為 “有目標” 的樣本占所有實際 “有目標” 樣本的比例 。

結果顯示 , 對于像 ReferFormer 這樣僅輸出 Top-1(置信度最高)對象掩碼的方法而言 , 多目標和無目標樣本構成了更大的挑戰 。 這種局限性源于 Top-1 策略假設視頻中必然存在一個單一目標對象 , 這是 Refer-YouTube-VOS 和 DAVIS17-RVOS 等以往 RVOS 數據集中的默認假設 。 因此 , 這類方法本質上無法處理無目標樣本 , 導致 N-acc. 得分極低 , 甚至為 0 。 這些結果凸顯了 MeViSv2 數據集在評估模型對各種復雜場景的泛化能力方面提出了重大挑戰 。

相比之下 , LMPM++ 展現出了壓倒性的優勢 。 憑借大語言模型的邏輯推理能力與自適應輸出策略 , LMPM++ 不僅在綜合指標 JF 上達到了 43.9% 的新高 , 刷新了該領域的 SOTA 記錄 , 更實現了對 “幻覺” 的有效抑制 , 其中 N-acc. 躍升至 45.7%。 這意味著面對近一半的欺騙性指令 , 模型能夠像人類一樣判斷 “目標不存在” 并拒絕執行 。 同時 , 高達 87.4% 的 T-acc. 也證明了模型并非通過簡單的 “保守策略” 來換取高分 , 而是在保障真實目標識別率的前提下 , 真正具備了在開放世界中所需的邏輯判別能力 。

2.RMOT 任務


表 3:RMOT 方法在 MeViSv2 上的性能對比 。

如表 3 所示 , 在 RMOT(指向性多目標追蹤)任務中 , LMPM++ 更是確立了絕對的領先地位 。 從對比表格可以看出 , LMPM++ 在不使用額外檢測頭的基礎上 , 斬獲了 38.1% 的 HOTA* 和 28.1% 的 DetA* , 相比前代 SOTA 方法 TempRMOT(HOTA* 30.0%) , 性能提升顯著 。 尤為關鍵的是 , LMPM++ 的 T-acc.(目標準確率)達到了至 87.4% , 遠超之前的方法(如 TransRMOT 僅為 52.3%) , 這有力地證明了模型在處理復雜多目標追蹤時的精準度 , 既能 “抓得準” 真實目標 , 又能保持對干擾項的穩健判斷 。

3.AVOS 任務


表 4:AVOS 方法在 MeViSv2 上的性能對比 。

表 4 展示了 AVOS(音頻引導視頻目標分割)方法在 MeViSv2 數據集上的基準測試結果 。 WNet 和 MUTR 是原生支持音頻作為輸入的模型 , 但它們僅分別取得了 16.5% 和 33.6% 的得分 , 這突顯了 MeViS 數據集的難度 。 MUTR 的 N-acc. 為 0% 而 T-acc. 為 100% , 這表明無目標樣本的引入顯著增加了 MeViS 數據集的挑戰性 , 尤其是對于那些傾向于針對任何給定表達都輸出一個目標的模型而言 。 LMPM++ 在所有指標上都遠遠超過了之前的模型 , 體現了該方法優越的多模態處理能力 。

4.RMEG 任務


表 5:RMEG 方法在 MeViSv2 上的性能對比

如表 5 所示 , 在運動指向性語句生成 (RMEG) 這一極具挑戰性的生成任務中 , 現有模型普遍面臨 “表達難” 的困境 , 即便是表現最好的 VideoLLaMA 2 , 其 METEOR 和 CIDEr 得分也僅為 15.68 和 27.10。 這表明 , 雖然引入大語言模型(LLM)相比傳統方法(如 GIT VAST)顯著提升了邏輯推理能力 , 但在生成 “無歧義” 的精準描述方面仍有巨大提升空間 。 現有模型往往難以捕捉對象動作的細微差別 , 常犯 “指代不清” 或 “千篇一律” 的錯誤, 無法像人類一樣精準區分外觀相似但動作不同的目標 , 這為未來多模態大模型的研究指明了 “從泛化描述向精準指代進化” 的新方向 。

總結

MeViSv2 上的基準測試結果揭示了現有 SOTA 模型在面對運動推理和無目標表達式時的性能瓶頸 。 即使是表現最好的方法 , 在這些新增的挑戰性樣本上 , 性能也出現了顯著下降 。 這表明 MeViSv2 成功地捕捉了當前算法的不足 , 為下一階段的研究指明了方向 。 我們期待 MeViSv2 能夠激勵研究界在以下方面取得突破:

多模態深度融合: 開發能夠直接從原始語音信號中提取時間語義線索 , 并將其與視頻運動信息深度融合的新架構 。高級因果推理: 提升模型從長時序視頻和復雜語言指令中進行因果和邏輯推理的能力 , 而非僅僅進行模式匹配 。魯棒性和泛化性: 增強模型在無目標、多目標、目標相似等復雜場景下的魯棒性 , 使其更接近真實世界的應用需求 。
MeViSv2 的發布 , 不僅是一個數據集的更新 , 更是對整個多模態視頻理解領域的一次挑戰升級 , 為未來的相關研究奠定了堅實的基礎 。

    推薦閱讀