人工智能學會了看懂動作!復旦大學團隊的視頻識別新突破

人工智能學會了看懂動作!復旦大學團隊的視頻識別新突破
【人工智能學會了看懂動作!復旦大學團隊的視頻識別新突破】
當你在網上看到C羅標志性的慶祝動作時 , 你的大腦會立刻識別出這是那個熟悉的\"SIU\"姿勢 , 即使做這個動作的不是C羅本人 。 這種根據動作模式而非外貌來識別對象的能力 , 正是復旦大學研究團隊最新開發的人工智能系統所具備的核心技能 。

這項由復旦大學計算機科學與人工智能學院的應開寧、胡恒瑞和丁恒慧等研究者共同完成的研究 , 發表于2025年7月的國際計算機視覺大會(ICCV) , 論文標題為\"MOVE: Motion-Guided Few-Shot Video Object Segmentation\" 。 感興趣的讀者可以通過https://henghuiding.com/MOVE/訪問完整的研究資料和數據集 。

過去的視頻識別系統就像一個只會認臉的門衛 , 它們主要關注\"這是什么東西\" , 比如識別出畫面中有貓、有人或有車 。 但現實生活中 , 我們經常需要根據\"在做什么動作\"來找到我們想要的內容 。 就好比你想在海量視頻中找到所有\"擁抱\"的場景 , 傳統系統可能只能幫你找到特定的人或動物 , 卻無法理解擁抱這個動作本身的含義 。

復旦大學的研究團隊意識到了這個問題的重要性 。 他們發現 , 當我們在網上搜索視頻時 , 往往是想找到某種特定的動作或行為 , 而不僅僅是某個特定的物體 。 比如 , 你可能想找到所有踢足球的視頻片段 , 不管踢球的是成人還是兒童 , 是在草地上還是在沙灘上 。 這種需求在視頻編輯、體育分析、安防監控等領域都非常常見 。

為了解決這個挑戰 , 研究團隊開發了一個名為MOVE的全新數據集和相應的人工智能模型 。 這個系統的工作原理可以用一個生動的比喻來解釋:就像一個經驗豐富的舞蹈老師 , 能夠通過觀看幾個學生的示范動作 , 然后在一群人中準確識別出哪些人在做同樣的舞蹈動作 , 即使這些人的身材、衣著和面貌完全不同 。

一、突破傳統認知框架的全新方法

傳統的視頻識別系統面臨的最大問題 , 就像是一個只會通過外貌識別人的系統 。 這種方法在很多情況下都會遇到困難 。 考慮這樣一個場景:你有兩段視頻 , 一段是一只貓在彈鋼琴 , 另一段是一個人在吹長笛 。 傳統系統會認為這兩段視頻完全不相關 , 因為一個是貓 , 一個是人 。 但在人類看來 , 這兩段視頻其實都展現了\"演奏樂器\"這個共同的動作模式 。

復旦大學團隊的創新之處在于 , 他們讓人工智能系統學會了像人類一樣思考 。 他們的系統不再只關注\"是什么\" , 而是重點關注\"在做什么\" 。 這就好比訓練一個偵探 , 不是讓他記住每個罪犯的長相 , 而是讓他學會識別各種犯罪行為的模式和特征 。

這種方法的革命性在于它改變了我們思考視頻理解的基本框架 。 過去 , 我們總是先識別物體 , 再分析行為 。 現在 , 這個系統直接從動作模式入手 , 把動作本身當作識別的核心特征 。 這就像是從\"認人\"轉向了\"認行為\" , 從靜態識別轉向了動態理解 。

研究團隊還發現了傳統方法的另一個重要局限:現有的視頻理解系統主要依賴靜態圖像的分析 , 就像通過一張張照片來理解一部電影的情節 。 這種方法顯然無法捕捉到動作的時間特性和連續性 。 真正的動作理解需要考慮時間維度 , 需要理解動作的發展過程和變化規律 。

二、構建動作理解的數據基礎

為了訓練這樣一個能夠理解動作的人工智能系統 , 研究團隊面臨的第一個挑戰就是缺乏合適的訓練數據 。 現有的數據集就像是為傳統識別任務量身定做的教科書 , 對于動作理解這個新任務來說遠遠不夠 。

于是 , 研究團隊著手構建了一個名為MOVE的大規模數據集 。 這個數據集的規模令人印象深刻:包含224個不同的動作類別 , 涵蓋4300個視頻片段 , 總共261920幀畫面 , 以及314619個精確標注的分割掩碼 。 這些數字背后代表著研究團隊巨大的工作量和嚴謹的學術態度 。

MOVE數據集的構建過程就像是編寫一本動作百科全書 。 研究團隊將動作分為四個主要領域:日常行為、體育運動、娛樂活動和特殊動作 。 每個類別都遵循三個重要原則:細粒度區分、互相排斥(有清晰的語義邊界)、以及新穎性(在現有數據集中覆蓋不足) 。

這種分類方法的巧妙之處在于它考慮了動作的層次性和復雜性 。 比如在體育運動類別中 , 不僅包括踢足球、打籃球這樣的大類動作 , 還細分到運球、射門、防守等具體的子動作 。 這種精細化的分類使得人工智能系統能夠學習到更加準確和具體的動作模式 。

數據收集的過程同樣嚴謹 。 研究團隊從兩個主要來源獲取視頻:一是公開的動作識別數據集 , 二是符合創作共用許可協議的網絡視頻 。 在選擇過程中 , 他們嚴格遵循三個標準:視頻必須有清晰的動作邊界、場景要多樣化、主體類別要豐富 。 這樣的標準確保了數據集的質量和多樣性 。

對于沒有現成標注的視頻 , 研究團隊還招募了訓練有素的標注員 , 在交互式標注平臺上借助先進的視頻分割模型來制作高質量的掩碼標注 。 這個過程就像是為每個動作制作精確的\"身份證\" , 讓人工智能系統能夠準確理解什么是目標動作 , 什么不是 。

三、解耦動作與外觀的創新算法

有了豐富的訓練數據 , 下一個挑戰就是如何設計一個能夠真正理解動作的算法 。 這里的核心難題在于如何讓系統區分物體的外觀特征和動作特征 。 這就好比教一個學生區分一個人的長相和這個人的行為方式 , 雖然兩者都很重要 , 但在不同的任務中重要性不同 。

研究團隊提出的解決方案是一個名為\"解耦動作-外觀網絡\"(DMA)的創新算法 。 這個算法的基本思想是將視頻中的信息分解為兩個獨立的部分:一部分專門負責理解物體的外觀特征 , 另一部分專門負責理解動作特征 。

這種解耦的方法可以用一個生動的比喻來理解 。 在一個舞蹈教室里 , 有經驗的舞蹈老師能夠同時關注兩個方面:學生的外形特征(身高、體型、衣著)和舞蹈動作本身(步伐、節奏、姿態) 。 當老師需要評價舞蹈技巧時 , 會重點關注動作特征而相對忽略外形差異 。 DMA算法正是模擬了這種人類的認知過程 。

在技術實現上 , DMA算法采用了一種巧妙的設計 。 對于外觀特征的提取 , 系統使用傳統的掩碼池化方法 , 就像拍攝一張靜態照片來記錄物體的外觀 。 而對于動作特征的提取 , 系統則計算相鄰幀之間的時間差異 , 通過3D卷積網絡來捕捉動作的時間演變過程 。 這就像制作一個動態的\"動作指紋\" , 記錄下動作的時間特征 。

為了確保這兩種特征真正獨立且互補 , 研究團隊還設計了兩個輔助的分類頭 。 一個分類頭專門負責物體類別的識別 , 引導外觀特征學習物體的靜態屬性 。 另一個分類頭專門負責動作類別的識別 , 引導動作特征學習時間動態信息 。 這種設計就像給兩個學生分配不同的學習任務 , 確保他們各自專精于不同的領域 。

算法的另一個創新點是使用了Transformer架構來進一步細化動作原型 。 這個過程包括多層的交叉注意力機制和自注意力機制 , 能夠捕捉動作特征之間的復雜關系 。 簡單來說 , 這就像一個經驗豐富的教練 , 能夠從復雜的動作序列中提取出最關鍵的動作要素 , 形成標準化的動作模板 。

四、驗證效果的綜合實驗

為了驗證MOVE數據集和DMA算法的有效性 , 研究團隊進行了大規模的對比實驗 。 他們選擇了來自三個不同研究領域的六種最先進的方法進行比較 , 包括指稱視頻目標分割方法、少樣本圖像分割方法和少樣本視頻目標分割方法 。

實驗設計采用了兩種不同的數據分割策略 。 重疊分割策略允許訓練集和測試集在動作的高層類別上有一定重疊 , 這模擬了相對簡單的泛化場景 。 非重疊分割策略則要求測試集中的動作類別與訓練集完全不同 , 這代表了更加嚴格的泛化測試 。

實驗結果令人印象深刻 。 在重疊分割的2路1樣本設置下 , DMA算法在ResNet50骨干網絡上達到了50.1%的J&F得分 , 相比第二名的45.4%有顯著提升 。 當使用更強的

    推薦閱讀