
文章圖片

文章圖片

文章圖片

文章圖片
本文的第一作者為北京大學王選計算機研究所博士生雷廷 , 通訊作者為博士生導師劉洋 。 團隊近年來在 TPAMI、CVPR、ICCV、ICML 等頂會上有多項代表性成果發表 , 多次榮獲多模態感知和生成競賽冠軍 , 和國內外知名高校、科研機構廣泛開展合作 。
目前的 HOI 檢測方法普遍依賴視覺語言模型(VLM) , 但受限于圖像編碼器的表現 , 難以有效捕捉細粒度的區域級交互信息 。 本文介紹了一種全新的開集人類-物體交互(HOI)檢測方法——交互感知提示與概念校準(INP-CC) 。
為了解決這些問題 , INP-CC 提出了一種動態生成交互感知提示的策略 , 并通過優化語言模型引導的概念校準 , 提升了模型對開放世界中的交互關系理解 , 本方法在 HICO-DET 和 SWIG-HOI 等主流數據集上取得了當前最佳性能 。
論文標題: Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration 論文鏈接:https://arxiv.org/pdf/2508.03207 代碼鏈接:https://github.com/ltttpku/INP-CC 項目主頁:https://sites.google.com/view/inp-cc/%E9%A6%96%E9%A1%B5
目前該研究已被 ICCV 2025 正式接收 , 相關代碼與模型已全部開源 。
HOI 檢測進入「開放詞匯」時代
在我們的日常生活中 , 人與物體之間的互動無處不在 。 然而 , 目前大多數研究主要集中在封閉環境下的人物交互檢測 , 這些方法通常無法識別新的交互類型 , 因此在實際應用中受到限制 。
近年來 , 多模態大模型得到了快速發展 , 并在開放環境中展現出巨大的應用潛力 。 如何將這些模型應用于開放場景中的人物交互檢測 , 已經成為一個備受關注的研究方向 。
傳統的 HOI(人體-物體交互)檢測方法通常依賴于固定類別的訓練數據 , 難以應對現實中不斷變化的交互組合 。 盡管像 CLIP 這樣的視覺語言模型(VLM)為開放詞匯的建模提供了新機會 , 但由于這些模型通常是基于圖像級別的預訓練 , 它們在捕捉人物與物體之間細微的局部交互語義時存在困難 。 另外 , 如何更有效地編碼交互的文本描述 , 也限制了模型對復雜 HOI 關系的理解 。
為了解決這些問題 , 研究團隊提出了 INP-CC 模型 , 并在其中提出了兩項核心創新:交互感知式提示生成(Interaction-aware Prompting)和概念校準(Concept Calibration) 。
下圖 1 中 , 展示了交互感知提示詞融合機制 。 該機制使得模型可以在具有相似語義或功能模式的交互之間 , 選擇性地共享提示 。 例如 , 「騎摩托車」和「騎馬」這兩種交互在人體和物體接觸動態上非常相似 , 因此共享提示有助于更高效地學習這些交互的表示 。
【人機交互感知新篇章 北大團隊提出INP-CC模型重塑開放詞匯HOI檢測】
圖 2 則展示了現有基于 CLIP 的方法在處理細粒度、多樣化的交互類型時的局限性 。 例如 , 圖中展示了「hurling」(猛擲)對應的視覺編碼(用三角形表示)和「pitching」(拋投)的文本編碼(用橙色圓圈表示) 。 可以看出 , 如左圖所示 , CLIP 模型的視覺編碼和文本編碼在這兩者之間過于接近 , 導致模型難以區分它們 。 而與此對比 , 如右圖所示 , 我們的方法通過調整語義編碼空間 , 幫助模型有效區分視覺上相似的概念 , 從而更加高效地建模模態內和模態間的關系 。
圖 1 交互感知提示詞融合
圖 2 在 CLIP 原始空間(左側)和我們修正后的空間(右側)中模態內和模態間相似度 。
模型架構:從「看圖說話」到「聚焦交互」
圖 3 INP-CC 方法框架
INP-CC 模型首先通過一個交互適應式提示生成器(圖 3 灰色區域) , 結合輸入圖片特性 , 動態構造與場景相關的提示集合 。 這些提示被分為通用提示和可共享的交互提示 , 使得像「抱貓」和「撫摸貓」這樣的相似動作可以共享同一個提示 , 從而提升模型對局部區域的感知能力 。
在語言建模方面(圖 3 淺藍色區域) , INP-CC 利用 GPT 生成各種交互的詳細視覺描述 , 同時結合 T5 構建的 Instructor Embedding(指導嵌入)對交互語義進行嵌入和聚類 , 從而形成一個更細粒度的概念結構空間 。 這種方式幫助模型更好地理解復雜的交互語義 , 并將其映射到合適的語義空間中 。
此外 , INP-CC 在訓練過程中引入了「困難負樣本采樣」策略 , 這一策略使得模型能夠學會區分那些視覺上相似但語義不同的動作 , 例如「猛擲」和「拋投」 。 這一方法有效提升了模型在細粒度交互類型上的識別能力 , 幫助其更準確地理解和處理復雜的人物交互場景 。
交互感知提示生成(Interaction-aware Prompt Generation)
為了彌合圖像級預訓練和細粒度區域交互檢測之間的差距 , INP-CC 提出了交互感知提示生成機制 , 通過動態生成適應不同交互模式的提示 , 指導視覺編碼器更好地聚焦于關鍵的交互區域 。 具體來說 , 模型通過以下兩個核心組成部分來實現這一目標:
通用提示: 該提示捕獲所有交互類別共享的基本知識 , 適用于所有交互類型 。
交互特定提示: 這些提示專門針對某些交互類型 , 采用低秩分解技術高效編碼交互特征 , 從而在不增加計算負擔的前提下增強模型的泛化能力 。
通過將這些交互提示與通用提示結合 , INP-CC 能夠有效捕捉多種交互的共同特征 , 并通過自適應選擇機制動態調整每張輸入圖像所需的提示 , 優化交互區域的聚焦能力 。
交互概念校準(HOI Concept Calibration)
面對現有視覺-語言模型(VLM)在處理多樣交互概念時的局限性 , INP-CC 進一步引入了交互概念校準機制 。 該機制通過結合大規模語言模型對視覺描述進行生成與校準 , 提升了模型對語義細節的捕捉能力 。
內模關系建模(Intra-modal Relation Modeling): INP-CC 首先為每種交互類型生成細粒度的視覺描述 , 并利用 T5 語言模型將這些描述轉化為嵌入向量 。 通過這一過程 , 模型能夠精確區分視覺上相似但語義不同的動作類別 。
負類別采樣(Negative Category Sampling): 為了解決視覺上相似但概念上不同的動作難以區分的問題 , INP-CC 引入了基于語義相似度的負樣本采樣策略 , 在訓練過程中從視覺描述相似的類別中采樣負樣本 , 幫助模型更好地分辨細粒度的動作差異 。
實驗表現:全面超越 SOTA
在 HICO-DET 和 SWIG-HOI 兩大開放詞匯 HOI 數據集上 , INP-CC 在所有指標上均優于現有主流方法 。 其中 , 在 SWIG-HOI 全量測試集上取得了 16.74% 的 mAP , 相較前一方法 CMD-SE 相對提升了近 10% , 在「閱讀」、「瀏覽」等細粒度交互中亦展現出較強的識別能力 。
圖 4 HICO-DET 實驗結果
圖 5 SWIG-HOI 實驗結果
此外 , 可視化分析結果表明我們的模型表現出了強大的注意力集中能力 , 能夠聚焦于關鍵的交互區域 , 以下是幾個例子 。 例如 , 在圖 6(a) 中 , 它準確地突出了閱讀時的眼部區域 。 同樣 , 在圖 6(b) 中 , 模型強調了沖浪時人伸展的雙臂 。 此外 , 我們的模型還能夠檢測到與相對較小物體的交互 , 比如在圖 6(d) 中的相機和在圖 6(a) 中部分遮擋的書籍 。
圖 6 可視化結果
總結:VLM + LLM 的深度融合路徑
INP-CC 不僅打破了預訓練視覺語言模型(VLM)在區域感知與概念理解上的瓶頸 , 還展現出將語言模型(LLM)知識引入計算機視覺任務的巨大潛力 。 通過構建「交互感知」與「語義修正」的雙重引導機制 , INP-CC 精準引導了 CLIP 的感知能力 , 為開放詞匯場景下的 HOI 檢測開辟了新路徑 。
推薦閱讀
- 中興通訊發布《低空安防融合感知技術應用藍皮書》引領產業安全發展
- 哈佛大學:AI首次實現\時間流動\感知能力
- 聯想AI手機亮相新物種爆炸大會,吳聲解讀人機交互新革命
- 鴻蒙5終端量破千萬!超百家伙伴集體打CALL,共同書寫生態新篇章
- 華為參展2025聯通合作伙伴大會:鴻蒙生態重構人機交互新范式
- iPhone 17 Air曝光:超感知能力加持,強得不像實力派
- 比硬幣小的芯片,感知萬物
- 螢石藍海大模型2.0來了:感知理解記憶能力增強,首推垂直場景混合大模型
- 人形機器人首次打通視覺感知與運動斷層,UC伯克利華人博士讓宇樹G1現場演示
- 國產PC新篇章:鴻蒙電腦成為2025天津夏季達沃斯中方辦公支持電腦
