日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

北航、東京大學(xué)填補(bǔ)AI「語(yǔ)義鴻溝」,如何找到「狀態(tài)」錨點(diǎn)?

北航、東京大學(xué)填補(bǔ)AI「語(yǔ)義鴻溝」,如何找到「狀態(tài)」錨點(diǎn)?

文章圖片

北航、東京大學(xué)填補(bǔ)AI「語(yǔ)義鴻溝」,如何找到「狀態(tài)」錨點(diǎn)?

文章圖片

北航、東京大學(xué)填補(bǔ)AI「語(yǔ)義鴻溝」,如何找到「狀態(tài)」錨點(diǎn)?

文章圖片




摘要 / 導(dǎo)語(yǔ): 在具身智能與視頻理解飛速發(fā)展的今天 , 如何讓 AI 真正 “看懂” 復(fù)雜的操作步驟?北京航空航天大學(xué)陸峰教授團(tuán)隊(duì)聯(lián)合東京大學(xué) , 提出視頻理解新框架 。 該工作引入了 “狀態(tài)(State)” 作為視覺錨點(diǎn) , 解決了抽象文本指令與具象視頻之間的對(duì)齊難題 , 已被人工智能頂級(jí)會(huì)議 AAAI 2026 接收 。

在當(dāng)今的視頻理解和具身智能領(lǐng)域 , 教 AI 理解 “做菜” 或 “修理電器” 等程序性活動(dòng)具有重要意義 。 然而 , 當(dāng)這一需求遭遇現(xiàn)有的圖文對(duì)齊范式時(shí) , 一個(gè)難以忽視的「語(yǔ)義鴻溝」(Semantic Gap)橫亙?cè)谘芯空呙媲?。

現(xiàn)有的程序性視頻學(xué)習(xí)方法面臨數(shù)據(jù)困境:要么依賴極其昂貴的時(shí)間密集型標(biāo)注 , 難以擴(kuò)展;要么利用 WikiHow 等外部知識(shí)庫(kù)進(jìn)行弱監(jiān)督學(xué)習(xí) , 將視頻幀與 “任務(wù)(Task)” 或 “步驟(Step)” 的文本描述強(qiáng)行對(duì)齊 。

但弱監(jiān)督的方式仍然存在優(yōu)化空間:抽象的語(yǔ)言描述與具體的視覺像素之間存在斷層 。 當(dāng)文本指令是 “切橙子”(Cut oranges)時(shí) , 視頻中呈現(xiàn)的是橙子從完整狀態(tài)到果肉外露的連續(xù)視覺形態(tài)變化 , 而非明確的動(dòng)作過(guò)程 。 二者之間的不匹配導(dǎo)致模型難以準(zhǔn)確識(shí)別和理解視頻所表達(dá)的實(shí)際過(guò)程 。

為了解決這一問題 , 北京航空航天大學(xué)陸峰教授團(tuán)隊(duì) , 聯(lián)合東京大學(xué)黃逸飛博士推出了 TSS(Task-Step-State)框架 。 其核心洞見在于重構(gòu)了過(guò)程性知識(shí)的層級(jí)結(jié)構(gòu):引入「狀態(tài)」(State)這一視覺接地層 , 并提出了一種漸進(jìn)式 “層級(jí)展開”(Hierarchy Unfolding)的漸進(jìn)式預(yù)訓(xùn)練策略 。



標(biāo)題:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding 作者:趙靜晗 , 黃逸飛 , 陸峰 機(jī)構(gòu):北京航空航天大學(xué) , 東京大學(xué) 論文鏈接:https://arxiv.org/pdf/2511.20073 代碼倉(cāng)庫(kù):https://github.com/zhao-jinghan/TSS-unfolding
在傳統(tǒng)的弱監(jiān)督訓(xùn)練中 , 模型試圖直接建立視覺內(nèi)容與 “任務(wù)” 或 “步驟” 描述的聯(lián)系 。 但在視頻中 , “步驟” 往往是一個(gè)粗糙且抽象的動(dòng)作過(guò)程 , 而視覺傳感器捕捉到的是物體視覺狀態(tài)的連續(xù)改變 。 這種「信息錯(cuò)位」導(dǎo)致了現(xiàn)有方法的局限性 。

TSS 核心架構(gòu):以「狀態(tài)」為錨點(diǎn) , 層層遞進(jìn)

TSS 框架創(chuàng)新性地提出了一種三層知識(shí)結(jié)構(gòu) , 巧妙地利用 “狀態(tài)” 填補(bǔ)了語(yǔ)義鴻溝 。



傳統(tǒng)的 “任務(wù) - 步驟” 二元結(jié)構(gòu)過(guò)于抽象 。 TSS 利用大語(yǔ)言模型(LLM)生成了第三層語(yǔ)義 —— 狀態(tài)(State) 。TSS 將每個(gè)步驟擴(kuò)展為一組狀態(tài)快照(Snapshot):

初始狀態(tài):橙子是完整的 , 橙子和刀沒有接觸 。 中間狀態(tài):刀切入橙皮 , 橙子不再完整 。 結(jié)束狀態(tài):橙子果肉外露 , 變?yōu)榍衅?。
我們可以把這理解為給 AI 配了一副 “顯微鏡”: 原本 AI 只能聽到模糊的指令 “切它” , 現(xiàn)在 AI 能通過(guò) TSS 框架清晰地看到物體屬性的具體變化 。 這些狀態(tài)描述是視覺可感知的(Visually-grounded) , 能夠直接作為錨點(diǎn) , 將抽象的步驟鎖死在具體的視頻幀上 。



擁有了三層結(jié)構(gòu)后 , 如何訓(xùn)練模型?TSS 摒棄了粗暴的 “混合訓(xùn)練” , 提出了一種符合認(rèn)知規(guī)律的漸進(jìn)式 “層級(jí)展開”(Hierarchy Unfolding)策略 。

這不僅是一個(gè)訓(xùn)練技巧 , 更是一種 “分析 - 綜合” 的哲學(xué): 研究團(tuán)隊(duì)設(shè)計(jì)了一條 Task → Step → State → Step → Task 的 U 型學(xué)習(xí)路徑 。

向下扎根(Analysis): 從高層任務(wù)出發(fā) , 一路向下學(xué)習(xí) , 直到模型能精準(zhǔn)識(shí)別最底層的 “狀態(tài)” 。 這迫使模型將注意力集中在具體的視覺證據(jù)上 。 向上反哺(Synthesis): 在掌握了扎實(shí)的視覺細(xì)節(jié)后 , 模型帶著 “狀態(tài)” 的知識(shí)回歸高層 , 重新審視 “步驟” 和 “任務(wù)” 。
這種雙向流動(dòng)良好的利用了 TSS 框架內(nèi)在的邏輯聯(lián)系 , 其中步驟是關(guān)鍵狀態(tài)的轉(zhuǎn)變 , 而一系列關(guān)鍵狀態(tài)則構(gòu)成了總體的任務(wù) 。

工程實(shí)現(xiàn):基于大模型的「智能增強(qiáng)」

自動(dòng)化生成:核心的 “狀態(tài)” 描述無(wú)需人工逐一標(biāo)注 , 而是通過(guò) GPT 等大模型基于現(xiàn)有 WikiHow 文本數(shù)據(jù)推理生成 , 極大降低了數(shù)據(jù)成本 。 輕量化微調(diào):訓(xùn)練輕量級(jí) Adapter 模塊 , 作為預(yù)訓(xùn)練階段的高效擴(kuò)展組件 , 提升模型表征能力 。
實(shí)驗(yàn)驗(yàn)證:全面超越 SOTA

研究團(tuán)隊(duì)在 COIN 和 CrossTask 數(shù)據(jù)集上進(jìn)行了下游任務(wù)(任務(wù)識(shí)別 , 步驟識(shí)別 , 步驟預(yù)測(cè))的測(cè)試 。

實(shí)驗(yàn)結(jié)果表明:

方法優(yōu)越性: 該方法在 COIN 和 CrossTask 的三大下游任務(wù)上的性能均超越了基線模型(表 3) 。 核心機(jī)制有效性:引入 “狀態(tài)” 層作為視覺錨點(diǎn) , 并配合漸進(jìn)式的預(yù)訓(xùn)練策略 , 是提升模型程序性視頻理解能力的關(guān)鍵驅(qū)動(dòng)力(表 2) 。




為了探究 TSS 層級(jí)架構(gòu)中最優(yōu)的知識(shí)學(xué)習(xí)順序 , 并驗(yàn)證底層 “狀態(tài)” 信息能否反向輔助高層語(yǔ)義的理解 , 作者設(shè)計(jì)了一組對(duì)比實(shí)驗(yàn)(表 2) 。

其中 , 各 Path 代表了不同的訓(xùn)練路徑:

Path 1:Task only Path 2:Task→Step Path 3:Task→Step→State Path 4:Task→Step→State→Task Path 5:Task→Step→State→Step Path 6:Task→Step→State→Task→Step
Task→Step→State 是自上而下的過(guò)程 , 而 Path-5 和 Path-6 構(gòu)建了分析 - 綜合的閉環(huán) , 在學(xué)習(xí)底層狀態(tài)后 , 繼續(xù)向上回溯 。

如表 2 所示 , 對(duì)比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step) , 后者在各項(xiàng)指標(biāo)上均有顯著提升 。 這證明了讓模型學(xué)習(xí) “狀態(tài)”(即物體在動(dòng)作前后的具體變化) , 可以反哺模型對(duì) “步驟” 的理解 , 使特征表示更具視覺落地性(Visually-grounded) 。

同時(shí) , Mix-Train(聯(lián)合訓(xùn)練)的效果介于 Path-1 和 Path-2 之間(表 2) , 弱于該方法提出的 Path-5 。 這證明了 TSS 框架中的層級(jí)結(jié)構(gòu)(任務(wù) - 步驟 - 狀態(tài))存在內(nèi)在邏輯 , 通過(guò)漸進(jìn)式引導(dǎo) , 模型能更好地建立各層級(jí)間的關(guān)聯(lián) , 而不是將其視為黑盒數(shù)據(jù) 。

總結(jié)

在 AI Agent 需要執(zhí)行復(fù)雜操作的背景下 , 僅僅 “聽懂指令” 是不夠的 , 必須 “看懂后果” 。 TSS 證明了 , 通過(guò)顯式地建模物體狀態(tài)變化 , 我們可以有效地彌合自然語(yǔ)言與物理世界之間的鴻溝 。

這種 “以狀態(tài)為錨點(diǎn) , 自底向上構(gòu)建理解” 的思路 , 為未來(lái)構(gòu)建既懂高層規(guī)劃、又能精準(zhǔn)執(zhí)行細(xì)節(jié)的智能系統(tǒng)提供了新的探索思路 。 目前 , 該論文代碼已開源 , 歡迎社區(qū)關(guān)注與試用 。

作者介紹
【北航、東京大學(xué)填補(bǔ)AI「語(yǔ)義鴻溝」,如何找到「狀態(tài)」錨點(diǎn)?】
趙靜晗:北京航空航天大學(xué)碩士研究生 , 研究方向?yàn)橐曨l理解等 。 黃逸飛:東京大學(xué)博士后 , 研究方向?yàn)榈谝灰暯且曨l、眼動(dòng)、具身智能等 。 陸峰:北京航空航天大學(xué)教授 , 研究方向?yàn)檠蹌?dòng)、第一視角視頻、共身智能等 。

    推薦閱讀