北航、東京大學(xué)填補(bǔ)AI「語(yǔ)義鴻溝」，如何找到「狀態(tài)」錨點(diǎn)？00后

文章圖片

文章圖片

文章圖片

摘要 / 導(dǎo)語(yǔ)：在具身智能與視頻理解飛速發(fā)展的今天，如何讓 AI 真正 “看懂” 復(fù)雜的操作步驟？北京航空航天大學(xué)陸峰教授團(tuán)隊(duì)聯(lián)合東京大學(xué) ，提出視頻理解新框架。該工作引入了 “狀態(tài)（State）” 作為視覺錨點(diǎn) ，解決了抽象文本指令與具象視頻之間的對(duì)齊難題，已被人工智能頂級(jí)會(huì)議 AAAI 2026 接收。

在當(dāng)今的視頻理解和具身智能領(lǐng)域，教 AI 理解 “做菜” 或 “修理電器” 等程序性活動(dòng)具有重要意義。然而，當(dāng)這一需求遭遇現(xiàn)有的圖文對(duì)齊范式時(shí) ，一個(gè)難以忽視的「語(yǔ)義鴻溝」（Semantic Gap）橫亙?cè)谘芯空呙媲?。

現(xiàn)有的程序性視頻學(xué)習(xí)方法面臨數(shù)據(jù)困境：要么依賴極其昂貴的時(shí)間密集型標(biāo)注，難以擴(kuò)展；要么利用 WikiHow 等外部知識(shí)庫(kù)進(jìn)行弱監(jiān)督學(xué)習(xí) ，將視頻幀與 “任務(wù)（Task）” 或 “步驟（Step）” 的文本描述強(qiáng)行對(duì)齊。

但弱監(jiān)督的方式仍然存在優(yōu)化空間：抽象的語(yǔ)言描述與具體的視覺像素之間存在斷層。當(dāng)文本指令是 “切橙子”（Cut oranges）時(shí) ，視頻中呈現(xiàn)的是橙子從完整狀態(tài)到果肉外露的連續(xù)視覺形態(tài)變化，而非明確的動(dòng)作過(guò)程。二者之間的不匹配導(dǎo)致模型難以準(zhǔn)確識(shí)別和理解視頻所表達(dá)的實(shí)際過(guò)程。

為了解決這一問題，北京航空航天大學(xué)陸峰教授團(tuán)隊(duì) ，聯(lián)合東京大學(xué)黃逸飛博士推出了 TSS（Task-Step-State）框架。其核心洞見在于重構(gòu)了過(guò)程性知識(shí)的層級(jí)結(jié)構(gòu)：引入「狀態(tài)」（State）這一視覺接地層，并提出了一種漸進(jìn)式 “層級(jí)展開”（Hierarchy Unfolding）的漸進(jìn)式預(yù)訓(xùn)練策略。

標(biāo)題：Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding 作者：趙靜晗，黃逸飛，陸峰機(jī)構(gòu)：北京航空航天大學(xué) ，東京大學(xué) 論文鏈接：https://arxiv.org/pdf/2511.20073 代碼倉(cāng)庫(kù)：https://github.com/zhao-jinghan/TSS-unfolding
在傳統(tǒng)的弱監(jiān)督訓(xùn)練中，模型試圖直接建立視覺內(nèi)容與 “任務(wù)” 或 “步驟” 描述的聯(lián)系。但在視頻中， “步驟” 往往是一個(gè)粗糙且抽象的動(dòng)作過(guò)程，而視覺傳感器捕捉到的是物體視覺狀態(tài)的連續(xù)改變。這種「信息錯(cuò)位」導(dǎo)致了現(xiàn)有方法的局限性。

TSS 核心架構(gòu)：以「狀態(tài)」為錨點(diǎn) ，層層遞進(jìn)

TSS 框架創(chuàng)新性地提出了一種三層知識(shí)結(jié)構(gòu) ，巧妙地利用 “狀態(tài)” 填補(bǔ)了語(yǔ)義鴻溝。

傳統(tǒng)的 “任務(wù) - 步驟” 二元結(jié)構(gòu)過(guò)于抽象。 TSS 利用大語(yǔ)言模型（LLM）生成了第三層語(yǔ)義 —— 狀態(tài)（State）。TSS 將每個(gè)步驟擴(kuò)展為一組狀態(tài)快照（Snapshot）：

初始狀態(tài)：橙子是完整的，橙子和刀沒有接觸。中間狀態(tài)：刀切入橙皮，橙子不再完整。結(jié)束狀態(tài)：橙子果肉外露，變?yōu)榍衅?。
我們可以把這理解為給 AI 配了一副 “顯微鏡”：原本 AI 只能聽到模糊的指令 “切它” ，現(xiàn)在 AI 能通過(guò) TSS 框架清晰地看到物體屬性的具體變化。這些狀態(tài)描述是視覺可感知的（Visually-grounded），能夠直接作為錨點(diǎn) ，將抽象的步驟鎖死在具體的視頻幀上。

擁有了三層結(jié)構(gòu)后，如何訓(xùn)練模型？TSS 摒棄了粗暴的 “混合訓(xùn)練” ，提出了一種符合認(rèn)知規(guī)律的漸進(jìn)式 “層級(jí)展開”（Hierarchy Unfolding）策略。

這不僅是一個(gè)訓(xùn)練技巧，更是一種 “分析 - 綜合” 的哲學(xué)：研究團(tuán)隊(duì)設(shè)計(jì)了一條 Task → Step → State → Step → Task 的 U 型學(xué)習(xí)路徑。

向下扎根（Analysis）：從高層任務(wù)出發(fā) ，一路向下學(xué)習(xí) ，直到模型能精準(zhǔn)識(shí)別最底層的 “狀態(tài)” 。這迫使模型將注意力集中在具體的視覺證據(jù)上。向上反哺（Synthesis）：在掌握了扎實(shí)的視覺細(xì)節(jié)后，模型帶著 “狀態(tài)” 的知識(shí)回歸高層，重新審視 “步驟” 和 “任務(wù)” 。
這種雙向流動(dòng)良好的利用了 TSS 框架內(nèi)在的邏輯聯(lián)系，其中步驟是關(guān)鍵狀態(tài)的轉(zhuǎn)變，而一系列關(guān)鍵狀態(tài)則構(gòu)成了總體的任務(wù) 。

工程實(shí)現(xiàn)：基于大模型的「智能增強(qiáng)」

自動(dòng)化生成：核心的 “狀態(tài)” 描述無(wú)需人工逐一標(biāo)注，而是通過(guò) GPT 等大模型基于現(xiàn)有 WikiHow 文本數(shù)據(jù)推理生成，極大降低了數(shù)據(jù)成本。輕量化微調(diào)：訓(xùn)練輕量級(jí) Adapter 模塊，作為預(yù)訓(xùn)練階段的高效擴(kuò)展組件，提升模型表征能力。
實(shí)驗(yàn)驗(yàn)證：全面超越 SOTA

研究團(tuán)隊(duì)在 COIN 和 CrossTask 數(shù)據(jù)集上進(jìn)行了下游任務(wù)（任務(wù)識(shí)別，步驟識(shí)別，步驟預(yù)測(cè)）的測(cè)試。

實(shí)驗(yàn)結(jié)果表明：

方法優(yōu)越性：該方法在 COIN 和 CrossTask 的三大下游任務(wù)上的性能均超越了基線模型（表 3）。核心機(jī)制有效性：引入 “狀態(tài)” 層作為視覺錨點(diǎn) ，并配合漸進(jìn)式的預(yù)訓(xùn)練策略，是提升模型程序性視頻理解能力的關(guān)鍵驅(qū)動(dòng)力（表 2）。

為了探究 TSS 層級(jí)架構(gòu)中最優(yōu)的知識(shí)學(xué)習(xí)順序，并驗(yàn)證底層 “狀態(tài)” 信息能否反向輔助高層語(yǔ)義的理解，作者設(shè)計(jì)了一組對(duì)比實(shí)驗(yàn)（表 2）。

其中，各 Path 代表了不同的訓(xùn)練路徑：

Path 1：Task only Path 2：Task→Step Path 3：Task→Step→State Path 4：Task→Step→State→Task Path 5：Task→Step→State→Step Path 6：Task→Step→State→Task→Step
Task→Step→State 是自上而下的過(guò)程，而 Path-5 和 Path-6 構(gòu)建了分析 - 綜合的閉環(huán) ，在學(xué)習(xí)底層狀態(tài)后，繼續(xù)向上回溯。

如表 2 所示，對(duì)比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step) ，后者在各項(xiàng)指標(biāo)上均有顯著提升。這證明了讓模型學(xué)習(xí) “狀態(tài)”（即物體在動(dòng)作前后的具體變化），可以反哺模型對(duì) “步驟” 的理解，使特征表示更具視覺落地性（Visually-grounded）。

同時(shí) ， Mix-Train（聯(lián)合訓(xùn)練）的效果介于 Path-1 和 Path-2 之間（表 2），弱于該方法提出的 Path-5 。這證明了 TSS 框架中的層級(jí)結(jié)構(gòu)（任務(wù) - 步驟 - 狀態(tài)）存在內(nèi)在邏輯，通過(guò)漸進(jìn)式引導(dǎo) ，模型能更好地建立各層級(jí)間的關(guān)聯(lián) ，而不是將其視為黑盒數(shù)據(jù) 。

總結(jié)

在 AI Agent 需要執(zhí)行復(fù)雜操作的背景下，僅僅 “聽懂指令” 是不夠的，必須 “看懂后果” 。 TSS 證明了，通過(guò)顯式地建模物體狀態(tài)變化，我們可以有效地彌合自然語(yǔ)言與物理世界之間的鴻溝。

這種 “以狀態(tài)為錨點(diǎn) ，自底向上構(gòu)建理解” 的思路，為未來(lái)構(gòu)建既懂高層規(guī)劃、又能精準(zhǔn)執(zhí)行細(xì)節(jié)的智能系統(tǒng)提供了新的探索思路。目前，該論文代碼已開源，歡迎社區(qū)關(guān)注與試用。

作者介紹
【北航、東京大學(xué)填補(bǔ)AI「語(yǔ)義鴻溝」，如何找到「狀態(tài)」錨點(diǎn)？】
趙靜晗：北京航空航天大學(xué)碩士研究生，研究方向?yàn)橐曨l理解等。黃逸飛：東京大學(xué)博士后，研究方向?yàn)榈谝灰暯且曨l、眼動(dòng)、具身智能等。陸峰：北京航空航天大學(xué)教授，研究方向?yàn)檠蹌?dòng)、第一視角視頻、共身智能等。

北航、東京大學(xué)填補(bǔ)AI「語(yǔ)義鴻溝」，如何找到「狀態(tài)」錨點(diǎn)？

推薦閱讀

《星際爭(zhēng)霸2》神族內(nèi)戰(zhàn)3BG半機(jī)械流應(yīng)對(duì)4BG城管戰(zhàn)術(shù)詳解

word標(biāo)題等級(jí)怎么設(shè)置

快手怎么在個(gè)人主頁(yè)展示我的小店

realme是什么牌子是哪個(gè)公司的

世界最大摩天輪排名前十世界最大摩天輪

三星W599的BUG真多

工行u盾驅(qū)動(dòng)安裝失敗如何安裝工行U盾驅(qū)動(dòng)

Win8一鍵解鎖注冊(cè)表的教程

破壞領(lǐng)主命運(yùn)之門輪盤有什么效果破壞領(lǐng)主命運(yùn)之門輪盤效果_網(wǎng)

蘋果iPhone 9報(bào)價(jià)詳情蘋果9手機(jī)多少錢一臺(tái)

孝感到海南的火車票多少錢一張，請(qǐng)問湖北省孝感市怎樣座車到海口市最省錢

pad分屏功能怎么使用 pad分屏功能如何使用

蘋果手機(jī)se參數(shù)，你好大家?guī)蛶兔Ω覀冋f(shuō)說(shuō)蘋果se有盜版的嗎

2017襄陽(yáng)房?jī)r(jià)大漲,湖北襄陽(yáng)再出樓市調(diào)控新政策

御魂九霄禮包代碼怎么用,騰訊《御魂九霄》解禁魔魂玩法

飄渺西游超級(jí)無(wú)敵鼠怎么弄,旅游博主的2021