国产成在线观看免费视频成本人 ,91麻豆国产综合精品久久,中文字幕一区二区字幕有码视频

文章圖片

文章圖片

文章圖片

文章圖片

在長期以來的 AI 研究版圖中，具身智能雖然在機器人操作、自動化系統(tǒng)與現(xiàn)實應用中至關重要，卻常被視為「系統(tǒng)工程驅(qū)動」的研究方向，鮮少被認為能夠在 AI 核心建模范式上產(chǎn)生決定性影響。

而 ReconVLA 獲得 AAAI Outstanding Paper Awards ，釋放了一個清晰而重要的信號：讓智能體在真實世界中「看、想、做」的能力，已經(jīng)成為人工智能研究的核心問題之一。

這是具身智能（Embodied Intelligence / Vision-Language-Action）方向歷史上，首次獲得 AI 頂級會議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認可：不僅是對某一個模型、某一項指標的認可，更是對具身智能作為通用智能核心范式之一的肯定。

論文標題：ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver 論文地址：https://arxiv.org/abs/2508.10333 論文代碼：https://github.com/Chowzy069/Reconvla
VLA 模型關鍵瓶頸：機器人真「看準」了嗎？

近年來， Vision-Language-Action（VLA）模型在多任務學習與長時序操作中取得了顯著進展。然而，我們在大量實驗中發(fā)現(xiàn) ，一個基礎但被長期忽視的問題嚴重制約了其性能上限：視覺注意力難以穩(wěn)定、精準地聚焦于任務相關目標。

以指令「將藍色積木放到粉色積木上」為例，模型需要在復雜背景中持續(xù)鎖定「藍色積木」和「粉色積木」。但現(xiàn)實中，許多 VLA 模型的視覺注意力呈現(xiàn)為近似均勻分布，不同于人類行為專注于目標物體， VLA 模型容易被無關物體或背景干擾，從而導致抓取或放置失敗。

已有工作主要通過以下方式嘗試緩解這一問題：
顯式裁剪或檢測目標區(qū)域（Explicit Grounding）預測目標邊界框作為中間輸出（COT Grounding）
然而，這些方法并未從根本上改變模型自身的視覺表征與注意力分配機制，提升效果有限。

ReconVLA：重建式隱式視覺定位的新范式

為解決上述瓶頸，我們提出 ReconVLA ，一種重建式（Reconstructive）Vision-Language-Action 模型。其核心思想是：

不要求模型顯式輸出「看哪里」，而是通過「能否重建目標區(qū)域」，來約束模型必須學會精準關注關鍵物體。

在 ReconVLA 中，動作預測不再是唯一目標。在生成動作表征的同時，模型還需要完成一項輔助任務：

重建當前時刻所「凝視」的目標區(qū)域 ----- 我們稱之為 Gaze Region 。

這一重建過程由輕量級擴散變換器（Diffusion Transformer）完成，并在潛在空間中進行高保真復原。由于要最小化重建誤差，模型被迫在其內(nèi)部視覺表示中編碼關于目標物體的精細語義與結(jié)構(gòu)信息，從而在注意力層面實現(xiàn)隱式而穩(wěn)定的對齊。

這一機制更接近人類的視覺凝視行為，而非依賴外部檢測器或符號化坐標監(jiān)督。

【ReconVLA：具身智能研究首次獲得AI頂級會議最佳論文獎】方法概覽

ReconVLA 的整體框架由兩個協(xié)同分支組成：
1. 動作預測分支：模型以多視角圖像、自然語言指令與機器人本體狀態(tài)為輸入，生成動作 token ，直接驅(qū)動機器人執(zhí)行操作。
2. 視覺重建分支：利用凍結(jié)的視覺 tokenizer ，將指令關注的目標區(qū)域（Gaze region）編碼為高保真潛在 token 。主干網(wǎng)絡額外輸出同維度的重建 token ，并以此作為條件，引導擴散去噪過程逐步復原目標區(qū)域的視覺表示。

重建損失在像素與潛在空間層面為模型提供了隱式監(jiān)督，使視覺表征與動作決策在訓練過程中緊密耦合。

大規(guī)模重建預訓練

為賦予 ReconVLA 穩(wěn)定的視覺重建與泛化能力，我們構(gòu)建了一個大規(guī)模機器人預訓練數(shù)據(jù)集：
數(shù)據(jù)規(guī)模：超過 10 萬條交互軌跡，約 200 萬張圖像。數(shù)據(jù)來源：BridgeData V2、LIBERO、CALVIN 等開源機器人數(shù)據(jù)集。自動化標注：利用微調(diào)后的 Grounding DINO 或 Yolo 等方式，從原始圖像中自動生成指令對應的目標物體區(qū)域（Gaze region），用于重建監(jiān)督。
該預訓練過程不依賴動作標簽，卻顯著提升了模型在視覺重建、隱式 Grounding 以及跨場景泛化方面的能力，并為未來擴展至互聯(lián)網(wǎng)級視頻數(shù)據(jù)奠定了一定基礎。

實驗結(jié)果

在 CALVIN 仿真基準上， ReconVLA 在長時序任務中顯著優(yōu)于現(xiàn)有方法：
ABC→D 泛化任務：平均完成長度達到 3.95 ，全面領先同期所有對比方法。 ABCD→D 長程任務：平均完成長度為 4.23 ，完整任務成功率達 70.5% 。
值得一提的是，在 CALVIN 極具挑戰(zhàn)的長程任務「stack block」上我們的方法成功率達到 79.5% ，遠高于 Baseline 的 59.3% ，這說明我們的局部重建作為隱式監(jiān)督的方法可以在復雜長程任務中實現(xiàn)更靈活的運動規(guī)劃。

在真實機器人實驗中，我們基于 AgileX PiPer 六自由度機械臂，測試了疊碗、放水果、翻杯與清理餐桌等任務。 ReconVLA 在所有任務上均顯著優(yōu)于 OpenVLA 與 PD-VLA ，并在未見物體條件下仍保持 40% 以上的成功率，展現(xiàn)出強大的視覺泛化能力。

對比于 Explicit Grounding 和 COT Grounding ， ReconVLA 在 CALVIN 上獲得了遠高于前兩者的成功率，由此可分析出：

僅用精細化的目標區(qū)域作為模型隱式監(jiān)督可以實現(xiàn)更加精確的注意力，更高的任務成功率以及更簡單的模型夾構(gòu) 。

而消融實驗表明：
1. 全圖重建仍然由于僅有動作監(jiān)督的基線，因為全圖重建提升了模型的全局感知和理解能力。但由于視覺冗余使得在未知環(huán)境下難以展現(xiàn)更好的效果。
2. 重建目標區(qū)域（Gaze region）具有顯著效果，這個機制使得模型專注于目標物體，避免被無關背景干擾。
3. 大規(guī)模預訓練顯著提升了模型在視覺重建，隱式 Grounding 及跨場景泛化的能力。

總結(jié)

ReconVLA 的核心貢獻并非引入更復雜的結(jié)構(gòu) ，而是重新審視了一個基礎問題：機器人是否真正理解了它正在注視的世界。

通過重建式隱式監(jiān)督，我們?yōu)?VLA 模型提供了一種更自然、更高效的視覺對齊機制，使機器人在復雜環(huán)境中做到「看得準、動得穩(wěn)」。

我們期待這一工作能夠推動具身智能從經(jīng)驗驅(qū)動的系統(tǒng)設計，邁向更加扎實、可擴展的通用智能研究范式。

ReconVLA：具身智能研究首次獲得AI頂級會議最佳論文獎

推薦閱讀

桂皮的適宜人群有哪些

雨前茶的雨是什么意思

如何防止手機碎屏？手機屏碎怎么看是外屏還是內(nèi)屏？

善草紀比較好的產(chǎn)品有什么呢

私人影院和電影院有什么區(qū)別

手機銀行記錄怎么刪除

網(wǎng)上貸款逾期欠款2萬5超過半年了，法院判了還是不還錢會怎么執(zhí)行

關系詞關系代詞和關系副詞分別有哪些？

閃電俠的衣服為什么與空氣做功后不會起火

白鞋曬干后發(fā)黃怎么處理

長春華夏銀行招聘，華夏銀行招聘崗位名稱社區(qū)金融便利店店長是屬于哪個部門呢

小編分享數(shù)碼大師旁白如何加入。

我來教你win10系統(tǒng)開啟secondary logon服務的圖文步驟我來教你吧

70a和75a哪個大罩杯大?

蘭州機場打車到蘭州站多少錢，蘭州機場到蘭州火車站的票價

的的司機怎么樣,現(xiàn)在做滴滴司機