NovaFlow從生成視頻中提取動作流,實現零樣本操控

NovaFlow從生成視頻中提取動作流,實現零樣本操控

文章圖片

NovaFlow從生成視頻中提取動作流,實現零樣本操控

文章圖片

NovaFlow從生成視頻中提取動作流,實現零樣本操控

文章圖片

NovaFlow從生成視頻中提取動作流,實現零樣本操控

文章圖片

NovaFlow從生成視頻中提取動作流,實現零樣本操控



本文共同第一作者為李鴻宇(布朗大學博士生)和孫凌峰(Robotics and AI Institute 研究員 , 博士畢業于加州大學伯克利分校) 。 通訊作者付佳慧在 Robotics and AI Institute 任研究員 , 博士畢業于麻省理工學院 。 George Konidaris 為布朗大學副教授 。

構建能夠在新環境中、無需任何針對性訓練就能執行多樣化任務的通用機器人 , 是機器人學領域一個長期追逐的圣杯 。 近年來 , 隨著大型語言模型(LLMs)和視覺語言模型(VLMs)的飛速發展 , 許多研究者將希望寄托于視覺 - 語言 - 動作(VLA)模型 , 期望它們能復刻 LLM 和 VLM 在泛化性上取得的輝煌 。 然而 , 理想很豐滿 , 現實卻很骨感 。 VLA 模型的端到端訓練范式 , 要求海量與特定機器人相關的 “視覺 - 語言 - 動作” 數據 。 與 LLM 和 VLM 可以輕易獲取的網絡規模數據不同 , 機器人數據的采集成本極高、難度極大 , 這形成了一個巨大的 “數據瓶頸” 。 有沒有可能繞過這個瓶頸 , 讓機器人不依賴于昂貴的 “親身經歷” 數據 , 也能學會新技能呢?

最近 , 來自布朗大學(Brown University)和機器人與人工智能研究所(Robotics and AI Institute , 前波士頓動力人工智能研究所)的研究團隊提出了一個全新的自動操作框架 NovaFlow 。 該方法另辟蹊徑 , 不再要求通過機器人或者人類演示去收集數據 , 而是巧妙地利用了大型視頻生成模型中蘊含的、源于互聯網海量視頻的 “常識” 知識 。 通過讓機器人 “觀看” 由視頻模型生成的任務視頻 , 并從中提煉出一種名為 “可執行 3D 對象流” 的任務表征 , NovaFlow 成功實現了在無需任何真實演示或額外訓練的情況下 , 讓機器人零樣本(Zero-Shot)完成復雜的操控任務 。 這項工作為通用機器人的實現提供了一條極具潛力的新路徑 。



論文標題:NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated

    推薦閱讀