NovaFlow從生成視頻中提取動作流，實現零樣本操控

2026-04-27 ai 人工智能布朗大學機器人

文章圖片

文章圖片

文章圖片

文章圖片

本文共同第一作者為李鴻宇（布朗大學博士生）和孫凌峰（Robotics and AI Institute 研究員，博士畢業于加州大學伯克利分校）。通訊作者付佳慧在 Robotics and AI Institute 任研究員，博士畢業于麻省理工學院。 George Konidaris 為布朗大學副教授。

構建能夠在新環境中、無需任何針對性訓練就能執行多樣化任務的通用機器人，是機器人學領域一個長期追逐的圣杯。近年來，隨著大型語言模型（LLMs）和視覺語言模型（VLMs）的飛速發展，許多研究者將希望寄托于視覺 - 語言 - 動作（VLA）模型，期望它們能復刻 LLM 和 VLM 在泛化性上取得的輝煌。然而，理想很豐滿，現實卻很骨感。 VLA 模型的端到端訓練范式，要求海量與特定機器人相關的 “視覺 - 語言 - 動作” 數據。與 LLM 和 VLM 可以輕易獲取的網絡規模數據不同，機器人數據的采集成本極高、難度極大，這形成了一個巨大的 “數據瓶頸” 。有沒有可能繞過這個瓶頸，讓機器人不依賴于昂貴的 “親身經歷” 數據，也能學會新技能呢？

最近，來自布朗大學（Brown University）和機器人與人工智能研究所（Robotics and AI Institute ，前波士頓動力人工智能研究所）的研究團隊提出了一個全新的自動操作框架 NovaFlow 。該方法另辟蹊徑，不再要求通過機器人或者人類演示去收集數據，而是巧妙地利用了大型視頻生成模型中蘊含的、源于互聯網海量視頻的 “常識” 知識。通過讓機器人 “觀看” 由視頻模型生成的任務視頻，并從中提煉出一種名為 “可執行 3D 對象流” 的任務表征， NovaFlow 成功實現了在無需任何真實演示或額外訓練的情況下，讓機器人零樣本（Zero-Shot）完成復雜的操控任務。這項工作為通用機器人的實現提供了一條極具潛力的新路徑。

論文標題：NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated

推薦閱讀

上一篇：Being-VL的視覺BPE路線：把「看」和「說」真正統一起來

下一篇：螞蟻發布萬億參數旗艦模型 Ling-1T并開源，多項指標成績領先