模仿學習新范式，Chain-of-Action：軌跡自回歸實現動作推理_meta

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

【模仿學習新范式，Chain-of-Action：軌跡自回歸實現動作推理】

論文標題：Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
主頁鏈接：https://chain-of-action.github.io/
文章鏈接：https://arxiv.org/pdf/2506.09990
代碼鏈接：https://github.com/ByteDance-Seed/Chain-of-Action

模仿學習的困境
具身智能（Embodied AI）作為人工智能領域的前沿方向，旨在賦予機器人或智能體在物理世界中感知、決策和行動的能力。近年來，盡管視覺 - 語言 - 動作模型（Vision Language Action VLA）已經取得了諸多進展，但具身智能領域尚未迎來「GPT 時刻」。越來越多的研究人員開始相信，僅僅增加模型規模和數據量似乎不足以創造出通用操作模型，如果我們想要充分釋放現有數據的潛力，就需要找到更有效的機器人操作建模方法。
來自字節跳動 Seed & 阿德萊德大學的研究者追根溯源，對模仿學習的基本范式進行了反思，發現現有建模思路或許存在缺陷：經典方法如 ACT、Diffusion Policy（DP）都遵循「前向預測」（forward-prediction）范式。而然這種方式不可避免地存在較大的復合誤差（compounding error）。
在該范式下，策略通常被優化為基于當前觀察預測短期的下一步動作，而非確保最終能夠成功完成整個任務。雖然引入了動作分塊（action chunking）等策略來緩解復合誤差，但無法解決其固有的「短視性」問題。
基于該局限，研究者提出了「動作鏈」（Chain-of-Action CoA）—— 一種基于軌跡自回歸的機器人操作策略。與經典范式區分， CoA 并不直接由觀察映射到執行動作，而是由從最終位置反向自回歸的生成軌跡點，推理出可執行的動作。研究團隊初步發現，僅僅通過修改建模方式， CoA 在與 ACT 保持相同的基本結構下，空間泛化能力顯著提升。這種建模方式為具身操作策略的建模提供了新的思路。

動作鏈：基于軌跡自回歸建模的
機器人操作策略
核心思想：受到思維鏈（Chain-of-Thought）的啟發， CoA 并不直接由觀察映射到執行動作，而是在動作層面進行迭代式的推理。具體來說， CoA 逆向的生成針對目標任務的完整軌跡，這個生成過程統一在一個自回歸網絡下。自回歸過程從「關鍵幀動作」（keyframe action）開始，迭代地生成一連串完整的動作軌跡，直至當前的機器人夾爪的位置。
全局到局部一致性：這種「從后往前」的生成方式，為整個動作序列提供了的「全局 - 局部」（global-to-local）結構性約束。因為每個后續生成的動作都以代表最終目標的「關鍵幀」為條件，所以最后執行的動作將會被最終目標所「錨定」，空間泛化能力顯著得到增強。
統一的自回歸框架：CoA 將關鍵幀的識別和軌跡的生成統一在單一的自回歸模型中，實現了端到端的訓練和高效的閉環執行，并保持了可擴展（scalable）的潛力。

關鍵設計
為了實現軌跡自回歸的想法， CoA 引入了四個關鍵設計：
連續動作表征（Continuous Action Representation）：離散化的動作表征會引入量化誤差，為保證軌跡的精細度， CoA 采用了連續的動作表征并引入了「潛在一致性損失」（Latent consistency loss）。
動態停止機制（Dynamic Stopping）：在連續動作空間中，沒有傳統的中止符（EOS token）來指示序列的結束。因此， CoA 設計了一種基于距離的動態停止機制，實現可變長度（variable length）的軌跡預測。
反向時間集成（Reverse Temporal Ensemble）：傳統的時序集成策略基于前向時間假設，不適用于 CoA 的反向生成模式。 CoA 通過反向時序集成，進一步提高預測的穩定性。
多詞元預測（Multi-token Prediction MTP）：動作局部依賴關系的建模可作為「全局 - 局部」一致性的補充。此設計僅在訓練階段作為正則化手段使用，在推理時移除，保證了效率。

實驗驗證
模擬環境測試
大幅超越基線：在涵蓋 60 個任務的 RLBench 大規模擬基準測試中， CoA 的平均成功率達到了 55.2% ，顯著優于 ACT（38.9%）和 DP（32.6%）。相較于 ACT ， CoA 在 81.7% 的任務中取得了更高的成功率，平均提升了 16.3% 。相較于 DP ， CoA 在 80.0% 的任務上表現更優，平均提升為 23.2% 。

相關性分析：所有方法的成功率都隨著物體空間分布方差的增大而下降，但 CoA 的下降趨勢更為平緩，且其性能優勢在高方差（更困難）的任務中更為明顯。

空間泛化能力分析：研究者對泛化性進行了更細致的觀察。以按按鈕任務為案例，分別測試了「內插」（in-distribution）和「外推」（out-of-distribution）情況下各個模型的表現，結果顯示， CoA 在外推場景下成功率約為內插情況下的一半，但對于 ACT 和 DP ，外推任務幾乎不能完成，這一定程度揭示了兩種建模范式在空間泛化表現上的根本差異。

真實世界實驗
研究者在一臺 Fetch 機器人上，圍繞 8 項廚房任務進行了部署和測試。觀察來自單個 RGB 攝像頭，策略以 10Hz 的頻率運行，每個任務測試 10 次。實驗結果顯示 CoA 取得了 61.3% 的平均成功率， ACT 成功率為 46.3% ， DP 的成功率 36.3% 。這驗證了 CoA 建模范式在真實世界中的可用性。

結論與展望
Chain-of-Action 提出了一種新穎的模仿學習范式，其核心是軌跡自回歸建模。通過從一個代表任務目標的「關鍵幀」開始，逆向生成動作序列，該方法為軌跡施加了一個強大的「全局 - 局部」結構約束，從而有效解決累計誤差問題，提升機器人操作泛化性。全面的實驗結果證明，在沒有更多數據和增大模型規模的情況下，其在空間泛化能力相比傳統范式取得顯著提升。這說明一個合理的建模范式可以有效的釋放現有數據的潛力。 CoA 有望為未來一代的 VLA 模型提供新的建模思路。