世界模型開始做減法?LeCun團隊和清華團隊給出兩種思路

世界模型開始做減法?LeCun團隊和清華團隊給出兩種思路

文章圖片

世界模型開始做減法?LeCun團隊和清華團隊給出兩種思路

文章圖片

世界模型開始做減法?LeCun團隊和清華團隊給出兩種思路

文章圖片

世界模型開始做減法?LeCun團隊和清華團隊給出兩種思路

文章圖片

世界模型開始做減法?LeCun團隊和清華團隊給出兩種思路

文章圖片

世界模型開始做減法?LeCun團隊和清華團隊給出兩種思路

機器之心編輯部
近期 , 圍繞「世界模型」這一方向 , 有兩項工作受到較多關注 。
一篇是來自 Yann LeCun 團隊的 LeWorldModel , 嘗試以更簡潔的 JEPA 實現從像素端到端訓練的世界模型 , 在降低訓練復雜度的同時 , 驗證了潛在空間中對物理結構的刻畫能力 。

另一篇是清華大學團隊的 Fast-WAM , 則從應用角度出發 , 重新審視當前主流 World Action Model(WAM)的設計范式 , 探討「是否真的需要在推理階段顯式生成未來」這一關鍵問題 , 并給出了一種更高效的替代路徑 。

兩項工作分別從「如何更簡潔地學習世界」與「是否需要在推理中反復想象世界」兩個維度 , 對當前世界模型的主流思路進行了補充與修正 , 也為理解這一方向的技術演進提供了不同切入點 。
謝賽寧也建議將這兩篇論文結合起來閱讀 。

讓我們一起看看這兩項工作的具體內容 。
世界模型在「做減法」:
從復雜系統到最小閉環

論文標題:LeWorldModel: Stable End-to-End JEPA from Pixels 論文地址:https://le-wm.github.io/ 項目地址:https://arxiv.org/pdf/2603.19312v1聯合嵌入預測架構(JEPA)為在緊湊的潛在空間中學習世界模型提供了一種頗具吸引力的框架 。 然而 , 現有方法仍然較為脆弱 , 往往依賴復雜的多項損失函數、指數滑動平均(EMA)、預訓練編碼器或額外的輔助監督 , 才能避免表征坍塌 。
在本工作中 , 研究團隊提出了 LeWorldModel(LeWM) , 這是首個能夠從原始像素端到端穩定訓練的 JEPA 模型 , 僅使用兩個損失項:下一步嵌入預測損失 , 以及用于約束潛在嵌入服從高斯分布的正則項 。 相比目前唯一的端到端替代方案 , 該方法將可調的損失超參數數量從六個減少到一個 。

LeWM 僅約 1500 萬參數 , 可在單張 GPU 上數小時內完成訓練;在規劃速度上 , 相比基于基礎模型的世界模型最高可提升約 48 倍 , 同時在多樣的 2D 與 3D 控制任務中仍保持具有競爭力的表現 。 除了控制任務之外 , 我們還通過對物理量的探測實驗表明 , LeWM 的潛在空間能夠編碼有意義的物理結構 。 進一步的「驚訝度」評估顯示 , 該模型能夠可靠地檢測出物理上不合理的事件 。

方法
這篇論文的方法可以概括為一個在潛在空間中完成建模與決策的端到端世界模型框架 。
具體而言 , LeWM 由兩個模塊組成:視覺編碼器和動力學預測器 。 編碼器將原始像素觀測映射為低維潛在表示;預測器則基于當前表示和動作 , 預測下一時刻的潛在狀態 , 從而刻畫環境的演化過程 。 整個模型從原始像素出發聯合訓練 , 不依賴預訓練特征或額外組件 。
訓練采用離線、無獎勵的設置 , 僅使用觀測序列與動作 。 目標函數包括兩部分:一是相鄰時間步之間的嵌入預測損失 , 用于學習可預測的表示;二是分布正則項 , 通過約束潛在表示在隨機方向上的投影接近高斯分布 , 避免表征坍塌 。 這一設計在不引入額外穩定技巧的情況下 , 實現了端到端訓練 。
在獲得潛在動態模型后 , 決策階段直接在潛在空間中進行 。 給定當前觀測和目標觀測 , 模型將其編碼為潛在表示 , 并通過預測器對候選動作序列進行前向展開(rollout) , 選擇最終狀態最接近目標的序列(通過交叉熵方法優化) 。 實際執行中采用模型預測控制(MPC) , 每次僅執行部分動作 , 再基于新觀測重新規劃 , 以減少誤差累積 。

整體來看 , LeWM 將表示學習、動態建模與規劃統一在同一潛在空間中 , 形成從像素輸入到動作輸出的閉環過程 。
還需要「想象未來」嗎:
WAM 范式的再審視

論文標題:Fast-WAM: Do World Action Models Need Test-time Future Imagination? 論文地址:https://yuantianyuan01.github.io/FastWAM/ 項目地址:https://arxiv.org/abs/2603.16666世界動作模型(World Action Models WAMs)因能夠顯式建模視覺觀測在動作作用下的演化過程 , 被認為是具身控制中替代 VLA 模型的一種有前景的方案 。
現有大多數 WAM 采用「先想象、再執行」的范式 , 但由于需要進行迭代式的視頻去噪 , 這在測試階段會帶來較高的延遲 。 同時 , 一個關鍵問題仍未被回答:顯式的未來想象 , 是否真的是實現強動作性能所必需的?
本文探討:WAM 在測試階段是否必須進行顯式的未來想象 , 還是其性能提升主要來源于訓練階段的視頻建模能力 。
為此 , 研究團隊提出了 Fast-WAM , 一種在訓練中保留視頻協同訓練 , 但在測試時跳過未來預測的新型 WAM 架構 。 在多組對照實驗中 , Fast-WAM 在性能上依然可以與「先想象再執行」的模型競爭 , 而一旦移除視頻協同訓練 , 性能則會顯著下降 。

實驗結果表明 , 在無需具身預訓練的情況下 , Fast-WAM 在 LIBERO、RoboTwin 以及真實世界的毛巾折疊任務中均取得了具有競爭力的表現 。 同時 , 其推理延遲僅為 190 毫秒 , 可實現實時運行 , 相比現有「先想象再執行」的 WAM 設計提速超過 4 倍 。
方法
這篇論文的方法核心 , 是將「訓練階段學到的能力」和「測試階段是否顯式調用這些能力」進行拆分 。

Fast-WAM 在結構上仍屬于標準世界模型:輸入視覺觀測和動作 , 學習環境隨動作變化的動態 。 但關鍵區別在于 , 它將視頻建模僅保留在訓練階段 , 而不在推理時顯式展開 。
在訓練過程中 , 模型通過視頻協同訓練學習從當前觀測和動作預測未來視覺變化 , 從而在內部形成對環境演化的表征 。 這一點與傳統「先想象再執行」的方法一致 。
但在測試階段 , Fast-WAM 不再生成未來視頻軌跡 , 也不進行迭代去噪 , 而是直接基于當前觀測輸出動作 。 換句話說 , 原本需要在推理時顯式展開的「未來想象」 , 被轉化為訓練階段隱式學到的能力 。
實驗表明 , 只要保留訓練階段的視頻建模能力 , 即使移除測試時的顯式想象過程 , 模型性能仍能保持;反之 , 如果缺少視頻建模能力 , 性能則會明顯下降 。 這說明 , WAM 的關鍵不在于推理時是否生成未來 , 而在于訓練過程中是否學到了環境動態 。
【世界模型開始做減法?LeCun團隊和清華團隊給出兩種思路】更多技術細節請參見原論文 。

    推薦閱讀