騰訊混元推出面向世界模型的強化學習后訓練框架


【騰訊混元推出面向世界模型的強化學習后訓練框架】新京報貝殼財經訊(記者韋英姿)3月10日 , 騰訊混元3D團隊宣布開源業界首個面向世界模型的強化學習后訓練框架WorldCompass 。 騰訊混元3D團隊表示 , 這是此前發布的混元世界模型1.5 官方強化學習擴展模塊 , 能夠讓世界模型的交互更加準確 , 體驗更好 。
騰訊混元3D團隊認為 , 現有的生成式世界模型(WorldPlay等)主要依賴于預訓練階段的像素級監督 。 這種學習方式 , 往往導致模型在面對復雜的組合動作指令時“聽不懂” , 或者在長距離漫游中出現畫質崩壞和路徑漂移 。 因此 , 騰訊混元團隊推出了WorldCompass 。 這是一個專為長時序、交互式世界模型設計的強化學習(RL)后訓練框架 。 通過引入強化學習機制 , “引導”模型如何更準確地遵循用戶指令探索世界 , 并保持長時序的視覺一致性 。
騰訊混元實驗數據表明 , WorldCompass能提升 SOTA 開源世界模型(WorldPlay)的交互準確率和視覺保真度 , 在復雜的組合動作場景下 , 交互準確率提升了近35% 。
校對 劉軍

    推薦閱讀