騰訊混元推出面向世界模型的強化學習后訓練框架

2026-04-03 騰訊

【騰訊混元推出面向世界模型的強化學習后訓練框架】新京報貝殼財經訊（記者韋英姿）3月10日，騰訊混元3D團隊宣布開源業界首個面向世界模型的強化學習后訓練框架WorldCompass 。騰訊混元3D團隊表示，這是此前發布的混元世界模型1.5 官方強化學習擴展模塊，能夠讓世界模型的交互更加準確，體驗更好。
騰訊混元3D團隊認為，現有的生成式世界模型（WorldPlay等）主要依賴于預訓練階段的像素級監督。這種學習方式，往往導致模型在面對復雜的組合動作指令時“聽不懂” ，或者在長距離漫游中出現畫質崩壞和路徑漂移。因此，騰訊混元團隊推出了WorldCompass 。這是一個專為長時序、交互式世界模型設計的強化學習（RL）后訓練框架。通過引入強化學習機制， “引導”模型如何更準確地遵循用戶指令探索世界，并保持長時序的視覺一致性。
騰訊混元實驗數據表明， WorldCompass能提升 SOTA 開源世界模型（WorldPlay）的交互準確率和視覺保真度，在復雜的組合動作場景下，交互準確率提升了近35% 。
校對劉軍

推薦閱讀

上一篇：騰訊版“龍蝦”上線一天，騰訊云道歉：服務全面恢復穩定

下一篇：追覓回應遭網絡水軍控評拉踩：涉案人員已認錯并配合調查