Meta最新研究RecoWorld，從「猜你喜歡」到「聽你指令」

2025-11-25 算法推薦系統 meta

文章圖片

文章圖片

文章圖片

大家每天都在和推薦系統打交道。無論是刷短視頻、逛電商、聽音樂還是看新聞，背后都有一套「聰明」的算法在猜測你可能喜歡什么。但你是不是偶爾覺得推薦內容千篇一律？這其實暴露了傳統推薦系統的一個核心問題：它們大多數是基于過去數據來預測，被動的「猜你喜歡」，而缺乏和你真正的互動。

最近， Meta 推薦系統團隊提出了一個全新的思路 —— RecoWorld 。

RecoWorld的獨特之處在于其雙視圖架構：模擬用戶和智能體推薦系統進行多輪交互，旨在最大化用戶留存率。

用戶模擬器會查看推薦商品，更新其思維模式，并在察覺到用戶可能脫離互動時生成反思性指令。智能體推薦系統則通過整合這些用戶指令和推理軌跡，調整其推薦內容，形成一個主動吸引用戶的動態反饋循環。這一過程利用了大語言模型出色的推理能力。

研究者探索了模擬器中的多樣內容表示形式，包括基于文本、多模態和語義ID建模，并討論了多輪強化學習如何使推薦系統通過迭代交互來不斷完善其策略。 RecoWorld還支持多智能體模擬，允許創作者模擬目標用戶群體的響應。它標志著向一個新的推薦系統邁出了重要的第一步，在這個系統中，用戶和智能體共同塑造個性化的信息流。他們設想了一種新的互動范式：「用戶指令，推薦系統響應」，共同優化用戶留存和參與度。

論文標題：RecoWorld: Building Simulated Environments for Agentic Recommender Systems 論文鏈接：https://arxiv.org/abs/2509.10397
它不僅是一個推薦算法，而是一個「虛擬世界」，讓推薦系統和模擬用戶能在里面進行交互、反饋和優化，做到「你說我改」。

為什么推薦系統需要「進化」？

過去，研究人員想改進推薦系統，主要有兩種辦法：

1. 用歷史數據做離線評估：但這樣容易「路徑依賴」，系統會在老套路里兜圈子。
2. 做線上 A/B 測試：能看到真實用戶反饋，但風險很高，測試失敗就可能傷害用戶體驗。

而隨著「智能體（Agentic RecSys）」概念興起，推薦系統不再只是被動推送，而是能理解指令、主動學習，甚至根據用戶的語音、行為即時調整推薦。為訓練 agentic recsys ， Meta 提出 RecoWorld：一個仿真環境，把「模擬用戶」和「推薦系統」放進一個虛擬世界，讓它們多輪互動，避免和真實用戶交互損害用戶體驗。

RecoWorld 是怎么工作的？

RecoWorld 的核心是一個「虛擬對手戲」。一邊是「模擬用戶」，會點擊、跳過、點贊、抱怨等；另一邊是「智能體推薦系統」，會根據這些反饋不斷調整推薦內容。兩者來回互動，幫助推薦系統學會如何真正留住用戶。

關鍵要素與流程：

模擬用戶（User Simulator）：像真人一樣，它會抱怨、會點贊，還會給指令。比如說：「別再給我推美妝了，換點別的！」
大語言模型強大的推理和內容理解能力為模擬人類行為提供了巨大的潛力。研究者通過預測用戶在看到推薦商品列表時的下一步操作來模擬真實用戶的行為。

如圖 2 所示，模擬用戶針對每個商品的操作空間 A 包括：(1) 點擊、(2) 評論、(3) 分享、(4) 點贊、(5) 觀看 [指定時長（以秒為單位）
、(6) 跳過以及 (7) 離開會話。

如果用戶選擇離開（操作 7），系統會提示他們反思體驗，說明不滿意的原因，并向 RecSys 提供改進說明，或者用戶可以直接退出，無需進一步輸入。

用戶的決策受到當前環境 C 和過去交互 H 的影響。如圖 2 所示，研究者考慮與用戶相關的環境因素，例如時間（一天中的時間、季節性）、人口統計（年齡、性別、位置等）、行為（花費的時間、搜索查詢等）和社會聯系（團體關系等）。

會話從用戶打開應用程序開始，到用戶退出應用程序結束。每個推薦都會呈現一個包含 k 個項目的列表，這些項目是從候選集 C 中選擇出來的，并按順序顯示。

智能體和模擬用戶可能在會話中多次交互，例如，用戶請求更多有趣的內容，智能體會更新列表。每個列表顯示后都會生成獎勵信號。至關重要的是，其目標是優化長期用戶留存作為獎勵信號，即最大化會話時長并最小化會話間隔，這與每日活躍用戶 (DAU) 相關。

具體來說，模擬用戶會逐一瀏覽每個推薦。對于每個項目，用戶需要采取三個步驟：1. 仔細思考：你回應的理由是什么？2. 采取行動：寫下你實際會做的事情。 3. 更新你的思維方式：這會如何影響你當前的想法？

圖 3 顯示了一個匯總表，其中包含初始模擬器結果，包括模擬用戶對每個項目的操作和理由。

智能推薦（Agentic RecSys）：像一個聰明助手，會調整推薦內容，努力把你留下來。比如說：「好的，這里有一些新鮮的推薦！」動態反饋循環：用戶給指令 → 推薦系統調整 → 用戶再反饋 → 系統再優化…… 就像一場雙向對話。
除此之外， RecoWorld 的設計不僅局限于單一用戶層面，它還能構建多用戶、多群體的交互場景。這意味著，創作者可以在里面測試不同的內容策略，比如：

如果我一天發三條視頻，粉絲會不會嫌煩？如果我嘗試一個爭議話題，會帶來更多流量還是掉粉？這些問題都能在 RecoWorld 里先「演練」，再決定是否在真實世界嘗試。未來的推薦系統可能會變成這樣：

你說一句：「別再給我發型視頻了」，系統立刻調整。你想學吉他，它不會只給你「吉他教學視頻」，還會根據你的堅持程度，逐步推薦合適的練習曲。甚至你刷短視頻刷累了，系統能主動察覺你的疲憊，推薦一些輕松、治愈的內容。換句話說，推薦系統正在從「猜你喜歡」變成「聽你說話」，從「冷冰冰的算法」變成「能交流的伙伴」。

為什么說這是「第一步」？

RecoWorld 并不是一個最終產品，而是一個基礎設施。它像 OpenAI 的 Gym 之于強化學習一樣，為推薦系統研究搭建了一個安全的試驗場。研究人員和開發者可以在里面測試新算法、對比不同模型，甚至建立一個「排行榜」，讓全球團隊公平切磋。這意味著：

推薦系統的研發會更快，試錯成本更低；創作者有了「內容風洞」，可以先預測受眾反應；普通用戶未來會遇到更聰明、更懂你的推薦。
總結

從單向推送到雙向互動，從「算法支配用戶」到「用戶指揮算法」， RecoWorld 代表了一種全新范式。未來推薦系統不僅僅是「信息過濾器」，而是一個能和我們對話、一起探索興趣的「數字伙伴」。

在這一框架下，推薦不再是靜態的預測，而是一個不斷演化的交互過程。或許今后，當你說：「推薦點更有意思的吧」，你的推薦系統就真的能理解，并回應：好的，我猜你可能會喜歡這個。 RecoWorld 的設計愿景，正是推動推薦系統向更高水平的人機共建與興趣探索邁進。

這，就是 RecoWorld 想帶來的未來。

【Meta最新研究RecoWorld，從「猜你喜歡」到「聽你指令」】更多詳見原論文：https://arxiv.org/abs/2509.10397

推薦閱讀

上一篇：爆肝一個月,復刻DeepMind世界模型,300萬參數玩實時交互像素游戲

下一篇：沒想到！5分鐘就刷新了記錄，小米17 Pro Max徹底爆了