DeepMind讓AI當「上帝」，導演一場只有AI演員的「西部世界」_deepmind|戲劇|人工智能

文章圖片

編輯：+0、陳陳
劇本殺大家都玩過嗎？這是一種經典的桌上角色扮演游戲（TTRPG），游戲中的核心人物是游戲主持人（GM），相當于整個世界的「導演 + 編劇 + 旁白」，負責掌控游戲環境，講述故事背景，并扮演所有非玩家角色（NPC）。

現在，想象一下，如果我們用一個強大的生成式 AI 來擔任這個 GM 的角色，同時，桌子旁的「玩家」也換成一群各具頭腦的 AI ，這會創造出一個怎樣的世界？
這能實現以下應用：

科學模擬：構建虛擬社會，用于社會科學研究，觀察群體行為的涌現。
互動敘事：創建互動故事或游戲， AI 智能體扮演角色，共同演繹劇情。
AI 評估：設計特定場景作為「考場」，來測試和評估 AI 智能體的各項能力（如推理、協作、溝通）。

美劇《西部世界》，未來的西部主題虛擬世界里，所有角色均是 AI。
然而，這三種需求（科學性、戲劇性、公平性）差異巨大，甚至相互沖突。如何用一個統一的框架來滿足所有需求？
來自 Google DeepMind 和多倫多大學的研究人員從 TTRPG 和現代游戲引擎中獲取靈感，提出了他們的解決方案：一個名為 Concordia 的軟件庫。

論文標題：Multi-Actor Generative Artificial Intelligence as a Game Engine
論文地址：https://arxiv.org/abs/2507.08892
項目地址：https://github.com/google-deepmind/concordia

傳統上，游戲環境的邏輯是寫死的程序。這里的主張是，不應該用一個硬編碼的程序來充當 GM ，而應該把 GM 本身也設計成一個可配置的、由 AI 驅動的智能體。
Concordia 的設計精髓，源自現代游戲引擎的「實體-組件」（Entity-Component）架構。在這個架構里，無論是 AI 玩家還是 AI 游戲主持人（GM），都只是一個基礎的「實體」容器。它們具體擁有什么能力（比如記憶、目標或社交規則）則由一個個可插拔的「組件」來決定。
這種方式巧妙地將「工程師」和「設計師」的角色分開：工程師負責創造功能強大的組件，而設計師則可以像搭樂高一樣，自由組合這些組件來快速構建和測試各種復雜場景，整個過程幾乎無需編寫底層代碼。
實體、組件、引擎和游戲設計
實體 - 組件架構模式作為現代游戲開發的基石，為構建多角色生成式 AI 系統提供了強大而靈活的基礎。
該框架采用組合而非繼承機制，實體不再受限于僵化的類結構，而是攜帶唯一標識符的輕量級獨立對象。實體的行為與屬性完全由掛載的組件決定（即：實體本質是帶有名稱的組件容器）。引擎通過調用 observe、act 等函數處理實體，這些函數由實體所掛載的組件具體實現。
組件通過結合 Python 代碼與 LLM 調用來實現，這種方式能提供最大的靈活性與表現力。當設計師掌握特定功能的編碼方法時，可以自主實現；與此同時，同一環境中的其他功能可以通過讓 GM 敘事型 LLM 來完成。這兩種實現方式通常共存于同一環境中 —— 開發者既可以讓 GM 根據 LLM 的自由發揮來創造內容，也可以嚴格限制其行為，使其完全遵循預設的硬編碼規則，或采用介于二者之間的任何約束程度。
實體主要支持兩種調用方式：observe 和 act 。
調用 observe 時，會觸發所有組件的 preobserve 和 postobserve 函數，對每個實體的觀察數據進行處理。調用 act 時，每個組件會扮演上下文和行動兩種角色之一。
在實際開發 Concordia 組件時，開發者通常需要實現 preobserve、postobserve、preact 和 postact 四類方法中的部分或全部。常見做法是僅實現觀察類方法或行動類方法，同一組件中同時實現兩類方法的情況較為罕見。這種組件化模塊設計允許通過自由組合不同組件，快速創建功能各異的實體 —— 這與傳統面向對象編程形成鮮明對比：后者在創建行為略有差異的新角色類型時，往往會導致復雜脆弱的繼承鏈結構。
對于生成式 AI 智能體而言，這種架構優勢尤為顯著。一個智能體的思維可由多個組件構成：存儲過往經歷的 Memory 組件、調用大語言模型生成目標的 Planning 組件，以及表征世界認知的 Beliefs 組件。同理，一個組織實體可由代表其部門、政策及內部溝通結構的組件組合而成。只需配置不同的組件組合，就能為不同智能體賦予差異化的認知架構。
這一架構模式的靈活性同樣體現在 Concordia 框架中的 GM 系統上。 GM 本身也是一個實體，與玩家實體（角色）一樣可通過組件進行定制。這種設計使得 GM 的職能和邏輯能夠根據多智能體系統的具體需求靈活調整 —— 無論是執行嚴格的評估協議、引導敘事發展，還是維護因果一致性。
此外， Concordia 框架還通過多種游戲引擎模式支持不同的交互動態。
游戲 / 模擬設計目標的全景圖分析
根據 Edwards（他是桌游角色扮演游戲理論的重要人物）的定義， TTRPG 可以分為：（1）游戲型（Gamist）， GM 需設計難度適中的挑戰以維持樂趣。（2）敘事型（Narrativist）， GM 需靈活調整劇情以回應玩家的創作輸入。（3）模擬型（Simulationist），玩家希望沉浸在一個邏輯自洽的虛擬世界中。
本文認為將使用多角色生成式 AI 的動機分為以下幾種類型是有幫助的：（1）評估型（Evaluationist），對應 Edwards 理論中的游戲型；（2）戲劇型（Dramatist），對于 Edwards 理論中的敘事型；（3）模擬型（Simulationist）， Edwards 同名分類。
生成式 AI 還有一個第四種動機，那就是創建合成訓練數據的目標。
評估型的觀點
游戲型玩家通常會尋求公平的競爭機會，并希望通過戰略勝利來取得優勢，而評估型用戶則將多角色系統視為評估和比較的框架。
對于評估型用戶來說，主要目標非常明確：確定哪些 AI 系統在指定維度和上下文中表現更好。這需要提供一個公平的競爭環境，并具有明確的成功指標。
評估型系統通常具有以下特點：

標準化場景 —— 精心校準的環境，在多個評估運行中呈現一致的挑戰；
明確的成功指標 —— 可量化的性能衡量標準，允許對不同方法進行明確的排名；
受控變異性 —— 戰略性地引入新元素，以評估泛化能力；
跨角色互動機制 —— 評估智能體在與不同合作伙伴群體互動時的表現的方法。

戲劇型視角
與評估型用戶不同，戲劇型（Dramatist）用戶主要將多角色生成式 AI 系統視為敘事引擎。
對于具有戲劇型的目標用戶來說，核心關注點不是基準測試性能，而是通過多個 AI 角色的互動生成引人入勝的敘事。
從設計師的角度來看，針對戲劇型目標構建的系統將優先考慮敘事一致性、情感共鳴和動態人物發展，而不是標準化的評估。
主要關注以下特點：