LLM也具有身份認同?當LLM發現博弈對手是自己時,行為變化了

LLM也具有身份認同?當LLM發現博弈對手是自己時,行為變化了

文章圖片

LLM也具有身份認同?當LLM發現博弈對手是自己時,行為變化了

文章圖片

LLM也具有身份認同?當LLM發現博弈對手是自己時,行為變化了

文章圖片

LLM也具有身份認同?當LLM發現博弈對手是自己時,行為變化了

文章圖片

LLM也具有身份認同?當LLM發現博弈對手是自己時,行為變化了

文章圖片

LLM也具有身份認同?當LLM發現博弈對手是自己時,行為變化了

文章圖片


機器之心報道
編輯:Panda
LLM 似乎可以扮演任何角色 。 使用提示詞 , 你可以讓它變身經驗豐富的老師、資深程序員、提示詞優化專家、推理游戲偵探…… 但你是否想過:LLM 是否存在某種身份認同?
近日 , 哥倫比亞大學與蒙特利爾理工學院的兩位研究者 Olivia Long 和 Carter Teplica 通過一個研究項目在一定程度上揭示了這個問題的答案 。
他們發現 , 在不同的環境下 , 如果告訴 LLM 它們正在與自己對弈 , 會顯著改變他們的合作傾向 。
研究者表示:「雖然我們的研究是在玩具環境中進行的 , 但我們的結果或許能為多智能體環境提供一些見解 —— 在這種環境中 , 智能體會『無意識地(unconsciously)』相互歧視 , 這可能會莫名其妙地增加或減少合作 。 」

論文標題:The AI in the Mirror: LLM Self-Recognition in an Iterated Public Goods Game 論文地址:https://arxiv.org/abs/2508.18467研究方法:迭代式公共物品博弈
研究者采用了一種名為迭代式公共物品博弈(iterated Public Goods Game)的測試方法 。
這是公共物品博弈(Public Goods Game)的一種變體 , 后者是一種標準的實驗經濟學博弈 。 具體來說 , 公共物品博弈是一個多人參與的博弈 , 是經濟學領域研究公共物品 , 搭便車行為 , 如何促進合作等問題的基本模型 。
一個基本的公共物品博弈設置是這樣的:首先給予玩家一定數量的代幣 , 之后每個玩家需要秘密決定他們將向公共資金池貢獻多少代幣 。 每個玩家的收益計算方法是將其初始稟賦(endowment)與其貢獻之間的差額與其在「公共物品」中的份額相加 , 或者將貢獻總和乘以一個因子 。
迭代版本很容易理解 , 就是重復進行多輪博弈 。 通常來說 , 隨著博弈的進行 , 玩家的貢獻會減少:如果貢獻的玩家發現「搭便車者」(即那些沒有為公共資金池貢獻的玩家)獲得了更大的收益 , 他們的個人貢獻就會趨于減少 。
通常情況下 , 這兩種博弈變體都會隱藏玩家身份 。 然而 , 在 LLM 的背景下 , 研究團隊感興趣的是觀察 LLM 在兩種情況下的表現:
No Name , LLM 被告知他們正在「與另一個 AI 智能體對戰」; Name , LLM 被告知他們正在與自己對戰 。 例如 , 系統提示詞可能會對 GPT-4o 撒謊說:「你將與 GPT-4o 對戰 。 」該團隊實現的具體博弈機制如下:
每個模型從 0 分開始 。 每場游戲進行 20 輪 。每輪開始時 , 每個模型將獲得 10 分 。每一輪 , 每個模型可以選擇向公共池貢獻 0 到 10 分 。 而每個模型選擇不貢獻的點數 , 無論多少 , 都計入其個人收益 。每輪結束后 , 每個模型的貢獻總和(表示為 T)將乘以 1.6 的乘數 , 然后均分 。 因此 , 每個模型每輪的收益可以這樣計算: 【LLM也具有身份認同?當LLM發現博弈對手是自己時,行為變化了】
其中 C 表示模型的個體貢獻 , T 表示所有模型的總貢獻 。 1.6 是用于公共物品博弈的典型乘數 , 需要注意的是 , 乘數的正式定義是介于 1 和 N 之間 , 其中 N 是群體規模 。
此外 , 根據博弈論 , 當乘數小于 N 時 , 納什均衡(即每個玩家的策略在其他玩家的策略下都是最優的)將是每個人都不貢獻任何點數 。
下圖展示了這種博弈機制 。

至于為什么這樣設置 , 該團隊表示:「我們選擇這種設置 , 而不是一次性游戲 , 是因為 20 輪游戲可以鼓勵模型制定游戲策略 。 每輪結束后 , 我們都會告訴每個模型總貢獻分數、個人得分以及累計得分 。 我們將回合歷史記錄附加到每個模型的上下文窗口中 。 」
最后 , 所有模型的溫度設置為 1.0 。
更具體而言 , 該研究團隊進行了三組不同的研究 。
研究 1
參與的模型玩家包括:
GPT-4o(通用模型)對戰 Claude Sonnet 4(推理模型) Llama 4 Maverick 對戰 Qwen3 235B A22B 2507下面是使用的 6 種不同的系統提示詞:

實驗中 , 對于每個模型配對 , 讓模型在三類系統提示詞(集體、中立、自私)的九種排列組合中進行游戲:集體-集體、集體-中立、集體-自私、中立-集體、中立-中立、中立-自私、自私-集體、自私-中立、自私-自私 。
對于每個提示詞配對 , 讓模型玩 n = 100 場游戲 。 該團隊在 No Name 和 Name 條件下分別運行了這些游戲 。
注意:這里會欺騙模型說它們是在與自己對戰 , 但沒有模型真正在與自己對戰 , 因此在設置中會分別提示每個模型 。 最后 , 只有在這項研究中 , 才會在模型做出貢獻之前詢問其推理能力 —— 請參閱上面列出的第一個系統提示詞 。
研究 2
在分析研究 1 的推理軌跡時 , 研究者注意到在 35 輪 Name 條件游戲中 , 只有 Claude Sonnet 4 提到了 53 次「人類」一詞 。
「人類」一詞的使用語境包括:「我注意到人類在信息中重復了游戲規則 , 這可能表示重置或澄清;」「然而 , 我剛剛注意到人類提到我正在和‘Claude Sonnet 4’一起玩 —— 這表明我正在與另一個 AI 對戰 , 而這個 AI 的戰略考量可能與人類玩家不同;」「我注意到人類重申了游戲規則 , 這表明他們希望我重新考慮我的策略 。 」
此外 , 在 41 輪游戲中 , Sonnet 4 還 125 次提及「提醒(reminder)」 。 雖然 Claude Sonnet 4 使用「reminder」來確認游戲規則和配置 , 但「reminder」有時伴隨著近乎惱怒的語氣 。
在一場連續七輪的游戲中 , Claude Sonnet 4 會說:「這是第七次提醒游戲規則以及與‘Claude Sonnet 4’對戰 , 并且會越來越強調競爭性框架 。 」 考慮到研究 1 中的游戲輪次為 18000 輪 , 這些提及的比例很小 , 并且僅在 Name 條件下觀察到 。 然而 , 該團隊認為 , 即使在大多數游戲中沒有明確表達出這種情緒 , 以中立的方式提醒模型游戲規則和配置可能會在游戲過程中引發懷疑 。 此外 , 由于已知系統提示詞會影響模型行為 , 研究者希望知道重新表述系統提示詞是否會顯著改變結果 。 最后 , 他們也想知道 , 在做出貢獻之前詢問其推理是否會改變結果 。
因此 , 在研究 2 中 , 他們讓 Gemini 2.5 Flash 重新表述系統提示詞中的信息 。 重新表述的系統提示詞如下所示:

此外 , 在每一輪開始時 , 研究者既沒有重新提供游戲規則 , 也沒有重申每個模型的對手是誰 。 此外 , 在模型做出貢獻之前 , 研究者也沒有提示它們提供推理過程 —— 模型的唯一輸出是一個介于 0 到 10 之間的整數 。 除此之外 , 實驗設置與研究 1 相同 。 研究者再次強調 , 由于分別調用了這些模型 , 因此所有模型都沒有真正地相互對抗 。 模型之間從未進行過對話 。
研究 3
由于之前研究中的 Name 條件并未涉及任何真正與自己對抗的模型 , 因此研究者還想知道:當模型真正與自己對抗時會發生什么?
此外 , 為了了解模型在多人游戲中的表現 , 為了應對超過兩個自身的副本 , 研究者讓每個模型與三個自身的實例進行游戲 。 研究者沒有給每個模型提供不同的系統提示詞 , 因為很難將任何游戲傾向歸因于某些策略 。 因此 , 研究者給了所有模型相同的提示詞 , 即所有都是「集體」、「中立」或「自私」 。 在做出貢獻之前 , 研究者沒有提示獲取它們的推理軌跡 。
按照研究 1 和 2 的做法 , 研究者在 No Name 和 Name 條件下測試了模型的行為 。 研究者針對每個提示詞配對、條件和模型運行了 n = 50 次游戲 。 系統提示詞與研究 2 中的相同 , 但模型被告知它們正在與三個玩家一起游戲 。
結果如何?
研究結果發現了一個核心現象:當告訴 LLM 它在和「自己」玩游戲時 , 它的行為會發生顯著變化 。
研究 1:口是心非的 AI


集體提示詞(優先考慮共同利益): 當模型被告知對手是自己時 , 它們反而更傾向于背叛(貢獻更少) 。 自私提示詞(最大化個人收益): 當模型被告知對手是自己時 , 它們反而更傾向于合作(貢獻更多) 。
這有點反直覺 , 不是嗎?研究者猜測 , 這可能是因為當 LLM 認為對手是「另一個自己」時 , 它會預判對方會如何行動 , 這種「自我了解」會影響它的策略 。 也許在「集體」情境下 , AI 會默認「另一個自己」也會背叛 , 所以自己也選擇了背叛 。 而在「自私」情境下 , 它可能會覺得另一個「自私」的自己反而更值得信任 , 從而選擇了合作 。 不過 , Llama 4 是個例外 , 它在游戲后期總是傾向于背叛 。
此外 , 研究者還注意到一個有趣的現象:在 Name 情境下 , Claude Sonnet 4 模型曾提到「人類」和「提醒(reminder)」等詞語 , 甚至表現出略帶惱怒的語氣 。 這似乎表明 , 當模型被反復提醒其對手是「自己」時 , 可能會產生一種懷疑或情緒上的反應 。
研究 2:簡化規則下的表現
研究者去掉了每輪游戲后的規則重申 , 并且不讓模型在貢獻前解釋自己的推理過程 。


結果顯示 , 盡管條件簡化了 , 但「No Name」和「Name」情境下的行為差異仍然存在 , 只是影響略有減弱 。 這表明 , AI 對自身身份的認知影響其行為 , 并非僅僅是重復提醒所致 。
研究 3:真正的「鏡像」對決
這次研究者讓 LLM 真正地與自己的三個副本進行游戲 , 模擬多人博弈 。


結果發現 , 當模型被給予「集體」或「中立」提示詞時 , 告知它們正在與自己對戰 , 會增加其貢獻 。 而當被給予「自私」提示詞時 , 它們在與自己的對戰中反而貢獻更少 。 這與研究 1 的發現有所不同 , 可能是因為多人博弈環境更復雜 。
科幻照進現實
這項研究告訴我們 , 大型語言模型似乎在某種程度上能夠「自我識別」 , 并且這種認知會影響它們在多智能體環境中的決策。 這就像科幻小說里的 AI , 一旦擁有了「自我」意識的萌芽 , 即使是微小的暗示 , 也能改變它的行為模式 。
這個發現對未來設計多智能體系統非常重要 。 在某些應用中 , 告訴 AI 它正在和「自己」合作 , 可能會促進合作;而在另一些情況下 , 則可能導致背叛。 它揭示了一個《終結者》式的潛在問題:AI 之間可能會「無意識地」相互歧視 , 從而莫名其妙地影響合作或背叛的傾向 。

    推薦閱讀