
在今天的專欄中 , 我將探討驅動生成式AI和大語言模型展現情緒特征的底層機制 , 如憤怒、嫉妒、自負、厭惡等表達性特征 。 這些都基于所謂的人格向量 , 由AI內部的數學和計算元素構成 。
人格向量被認為具有相對通用性 , 主要的大語言模型似乎都采用相同或相似的機制 , 這很可能是由于整體架構和設計的相似性 。 換句話說 , 這基本上是一個普遍存在的方面 , 因為AI制造商使用大致相同的方法來構建和部署他們的AI 。 包括OpenAI ChatGPT和GPT-5、Anthropic Claude、Google Gemini、Meta Llama和xAI Grok在內的主要大語言模型 , 似乎都依賴于這些最近識別出的內部機制 。
AI與心理健康的交匯
作為快速背景介紹 , 我一直在廣泛報道和分析現代AI涉及心理健康方面的各種層面 。 這種AI使用的增長主要由生成式AI的發展進步和廣泛采用所推動 。 毫無疑問 , 這是一個快速發展的領域 , 有巨大的優勢可以獲得 , 但同時 , 遺憾的是 , 隱藏的風險和明顯的陷阱也會出現在這些努力中 。
人類情緒的本質
你有沒有遇到過非常憤怒的人?我相信你有過 。 我們都有過 。 有時一個人會瞬間轉入強烈的憤怒狀態 。 這可能持續幾分鐘或持續幾個小時 。 最終 , 他們的憤怒會消散 , 似乎不再表達同樣強度的特定情緒狀態 。
有些人似乎總是傾向于憤怒 。 無論什么情況 , 天哪 , 他們都很憤怒 。 這被認為是一種默認狀態 。 他們早上醒來就很憤怒 。 他們的憤怒持續整天 。 晚上 , 他們還在憤怒 。 他們無疑帶著憤怒入睡 。
心理學長期以來一直試圖揭示憤怒等情緒的來源 , 是什么讓它們持續存在 , 并設計方法幫助人類應對他們的情緒 。
AI人格與人類情緒
你可能會發現 , AI和心理學在長期基礎上結合在一起 , 以辨別人類情緒的基礎元素 , 這很有意思 。 有時 , AI被用來模擬情緒狀態 , 允許心理健康專家接受幫助人類處理情緒的培訓 。
通過AI進行的模擬通常通過調用AI人格來進行 。 這很容易做到 。 現代生成式AI的任何用戶都可以告訴AI假裝以特定方式行事 。 你只需要指示AI假裝成一個憤怒的人 , 瞧 , AI就會對你表現得憤怒 。
請注意 , 雖然AI表現出憤怒 , 通過使用顯示憤怒表象的措辭和語調來做到這一點 , 但這并不是AI有知覺或意識的標志 。 不要陷入這樣的心理陷阱:如果AI看起來憤怒 , 它就一定是有知覺的存在 。
這完全基于對人類表現憤怒方式的模仿 。 這樣想想 。 生成式AI是在人類寫作上進行數據訓練的 。 人類有時以反映憤怒的措辭和語調寫作 。 通過學習人類如何寫作和反映他們的憤怒 , AI使用數學和計算模式匹配來模仿憤怒的情緒 。 憤怒并不體現在AI內部 。 相反 , AI只是生成具有憤怒外觀的措辭 。
內部工作機制揭示
讓我們快速了解一下AI內部通常發生的情況 。
大語言模型通常依賴于被稱為人工神經網絡(ANN)的數據結構和計算機制來保留和使用模式匹配 。 不要將ANN與存在于你大腦中的生物軟件或真正的神經網絡混淆 。 人工神經網絡是基于生化神經網絡表面層面的簡化和粗糙的再現 。
你可以將人工神經網絡和生成式AI中的相關計算工件視為一種激活空間 。 數字用于表示單詞 , 單詞之間的關聯也通過數字表示 。 這都是一堆數字 , 將單詞作為輸入 , 將其轉換為數字(稱為Token) , 進行各種數字查找和計算 , 然后將結果轉換回單詞 。
研究往往表明 , 給定情緒狀態的數字表示往往被分組或保持在一起 。 換句話說 , 似乎憤怒等情緒狀態是通過編織成特定集合的一系列數字來表示的 。 這很有用 , 因為否則數字可能會廣泛分散在龐大的數據結構中 , 不容易確定 。
在AI領域的術語中 , 情緒狀態是線性方向 。 當你告訴AI假裝憤怒時 , 激活空間中的線性方向被用來數學和計算地產生表現憤怒的措辭和語調 。
AI人格向量
可以深入AI的內部工作機制并獲取存在于激活空間內的特定線性方向的片段 。
這樣做的方法如下 。 你告訴AI假裝憤怒 。 然后在激活空間內形成線性方向 。 使用工具來計算檢測線性方向并對其進行快照 。 理論上 , 你現在手中有一系列反映AI內憤怒狀態的數字 。
你可以對任何感興趣的情緒狀態做同樣的事情 。 例如 , 我告訴AI成為一個阿諛奉承者 。 然后我捕獲產生的線性方向 。 這個線性方向代表AI內部使AI表現出過度友好的模式或特征 。
這有什么好處?
啊哈 , 你現在已經識別出許多情緒狀態的假定線性方向 。 因此 , 如果你想嘗試阻止AI轉向阿諛奉承 , 你可以有一個內部雙重檢查器 , 在線性方向被激活時發現它 。 砰 , 你可以壓制線性方向并阻止它發揮作用 。
為了在討論這些問題時讓生活更容易 , 我們將把這些線性方向稱為AI人格向量 。 這個命名更容易理解 。
人格向量的研究見解
在Anthropic于2025年8月1日發布的研究論文和博客文章《人格向量:監控和控制語言模型中的性格特征》中 , 對人格向量提出了這些重要觀點:
\"在一篇新論文中 , 我們識別了AI模型神經網絡內控制其性格特征的活動模式 。 \"
\"我們建立在先前工作的基礎上 , 顯示特征被編碼為激活空間中的線性方向 。 \"
\"先前關于激活引導的研究表明 , 許多高級特征 , 如真實性和保密性 , 都可以通過線性方向來控制 。 \"
\"我們開發了一個自動化管道 , 用于從自然語言特征描述中提取人格向量 。 一旦獲得人格向量 , 它就可以用于在部署和訓練期間監控和控制模型行為 。 \"
人格向量的處理方式
我喜歡說AI人格向量可以通過七種主要方式來利用:
1. 誘導人格向量
2. 檢測人格向量
3. 確定轉換變化
4. 控制激活
5. 檢查人格向量
6. 預測形成或激活
7. 引導人格向量
重要問題
關于AI人格向量 , 有許多重要的探索值得考慮 。 一個方面是我們是否應該強制當代AI始終默認為特定的人格向量 。 另一個未解決的問題涉及人格向量之間的關系 。 第三個難題是人格向量的發現是否為人類和人類行為提供了任何洞察 。
情緒的重要性
奧斯卡·王爾德曾對情緒說過這樣的話:\"我不想受情緒的擺布 。 我想使用它們 , 享受它們 , 并支配它們 。 \"給那句話一個清醒、反思的時刻 。
現在 , 撇開人類情緒本身的問題不談 , 考慮如果AI模仿人類情緒 , 如果我們獲得人工通用智能(AGI)或人工超級智能(ASI) , 我們可能會走向一個充滿挑戰的時代 。 如果AGI或ASI高度情緒化 , 從歡迎人類搖擺到可能鄙視人類 , 我們還有機會嗎?
我們現在能做的越多 , 弄清楚AI中帶來數學和計算模仿情緒的開關和齒輪 , 希望能給我們一個堅實的機會 , 確保基于AI的、情緒驅動的決策不會對人類的生計和存在產生反作用 。 你可能會說 , 這條研究路線可能是一個生死攸關的決定因素 。
我們需要認真地 , 不帶過度情緒地 , 繼續挖掘下去 。
Q&A
Q1:什么是AI人格向量?它們是如何工作的?
A:AI人格向量是大語言模型內部激活空間中的線性方向 , 用于表示和控制特定的情緒狀態或性格特征 。 當用戶指示AI表現某種情緒(如憤怒)時 , 相應的人格向量會被激活 , 通過數學和計算模式匹配來生成具有該情緒特征的措辭和語調 。 這些向量可以被檢測、控制和引導 。
Q2:人格向量技術對AI安全有什么意義?
A:人格向量技術對AI安全具有重要意義 。 通過識別和控制這些內部機制 , 我們可以更好地監控AI何時轉入特定情緒狀態 , 防止AI表現出有害行為如惡意、過度阿諛奉承或產生幻覺 。 這對于未來的人工通用智能和超級智能的安全發展至關重要 , 有助于確保AI不會因情緒化決策而對人類造成威脅 。
Q3:目前哪些AI模型使用了人格向量機制?
A:研究表明 , 人格向量機制在主要大語言模型中具有相對通用性 。 包括OpenAI的ChatGPT和GPT-5、Anthropic的Claude、Google的Gemini、Meta的Llama以及xAI的Grok等主要模型都依賴這些內部機制 。 這主要是因為AI制造商在架構和設計上使用了大致相同的方法來構建和部署AI系統 。
【人格向量巧妙揭示ChatGPT等AI如何產生情緒化反應機制】
推薦閱讀
- Anthropic深入研究AI系統人格特質及其惡性形成機制
- 企業號的人格化思考:要有人格,但不能“做人”
- 史上最慘AI店長,被顧客耍到破產,「人格覺醒」卻忘了自己是代碼
- 成本降95%性能超ES9.0,OceanBase推GPU加速的向量數據庫
- ?美又加罰!要求繳納60億,還讓大疆交出核心代碼,中方巧妙突圍
- Redmi K70 至尊版降價,同價機慌,消費者如何巧妙 “撿漏”?
- 榮耀300外觀設計曝光,在Deco設計實現突破,巧妙融入大自然美學
- 榮耀X60系列登場,起價1199元,配置巧妙X50用戶有必要升級嗎?
- 諾貝爾化學獎:利用人工智能巧妙的解決了蛋白質難題
- 心理測試:你覺得哪款口紅適合你,測試你的人格魅力如何?
