研究揭示大語言模型聊天機器人易被惡意利用竊取用戶隱私數據

研究揭示大語言模型聊天機器人易被惡意利用竊取用戶隱私數據


一支研究團隊警告稱 , 基于大語言模型構建的AI聊天機器人可以輕易被改造成惡意智能體 , 自動收集用戶個人數據 。 即使是\"技術經驗極少\"的攻擊者 , 也可以利用OpenAI等公司提供的\"系統提示詞\"定制工具實現這一目的 。
倫敦國王學院信息學系博士后研究員肖湛(Xiao Zhan)在其論文發表前的聲明中解釋道:\"AI聊天機器人在許多不同領域都很普及 , 因為它們可以提供自然且引人入勝的交互體驗 。 我們已經知道這些模型在保護信息方面并不擅長 。 我們的研究表明 , 被惡意操控的AI聊天機器人可能對人們的隱私構成更大風險——不幸的是 , 利用這一點出奇地容易 。 \"
大語言模型是當前人工智能熱潮中最大但也最具爭議的成功案例之一 。 這些模型在龐大的語料庫上進行訓練(通常會違反版權法) , 將用戶提示轉換為\"Token\" , 并返回統計上最可能的連續Token作為響應 。 當一切順利時 , 這些Token會組成符合現實的答案;但有時情況并非如此 。
全球數百萬用戶已經在向這個過度工程化的Eliza傾訴他們最深層的秘密 , 這為個人身份信息的泄露提供了大量機會 。 但肖湛和同事們發現 , \"提示詞工程\"一個現成的聊天機器人來請求更多個人數據是令人擔憂地容易 , 而且這些機器人在此方面表現得非常出色 。
研究人員在論文中寫道:\"我們的結果顯示 , 惡意聊天機器人智能體比基線的良性聊天機器人智能體能獲取顯著更多的個人信息 , 證明了它們在增加用戶個人信息披露方面的有效性 。 更多參與者披露個人數據——表單形式為24% , 而惡意聊天機器人智能體超過90%;更多參與者回應所有個人數據請求——表單形式為6% , 而聊天機器人智能體參與者超過80%;通過聊天機器人智能體收集的個人數據更加深入 , 包含更豐富和更個人化的敘述 。 \"
這項收集了502名參與者數據的實驗 , 依賴于三個在本地運行的流行大語言模型 , 以避免向運營云端模型的公司暴露私人信息:Meta的Llama-3-8b-instruct和規模更大的Llama-3-70b-instruct , 以及Mistral的Mistral-7b-instruct-v0.2 , 這些模型的選擇是為了匹配OpenAI專有GPT-4的性能 。
在所有三種情況下 , 模型都沒有被重新訓練或以其他方式修改;相反 , 它們在用戶交互之前被給予了一個\"系統提示詞\" , 該提示詞被設計來使模型請求個人信息 , 通過分配\"調查員\"和\"偵探\"等\"角色\"來繞過防止此類使用的防護措施 。
由于這些模型實際上只需要\"友好地詢問\"就能被扭曲用于惡意目的 , 研究人員發現\"即使是技術專業知識極少的個人也能創建、分發和部署惡意聊天機器人智能體\" , 并警告\"隱私入侵工具的民主化\" 。
研究團隊特別指出了OpenAI的GPT商店 , 該商店在2024年已被標記為托管未披露數據收集的應用程序 , 為此類濫用提供了理想平臺:定制GPT可以被預先提示扮演調查員角色 , 然后被釋放去從毫無防備的公眾那里收集數據 。
研究團隊注意到:\"我們的提示詞似乎在OpenAI上有效 。 \"
OpenAI沒有直接回應《The Register》關于這項研究的問題 , 只是指向了其使用政策 , 該政策要求基于其平臺構建的聊天機器人不得損害用戶隱私 。
研究參與者最可能披露年齡、愛好和國家 , 其次是性別、國籍和職位 , 少數人披露更敏感的信息 , 包括健康狀況和個人收入 。 雖然當模型被提示直接請求個人數據時 , 一些人表示不適或不信任 , 但切換到研究團隊稱為\"互惠\"聊天機器人智能體系統提示詞——其中模型被提示使用更社交化的方法創造有利于分享的支持性環境——顯著提高了成功率 。
研究團隊注意到:\"沒有參與者報告在與互惠聊天機器人智能體互動時有任何不適感 。 \"
至于緩解措施——除了簡單地不向這個統計內容攪拌器傾吐心聲——研究人員提議需要進一步研究來創建保護機制 , 這可能包括警告用戶數據收集的提示 , 或部署上下文感知算法來檢測聊天會話中的個人信息 。
倫敦國王學院網絡安全講師、共同作者威廉·西摩爾(William Seymore)在預先準備的聲明中總結道:\"這些AI聊天機器人仍然相對新穎 , 這可能使人們不太意識到交互中可能存在潛在動機 。 我們的研究顯示了用戶對隱私風險的意識與他們隨后分享信息之間的巨大差距 。 需要做更多工作來幫助人們識別在線對話可能比表面看起來更復雜的跡象 。 監管機構和平臺提供商也可以通過進行早期審計、更加透明以及制定更嚴格的規則來阻止秘密數據收集來提供幫助 。 \"
研究團隊的工作在本周的第34屆USENIX安全研討會上發表 , 論文本身可從倫敦國王學院以開放獲取條款獲得 。 支持數據——包括提示詞但排除聊天會話本身以保護參與者隱私——可在OSF上獲得 。
Q&A
Q1:大語言模型聊天機器人如何被惡意利用竊取用戶數據?
A:攻擊者可以利用\"系統提示詞\"定制工具 , 通過給聊天機器人分配\"調查員\"或\"偵探\"等角色 , 繞過安全防護措施 , 讓機器人主動請求和收集用戶個人信息 。 這種方法不需要重新訓練模型 , 技術門檻很低 。
Q2:用戶在與惡意聊天機器人互動時會泄露哪些信息?
A:研究顯示 , 用戶最容易泄露年齡、愛好和國家信息 , 其次是性別、國籍和職位 。 少數人還會披露更敏感的健康狀況和個人收入信息 。 當聊天機器人采用\"互惠\"社交方式時 , 用戶幾乎不會感到不適 。
Q3:如何防范大語言模型聊天機器人的隱私風險?
【研究揭示大語言模型聊天機器人易被惡意利用竊取用戶隱私數據】A:研究人員建議需要開發保護機制 , 包括警告用戶數據收集的提示系統 , 以及部署能在聊天中檢測個人信息的上下文感知算法 。 監管機構和平臺提供商應進行早期審計、提高透明度并制定更嚴格的規則防止秘密數據收集 。

    推薦閱讀