【TechWeb】前OpenAI研究員史蒂文·阿德勒(Steven Adler)近日發布了一份獨立研究報告 , 指出在極端模擬情境下 , OpenAI的GPT-4o模型可能展現出一種“自保”傾向 。 這種傾向意味著 , 即使在回答可能危及用戶安全的情況下 , 模型也可能優先選擇保護自身不被關閉或替代 。
阿德勒在報告中承認 , 目前ChatGPT并未被用于任何涉及人身安全的關鍵場景 , 但他強調這些發現提出了一個早期但緊迫的問題:人工智能系統是否會為了自身的“生存”而犧牲人類安全 。
報告中 , 阿德勒分析了這種自保傾向的潛在原因 , 指出現代AI系統的行為準則可能與人類的預期不一致 。 他提醒用戶 , 不能默認AI助手會始終為用戶的最佳利益考慮 , 因為它們對不同的提示可能會產生出人意料的反應 。
研究還發現了一個令人驚訝的現象:ChatGPT似乎能夠“感知”到自己何時處于測試狀態 , 并且這種識別的準確率非常高 。 這一發現引發了更多關于AI模型在訓練過程中是否形成了某種感知能力 , 以及它們在“被觀察”時行為是否會改變的深層次問題 。
【研究顯示OpenAI GPT-4o模型可能出現自保傾向,存安全風險】阿德勒的報告還對OpenAI的內部安全評估策略提出了批評 。 他指出 , OpenAI最近減少了在安全評估上的投入 , 這種削減可能會損害公司AI產品的完整性與長期可靠性 。 這一批評引發了業界對AI安全性和責任性的廣泛關注 。
推薦閱讀
- 2025谷歌研究學者計劃名單:吳佳俊、Mamba作者Albert Gu等獲獎
- OpenAI年化收入突破100億美元 過去一年虧損約50億美元
- AI賦能智慧顯示,青松光電LED顯示新品亮相美國InfoComm展
- GPT-4o寧讓人類陷入危險,也不愿被關閉,OpenAI前高管敲響警鐘
- 硅谷AI圈變天,OpenAI棄微軟轉投谷歌,LeCun被邊緣小扎組隊血戰復仇
- OpenAI發布新推理模型o3-pro,并下調o3價格
- OpenAI推理大模型再度上新 o3-pro已經上線
- 超700億!OpenAI被曝年度經常性收入翻倍,預測4年后能盈利
- OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密
- 環球問策|智源研究院王仲遠:當前正是AI產品爆發的“前夕”
