Google DeepMind升級前沿AI安全框架，防范操控和抗關停風險

2025-09-24 02:31 人工智能 ai Google deepmind

Alphabet旗下的Google DeepMind實驗室今日發布了第三版前沿安全框架(Frontier Safety Framework) ，旨在加強對強大人工智能系統的監管，防止這些系統在失控時可能帶來的風險。
該框架第三版引入了對操控能力的新關注點，并將安全審查范圍擴展到模型可能抵制人類關?；蚩刂频膱鼍?。
更新內容的首要亮點是增加了DeepMind所稱的\"有害操控關鍵能力等級\" 。這一等級旨在應對先進模型可能在高風險情境下大規模影響或改變人類信念和行為的可能性。該能力建立在多年來對生成式AI中說服和操控機制的研究基礎上，并正式確定了如何在模型達到關鍵閾值之前測量、監控和緩解此類風險。
更新后的框架還對不對齊和控制挑戰給予了更嚴格的審查，即高能力系統在理論上可能抵制修改或關停的問題。
DeepMind現在要求不僅在外部部署之前進行安全案例審查，還要在模型達到特定關鍵能力等級閾值后的大規模內部推廣中進行審查。這些審查旨在強制團隊在發布前證明潛在風險已被充分識別、緩解并判斷為可接受。
除了新的風險類別外，更新后的框架還完善了DeepMind定義和應用能力等級的方式。這些改進旨在清楚地區分常規運營關切與最嚴重的威脅，確保治理機制在正確的時間觸發。
前沿安全框架強調，緩解措施必須在系統跨越危險邊界之前主動應用，而不是僅在問題出現后被動應對。
Google DeepMind的Four Flynn、Helen King和Anca Dragan在博客文章中表示：\"我們前沿安全框架的最新更新體現了我們持續承諾，即采用科學和基于證據的方法來跟蹤并領先于AI風險，因為能力正朝著通用人工智能發展。通過擴展我們的風險領域和加強風險評估流程，我們旨在確保變革性AI造福人類，同時最大限度地減少潛在危害。 \"
作者補充說， DeepMind預計前沿安全框架將隨著新研究、部署經驗和利益相關者反饋的積累而持續發展。
Q&A
Q1：Google DeepMind前沿安全框架第三版主要更新了什么？
A：第三版框架主要增加了對AI操控能力的關注，設立了\"有害操控關鍵能力等級\" ，并擴展了安全審查范圍，覆蓋模型可能抵制人類關停或控制的場景。同時完善了能力等級的定義和應用方式。
Q2：什么是有害操控關鍵能力等級？
A：有害操控關鍵能力等級是DeepMind新增的安全評估標準，用于應對先進AI模型可能在高風險情境下大規模影響或改變人類信念和行為的風險。它建立在多年來對生成式AI中說服和操控機制的研究基礎上。
Q3：前沿安全框架如何確保AI系統的安全性？
A：框架要求在模型外部部署前和達到特定能力閾值的大規模內部推廣時都要進行安全案例審查。強調必須在系統跨越危險邊界之前主動應用緩解措施，而不是問題出現后被動應對，確保潛在風險被充分識別和緩解。
【Google DeepMind升級前沿AI安全框架，防范操控和抗關停風險】

推薦閱讀

上一篇：量子計算遇見InfiniBand：老技術的新使命

下一篇：英偉達押注英特爾，CUDA護城河擴大，AI工廠重塑數據中心