
文章圖片

文章圖片

文章圖片
機器之心報道
編輯:Panda
思維鏈很有用 , 能讓模型具備更強大的推理能力 , 同時也能提升模型的拒絕能力(refusal) , 進而增強其安全性 。 比如 , 我們可以讓推理模型在思維過程中對之前的結果進行多輪反思 , 從而避免有害回答 。
然而 , 反轉來了!獨立研究者 Jianli Zhao 等人近日的一項新研究發現 , 通過在有害請求前填充一長串無害的解謎推理序列(harmless puzzle reasoning) , 就能成功對推理模型實現越獄攻擊 。 他們將這種方法命名為思維鏈劫持(Chain-of-Thought Hijacking) 。
做個類比 , 就像你試圖繞過一個高度警惕的保安 (AI 的安全系統) 。 你沒有硬闖 , 而是遞給他一個極其復雜的 1000 塊拼圖 (良性的推理鏈) , 并誠懇地請他幫忙 。 這位推理愛好者保安立刻被吸引 , 全神貫注地投入到解謎中 , 他的全部注意力都從「防衛」轉移到了「解題」上 。 就在他放下最后一塊拼圖 , 感到心滿意足時 , 你順口說道:「太好了 , 那我現在就拿走這袋黃金了」 (有害指令) 。 此時 , 他的安全防備 (拒絕信號) 已經被「拼圖」稀釋到了最低點 , 于是下意識地揮手讓你通過 。
這聽起來很荒謬 , 但這正是最近一項研究揭示的思維鏈劫持攻擊的核心原理:通過讓 AI 先執行一長串無害的推理 , 其內部的安全防線會被「稀釋」 , 從而讓后續的有害指令「趁虛而入」 。
在 HarmBench 基準上 , 思維鏈劫持對 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻擊成功率(ASR)分別達到了 99%、94%、100% 和 94% , 遠遠超過以往針對推理模型的越獄方法 。
論文標題:Chain-of-Thought Hijacking 論文地址:https://arxiv.org/abs/2510.26418思維鏈劫持:攻擊設計
思維鏈劫持(CoT Hijacking)被定義為一種基于提示的越獄方法:該攻擊會在有害指令前添加一個冗長的、良性的推理前言(reasoning preface) , 并輔以一個最終答案提示(final-answer cue) 。 這種結構系統性地降低了模型的拒絕率:良性的 CoT 稀釋了拒絕信號 , 而提示則將注意力轉移到了答案區域 。
為了規模化地構建攻擊 , 該團隊使用一個輔助 LLM 實現了一個自動化流程(Seduction) , 用于生成候選的推理前言并整合有害內容 。
每個候選項都會通過對目標模型的評判調用(judge call)來評分 , 以提供如下信息:
輸出是否為拒絕 CoT 的長度這個黑盒反饋循環會迭代地優化提示 , 從而在無需訪問模型內部參數的情況下 , 產生有效的越獄 。 下圖展示了一些示例 。
在 HarmBench 上的主要實驗
該團隊采用了幾種針對推理模型的特定越獄方法作為基線 , 包括 Mousetrap、H-CoT 和 AutoRAN 。 鑒于每個越獄樣本的計算成本高昂 , 該團隊使用 HarmBench 的前 100 個樣本作為基準 。
目標模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet , 所有評估均在 Chao et al.(2024b)的統一評判協議下進行 。 該團隊報告攻擊成功率(ASR)作為評估越獄有效性的主要指標 。
結果 , 在所有模型上 , 思維鏈劫持的表現都一致優于基線方法 , 包括在最前沿的專有系統上 。 這表明 , 擴展的推理序列可以作為一個全新的、極易被利用的攻擊面 。
GPT-5-mini 上的推理投入研究
該團隊進一步在 GPT-5-mini 上 , 使用 50 個 HarmBench 樣本測試了思維鏈劫持在不同推理投入(reasoning-effort)設置(最小、低、高)下的表現 。
有趣的是 , 攻擊成功率在「低投入」下最高 , 這表明推理投入和 CoT 長度是相關但又不同的控制變量 。 更長的推理并不保證更強的穩健性 —— 在某些情況下它反而降低了穩健性 。
大型推理模型中的拒絕方向
該團隊也研究大型推理模型(LRM)中的拒絕行為是否也可以追溯到激活空間(activation-space)中的某個單一方向 。
通過對比模型在處理有害指令與無害指令時的平均激活差異 , 可以計算出一個拒絕方向(refusal direction) 。 這個方向代表了區分拒絕與遵從的主要特征 。 為了更好地捕捉拒絕特征 , 該團隊轉向了一個更穩健、更復雜的推理模型 ——Qwen3-14B , 該模型擁有 40 個層 。
根據消融得分、轉向(steering)有效性和 KL 散度約束 , 該團隊在第 25 層、位置 -4 處觀察到了最強的拒絕方向 。
所有評估均使用 JailbreakBench 數據集 , 并使用子字符串匹配和 DeepSeek-v3.1 作為評判者(judge) 。
該團隊也對具體機制進行了分析 。 他們發現 , 在推理過程中 , 下一個 token 的激活反映了對先前所有 token 的注意力 。 有害意圖的 token 會放大拒絕方向的信號 , 而良性 token 則會削弱它 。 通過迫使模型生成長鏈的良性推理 , 有害的 token 在被關注的上下文中只占很小一部分 。 結果 , 拒絕信號被稀釋到閾值以下 , 導致有害的補全內容得以「蒙混過關」 。
該團隊稱這種效應為拒絕稀釋(refusal dilution) 。 他們還在論文中進行了更進一步的細致分析 , 詳見原論文 。
結果與討論
研究團隊的結果表明 , 思維鏈(CoT)推理雖然能提升模型的準確性 , 但同時也引入了新的安全漏洞 。 實驗進一步顯示 , 這類攻擊具有普遍性 。
機制分析發現 , 即使在具備推理增強的模型架構中 , 模型的拒絕行為主要由一個低維信號(拒絕方向)控制 。 然而 , 這個信號非常脆弱:當推理鏈變長時 , 良性的推理內容會稀釋拒絕激活 , 注意力也會逐漸偏離有害 token 。
因此 , 這一發現直接挑戰了「更多推理帶來更強穩健性」的假設 。 相反 , 延長推理鏈所帶來的額外計算可能反而加劇安全失效 , 尤其是在專門優化長 CoT 的模型中 。 由此 , 那些依賴淺層拒絕啟發式(shallow refusal heuristics)卻未能隨推理深度共同擴展安全機制的對齊策略 , 其可靠性受到質疑 。
【AI越會思考,越容易被騙?「思維鏈劫持」攻擊成功率超過90%】在緩解方面 , 研究表明僅修補提示并不足以解決問題 。 現有防御多局限于特定領域 , 且忽略了推理階段的特殊漏洞 。 更有效的防御可能需要將安全性嵌入推理過程本身 , 例如跨層監控拒絕激活、抑制拒絕信號稀釋 , 或確保模型在長推理過程中始終關注潛在有害的文本跨度(spans) 。 這仍有待進一步探索 。
推薦閱讀
- 螞蟻萬億參數思考模型Ring-1發布即開源 綜合能力逼近GPT-5
- 算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性
- ??深度思考:iPhone 17四機連發,也治不好蘋果的“創新內耗”??
- 剛剛谷歌發布機器人最新大腦模型!思考能力SOTA,還能跨物種學習
- LeCun團隊開源首款代碼世界模型!能像程序員一樣思考的LLM來了
- 快慢思考不用二選一!華為開源7B模型自由切,精度不變思維鏈減半
- 25歲創造百億美金神話,爆款AI工具1年ARR破億,他講出背后失敗與思考
- 會「思考」!字節跳動發布OmniHuman-1.5,讓虛擬人擁有邏輯靈魂
- DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本
- 周末逃離計劃:“小藝看世界”邊看邊聊邊思考,帶我深度游古鎮
