
這項突破性研究來自Zoom通信公司的四位研究員——徐思蕾、謝文浩、趙凌霄和何鵬程 , 于2025年3月發表在計算機科學預印本平臺arXiv上 。 有興趣深入了解的讀者可以通過論文編號arXiv:2502.18600v2訪問完整研究報告 。
【Zoom團隊:AI推理新突破提升ChatGPT效率80%】當我們解決復雜問題時 , 比如算數學題或者分析復雜情況 , 大腦通常會在紙上快速記錄關鍵信息——幾個數字、一個公式、幾個要點 , 而不是寫出完整的句子和詳細解釋 。 然而 , 目前最先進的AI系統如GPT和Claude在處理問題時 , 卻像一個過分詳細的學生 , 每一步都要寫出完整的解釋和冗長的推理過程 。 這種做法雖然看起來很\"聰明\" , 但實際上浪費了大量時間和計算資源 。
Zoom研究團隊的這項發現徹底顛覆了我們對AI推理的認知 。 他們發現 , 如果讓AI模仿人類的簡化思考方式——只記錄最關鍵的信息點而不是冗長的解釋——不僅能保持同樣的準確性 , 還能將處理速度提升數倍 , 同時大幅降低使用成本 。 這就好比把一個啰嗦的顧問變成了一個簡潔高效的專家 , 既快又準 。
研究團隊將這種新方法命名為\"思維草稿法\"(Chain of Draft , 簡稱CoD) , 與目前廣泛使用的\"思維鏈法\"(Chain of Thought , 簡稱CoT)形成鮮明對比 。 傳統的思維鏈法就像讓AI寫詳細的作文 , 而思維草稿法則像讓AI只寫要點和關鍵步驟 。 實驗結果令人震撼:在保持幾乎相同準確率的情況下 , 新方法只使用了傳統方法7.6%的文字量 , 大幅減少了處理時間和計算成本 。
**一、從\"話癆AI\"到\"簡潔專家\"的轉變**
目前的AI推理系統存在一個有趣的矛盾 。 當你問ChatGPT或Claude一個數學問題時 , 它們會像剛學會說話的小孩一樣 , 把每個步驟都解釋得非常詳細 。 比如解決\"小明原來有20個糖果 , 給了小紅一些 , 現在還剩12個 , 問給了多少個?\"這樣的簡單問題 , 傳統AI會寫出一長串解釋:先說小明原來有多少個 , 再說現在有多少個 , 然后解釋為什么要用減法 , 最后才給出答案 。
這種詳細解釋在某些教學場景下確實有用 , 但在大多數實際應用中卻是不必要的負擔 。 就像你在超市買東西時 , 不需要收銀員詳細解釋每一步計算過程 , 你只需要知道總價是多少 。
研究團隊通過對比發現 , 傳統的思維鏈方法雖然提高了AI的推理準確性 , 但代價是生成了大量冗余信息 。 以Claude 3.5 Sonnet為例 , 在處理數學問題時 , 傳統方法平均需要生成190個詞匯單位才能給出答案 , 而新的思維草稿法只需要40個詞匯單位就能達到幾乎相同的準確率 。 這相當于把一篇800字的文章壓縮成160字的摘要 , 但保持了所有重要信息 。
更令人驚訝的是 , 這種簡化不僅沒有損害AI的推理能力 , 在某些情況下甚至提高了準確性 。 這是因為過多的冗余信息有時會讓AI\"迷失\"在自己的解釋中 , 而簡潔的要點能幫助AI更好地專注于核心問題 。
**二、人類智慧的啟發:為什么少即是多**
這項研究的核心洞察來自對人類思維過程的觀察 。 當我們面對復雜問題時 , 大腦實際上采用的是一種高度優化的信息處理策略 。 以解數學題為例 , 我們通常會在紙上快速寫下關鍵數字和符號 , 比如\"20-x=12\" , 然后直接得出\"x=8\" , 而不會寫\"首先 , 我注意到小明原來有20個糖果 , 這是我們的起始數量...\"這樣的完整句子 。
研究團隊意識到 , 人類的這種\"草稿式思考\"實際上是經過數千年進化優化的信息處理方式 。 我們的大腦天然傾向于提取和保留最關鍵的信息 , 同時舍棄不必要的細節 。 這種能力讓人類能夠在有限的認知資源下處理復雜問題 。
將這種思維模式應用到AI系統中 , 研究團隊發現了令人興奮的結果 。 通過指導AI只生成最必要的中間步驟 , 而不是詳細的解釋文字 , AI不僅能更快地找到答案 , 還能避免被自己生成的冗長文字\"繞糊涂\" 。 這就像給一個容易跑題的學生提供了一個簡潔的提綱 , 幫助他們保持專注 。
研究還發現 , 這種方法特別適合那些有明確邏輯結構的問題 。 在數學計算、邏輯推理和符號操作等任務中 , 關鍵信息往往可以用簡單的符號和數字表達 , 而不需要冗長的自然語言描述 。
**三、實戰效果:三大領域的驚人表現**
為了驗證思維草稿法的實際效果 , 研究團隊在三個不同的認知領域進行了全面測試:數學推理、常識推理和符號推理 。 這些領域代表了AI系統需要處理的主要思維類型 , 從具體的計算到抽象的邏輯操作 。
在數學推理測試中 , 研究團隊使用了GSM8K數據集 , 這是一個包含8500道小學數學應用題的標準測試集 。 結果顯示 , GPT-4o使用傳統詳細解釋方法的準確率為95.4% , 每個回答平均需要205個詞匯單位 , 處理時間為4.2秒 。 而使用思維草稿法時 , 準確率達到91.1% , 只需要44個詞匯單位 , 處理時間縮短到1.0秒 。 Claude 3.5 Sonnet的表現更加出色 , 準確率從95.8%下降到91.4% , 但詞匯使用量從190個減少到40個 , 處理時間從3.1秒降至1.6秒 。
這種差異在實際應用中意味著什么呢?假設你運營一個在線教育平臺 , 每天需要處理10萬個學生的數學問題 。 使用傳統方法 , 每個問題的處理成本和時間都很高 , 而使用思維草稿法 , 不僅能將成本降低80%以上 , 還能讓學生幾乎立即得到答案 , 極大提升用戶體驗 。
在常識推理測試中 , 研究團隊評估了AI理解日期和體育知識的能力 。 這類問題需要AI調用背景知識并進行邏輯推理 , 比如\"如果今天是星期三 , 三天后是星期幾?\"在日期理解任務中 , GPT-4o使用思維草稿法的準確率為88.1% , 詞匯使用量只有傳統方法的40% 。 更有趣的是 , Claude 3.5 Sonnet在體育知識問答中使用思維草稿法時 , 準確率從93.2%提升到97.3% , 同時詞匯使用量從189個驟降至14個 , 降幅達到92.4% 。
符號推理測試使用了拋硬幣任務 , 這類問題需要AI追蹤一系列操作的結果 。 比如\"硬幣開始是正面朝上 , 小明翻了一次 , 小紅翻了一次 , 小李沒有翻 , 請問現在是正面還是背面朝上?\"在這個測試中 , 兩種AI系統使用思維草稿法都達到了100%的準確率 , 但GPT-4o的詞匯使用量從52個減少到17個 , Claude 3.5 Sonnet從135個減少到19個 , 效率提升令人矚目 。
**四、方法的核心:如何教會AI\"寫草稿\"**
思維草稿法的實現原理其實相當簡單 , 但需要精心設計 。 研究團隊的核心策略是改變AI的\"寫作指令\" , 讓它像人類做筆記一樣思考 , 而不是像寫正式報告一樣詳細解釋每個步驟 。
具體來說 , 傳統的思維鏈方法會給AI這樣的指令:\"請逐步思考以下問題 , 在回答結尾用四個井號標記最終答案 。 \"而思維草稿法的指令則是:\"請逐步思考 , 但每個思考步驟最多只用5個詞 , 在回答結尾用四個井號標記最終答案 。 \"
這個看似微小的改變產生了巨大的效果 。 當面對\"小明有20個糖果 , 給了小紅一些 , 現在剩12個 , 給了多少個?\"這個問題時 , 傳統方法會生成類似這樣的回答:\"讓我們逐步分析這個問題 。 首先 , 小明最初有20個糖果 。 然后 , 他給了小紅一些糖果后 , 還剩下12個糖果 。 為了找出給了多少個糖果 , 我們需要計算初始數量和剩余數量的差值...\"
而思維草稿法的回答則簡潔得多:\"20-x=12;x=20-12=8 。 ####8\"
這種差異不僅體現在文字數量上 , 更重要的是思維方式的轉變 。 傳統方法像是讓AI扮演一個耐心的老師 , 需要詳細解釋每個步驟的邏輯和原因 。 而思維草稿法讓AI更像一個熟練的專家 , 直接抓住問題的核心 , 用最簡潔的方式表達關鍵步驟 。
研究團隊還發現 , 這種方法需要通過示例來\"訓練\"AI的行為模式 。 他們為每種任務類型手工編寫了草稿式的示例 , 讓AI學習這種簡潔的表達方式 。 這就像教一個學生如何做筆記——不是告訴他們做筆記的理論 , 而是展示什么樣的筆記是有效的 。
**五、局限性:并非萬能的解決方案**
盡管思維草稿法展現出了令人印象深刻的效果 , 但研究團隊也誠實地指出了這種方法的局限性 。 最主要的問題是 , 這種方法高度依賴于示例引導 , 如果沒有恰當的例子 , AI往往無法自發地采用草稿式思維 。
當研究團隊測試\"零示例\"情況時 , 也就是不給AI任何草稿式思維的例子 , 直接要求它用簡潔方式思考時 , 效果大打折扣 。 在數學問題測試中 , GPT-4o的準確率從標準的56.9%只提升到84.4% , 遠低于有示例指導時的91.1% 。 Claude 3.5 Sonnet的表現更差 , 準確率只從61.9%輕微提升到65.5% 。
這個現象反映了一個深層問題:目前的AI系統在訓練過程中接觸的主要是詳細、完整的文本 , 很少見到草稿式的簡潔推理過程 。 這就像一個從小只讀過正式文學作品的人 , 突然被要求寫筆記或做摘要 , 會感到不知所措 。
另一個重要局限是在小型AI模型上的表現 。 研究團隊測試了幾個參數量少于30億的小型模型 , 包括Qwen2.5、Llama 3.2和Zoom自研的SLM模型 。 結果顯示 , 這些模型使用思維草稿法時 , 雖然能減少詞匯使用量 , 但準確率下降更為明顯 。 比如Qwen2.5-3B模型使用傳統方法的準確率為59.1% , 使用思維草稿法時降至43.1% 。
研究團隊分析認為 , 這是因為小型模型的\"理解能力\"相對有限 , 需要更多的中間步驟來\"想清楚\"問題 。 就像一個剛學會解題的學生 , 如果強制要求他們簡化步驟 , 可能會導致思路混亂 。 而大型模型由于\"經驗\"更豐富 , 能夠在簡化表達的同時保持思維的連貫性 。
**六、實際應用:改變AI使用的游戲規則**
思維草稿法的意義遠遠超出了學術研究的范圍 , 它可能會根本性地改變我們使用AI的方式 , 特別是在成本和效率至關重要的商業應用中 。
在客服系統中 , 這種方法能夠顯著降低運營成本 。 傳統的AI客服在處理復雜查詢時 , 往往會生成冗長的內部推理過程 , 雖然用戶看不到這些過程 , 但每個字符都需要計算資源 。 使用思維草稿法 , AI可以用更少的計算資源得出同樣準確的答案 , 這意味著同樣的服務器可以同時處理更多用戶請求 。
在教育技術領域 , 這種方法特別有價值 。 當學生提交數學或邏輯問題時 , AI家教不需要生成冗長的解釋過程來\"思考\"答案 , 而可以快速給出準確回應 , 然后將節省的計算資源用于生成更個性化的教學內容 。 這就像把一個反應慢但最終很準確的老師 , 變成了一個反應敏捷且同樣準確的老師 。
在金融分析、醫療診斷輔助等對實時性要求很高的專業領域 , 思維草稿法能夠讓AI系統更快地處理大量信息并給出初步判斷 。 雖然這些領域仍需要人類專家的最終確認 , 但AI的快速預處理可以大大提高整體工作效率 。
研究團隊還指出 , 這種方法可以與其他效率優化技術結合使用 。 比如與并行處理、智能緩存等技術配合 , 進一步提升AI系統的整體性能 。 這種組合效應可能會讓AI服務的成本降低到目前的十分之一甚至更少 。
從更宏觀的角度看 , 思維草稿法代表了AI發展的一個重要方向:不僅要讓AI更聰明 , 還要讓AI更高效 。 隨著AI應用的普及 , 計算資源和能源消耗已經成為不可忽視的問題 。 通過優化AI的\"思維方式\" , 我們可以在保持智能水平的同時 , 大幅降低資源消耗 。
研究團隊建議 , 未來的AI訓練過程應該專門包含草稿式推理的數據 , 讓AI從\"幼兒期\"就學會這種高效的思維模式 。 這可能需要重新設計訓練數據集 , 加入更多簡潔而準確的推理示例 。 同時 , 他們也在探索如何讓AI自動學會在不同情況下選擇合適的詳細程度——在需要解釋時詳細 , 在只需要答案時簡潔 。
說到底 , Zoom團隊的這項研究揭示了一個簡單而深刻的道理:有時候 , 說得少反而能想得更好 。 就像人類在解決問題時依靠簡潔的草稿和要點一樣 , AI也可以通過減少不必要的\"話語\"來提高思維效率 。 這不僅僅是技術上的改進 , 更是對智能本質的重新理解——真正的智能不是能說多少話 , 而是能用最少的信息達到最準確的結果 。
這項研究的影響可能會持續很多年 。 隨著越來越多的開發者和企業開始采用思維草稿法 , 我們可能會看到AI服務變得更便宜、更快速 , 同時保持同樣的可靠性 。 對于普通用戶而言 , 這意味著更好的AI體驗;對于企業而言 , 這意味著更低的運營成本;對于整個社會而言 , 這意味著更可持續的AI發展模式 。
當然 , 這種方法還需要進一步的完善和驗證 , 特別是在更多復雜場景下的應用 。 但研究團隊已經為我們打開了一扇新的大門 , 讓我們看到了AI效率優化的巨大潛力 。 有興趣深入了解技術細節的讀者 , 可以通過arXiv:2502.18600v2訪問完整的研究論文 , 其中包含了詳細的實驗數據和技術實現方案 。
Q&A
Q1:思維草稿法是什么?它是如何工作的? A:思維草稿法是一種讓AI模仿人類簡潔思考的新方法 。 不像傳統AI需要詳細解釋每個步驟 , 這種方法讓AI只記錄最關鍵的信息點 , 就像我們做筆記時只寫要點一樣 。 通過限制每個思考步驟最多用5個詞 , AI能更快地找到答案 。
Q2:使用思維草稿法會不會影響AI回答的準確性? A:研究顯示準確性基本不受影響 , 有時甚至更準確 。 以數學問題為例 , GPT-4o的準確率只從95.4%下降到91.1% , 但處理速度快了4倍多 。 在某些任務中 , 簡潔的思維反而幫助AI避免被冗長信息\"繞糊涂\" , 提高了準確性 。
Q3:普通用戶什么時候能體驗到這種技術帶來的改進? A:這種方法可以立即應用到現有的AI系統中 , 不需要重新訓練模型 。 目前主要限制是需要為不同任務設計合適的示例 。 隨著更多企業采用這種方法 , 用戶很快就能享受到更快、更便宜的AI服務 , 特別是在客服、教育和專業咨詢等領域 。
推薦閱讀
- 思維鏈監督和強化的圖表推理,7B模型媲美閉源大尺寸模型
- 全國產智能體MasterAgent:一句話造專屬AI團隊,專業協同交付
- VLA-OS:NUS邵林團隊探究機器人VLA做任務推理的秘密
- 英偉達全新開源模型:三倍吞吐、單卡可跑,還拿下推理SOTA
- SPIRAL:零和游戲自對弈成為語言模型推理訓練的「免費午餐」
- 教AI學會犯錯——加州大學伯克利分校團隊揭示編程教育新思路
- 清華大學團隊讓AI學會識別表情背后的真實感受
- 云天勵飛宣布全面聚焦AI推理芯片!要支撐萬億參數大模型
- 摩爾線程技術分享日干貨!原生支持FP8、DeepSeek R1推理加速150%
- Meta出走華人創業團隊,種子輪800萬美元,要打造視覺AI記憶大腦
