Zoom團隊：AI推理新突破提升ChatGPT效率80%_數學|chatgpt|人工智能

這項突破性研究來自Zoom通信公司的四位研究員——徐思蕾、謝文浩、趙凌霄和何鵬程，于2025年3月發表在計算機科學預印本平臺arXiv上。有興趣深入了解的讀者可以通過論文編號arXiv:2502.18600v2訪問完整研究報告。
【Zoom團隊：AI推理新突破提升ChatGPT效率80%】當我們解決復雜問題時，比如算數學題或者分析復雜情況，大腦通常會在紙上快速記錄關鍵信息——幾個數字、一個公式、幾個要點，而不是寫出完整的句子和詳細解釋。然而，目前最先進的AI系統如GPT和Claude在處理問題時，卻像一個過分詳細的學生，每一步都要寫出完整的解釋和冗長的推理過程。這種做法雖然看起來很\"聰明\" ，但實際上浪費了大量時間和計算資源。
Zoom研究團隊的這項發現徹底顛覆了我們對AI推理的認知。他們發現，如果讓AI模仿人類的簡化思考方式——只記錄最關鍵的信息點而不是冗長的解釋——不僅能保持同樣的準確性，還能將處理速度提升數倍，同時大幅降低使用成本。這就好比把一個啰嗦的顧問變成了一個簡潔高效的專家，既快又準。
研究團隊將這種新方法命名為\"思維草稿法\"（Chain of Draft ，簡稱CoD），與目前廣泛使用的\"思維鏈法\"（Chain of Thought ，簡稱CoT）形成鮮明對比。傳統的思維鏈法就像讓AI寫詳細的作文，而思維草稿法則像讓AI只寫要點和關鍵步驟。實驗結果令人震撼：在保持幾乎相同準確率的情況下，新方法只使用了傳統方法7.6%的文字量，大幅減少了處理時間和計算成本。
**一、從\"話癆AI\"到\"簡潔專家\"的轉變**
目前的AI推理系統存在一個有趣的矛盾。當你問ChatGPT或Claude一個數學問題時，它們會像剛學會說話的小孩一樣，把每個步驟都解釋得非常詳細。比如解決\"小明原來有20個糖果，給了小紅一些，現在還剩12個，問給了多少個？\"這樣的簡單問題，傳統AI會寫出一長串解釋：先說小明原來有多少個，再說現在有多少個，然后解釋為什么要用減法，最后才給出答案。
這種詳細解釋在某些教學場景下確實有用，但在大多數實際應用中卻是不必要的負擔。就像你在超市買東西時，不需要收銀員詳細解釋每一步計算過程，你只需要知道總價是多少。
研究團隊通過對比發現，傳統的思維鏈方法雖然提高了AI的推理準確性，但代價是生成了大量冗余信息。以Claude 3.5 Sonnet為例，在處理數學問題時，傳統方法平均需要生成190個詞匯單位才能給出答案，而新的思維草稿法只需要40個詞匯單位就能達到幾乎相同的準確率。這相當于把一篇800字的文章壓縮成160字的摘要，但保持了所有重要信息。
更令人驚訝的是，這種簡化不僅沒有損害AI的推理能力，在某些情況下甚至提高了準確性。這是因為過多的冗余信息有時會讓AI\"迷失\"在自己的解釋中，而簡潔的要點能幫助AI更好地專注于核心問題。
**二、人類智慧的啟發：為什么少即是多**
這項研究的核心洞察來自對人類思維過程的觀察。當我們面對復雜問題時，大腦實際上采用的是一種高度優化的信息處理策略。以解數學題為例，我們通常會在紙上快速寫下關鍵數字和符號，比如\"20-x=12\" ，然后直接得出\"x=8\" ，而不會寫\"首先，我注意到小明原來有20個糖果，這是我們的起始數量...\"這樣的完整句子。
研究團隊意識到，人類的這種\"草稿式思考\"實際上是經過數千年進化優化的信息處理方式。我們的大腦天然傾向于提取和保留最關鍵的信息，同時舍棄不必要的細節。這種能力讓人類能夠在有限的認知資源下處理復雜問題。
將這種思維模式應用到AI系統中，研究團隊發現了令人興奮的結果。通過指導AI只生成最必要的中間步驟，而不是詳細的解釋文字， AI不僅能更快地找到答案，還能避免被自己生成的冗長文字\"繞糊涂\" 。這就像給一個容易跑題的學生提供了一個簡潔的提綱，幫助他們保持專注。
研究還發現，這種方法特別適合那些有明確邏輯結構的問題。在數學計算、邏輯推理和符號操作等任務中，關鍵信息往往可以用簡單的符號和數字表達，而不需要冗長的自然語言描述。
**三、實戰效果：三大領域的驚人表現**
為了驗證思維草稿法的實際效果，研究團隊在三個不同的認知領域進行了全面測試：數學推理、常識推理和符號推理。這些領域代表了AI系統需要處理的主要思維類型，從具體的計算到抽象的邏輯操作。
在數學推理測試中，研究團隊使用了GSM8K數據集，這是一個包含8500道小學數學應用題的標準測試集。結果顯示， GPT-4o使用傳統詳細解釋方法的準確率為95.4% ，每個回答平均需要205個詞匯單位，處理時間為4.2秒。而使用思維草稿法時，準確率達到91.1% ，只需要44個詞匯單位，處理時間縮短到1.0秒。 Claude 3.5 Sonnet的表現更加出色，準確率從95.8%下降到91.4% ，但詞匯使用量從190個減少到40個，處理時間從3.1秒降至1.6秒。
這種差異在實際應用中意味著什么呢？假設你運營一個在線教育平臺，每天需要處理10萬個學生的數學問題。使用傳統方法，每個問題的處理成本和時間都很高，而使用思維草稿法，不僅能將成本降低80%以上，還能讓學生幾乎立即得到答案，極大提升用戶體驗。
在常識推理測試中，研究團隊評估了AI理解日期和體育知識的能力。這類問題需要AI調用背景知識并進行邏輯推理，比如\"如果今天是星期三，三天后是星期幾？\"在日期理解任務中， GPT-4o使用思維草稿法的準確率為88.1% ，詞匯使用量只有傳統方法的40% 。更有趣的是， Claude 3.5 Sonnet在體育知識問答中使用思維草稿法時，準確率從93.2%提升到97.3% ，同時詞匯使用量從189個驟降至14個，降幅達到92.4% 。
符號推理測試使用了拋硬幣任務，這類問題需要AI追蹤一系列操作的結果。比如\"硬幣開始是正面朝上，小明翻了一次，小紅翻了一次，小李沒有翻，請問現在是正面還是背面朝上？\"在這個測試中，兩種AI系統使用思維草稿法都達到了100%的準確率，但GPT-4o的詞匯使用量從52個減少到17個， Claude 3.5 Sonnet從135個減少到19個，效率提升令人矚目。
**四、方法的核心：如何教會AI\"寫草稿\"**
思維草稿法的實現原理其實相當簡單，但需要精心設計。研究團隊的核心策略是改變AI的\"寫作指令\" ，讓它像人類做筆記一樣思考，而不是像寫正式報告一樣詳細解釋每個步驟。
具體來說，傳統的思維鏈方法會給AI這樣的指令：\"請逐步思考以下問題，在回答結尾用四個井號標記最終答案。 \"而思維草稿法的指令則是：\"請逐步思考，但每個思考步驟最多只用5個詞，在回答結尾用四個井號標記最終答案。 \"
這個看似微小的改變產生了巨大的效果。當面對\"小明有20個糖果，給了小紅一些，現在剩12個，給了多少個？\"這個問題時，傳統方法會生成類似這樣的回答：\"讓我們逐步分析這個問題。首先，小明最初有20個糖果。然后，他給了小紅一些糖果后，還剩下12個糖果。為了找出給了多少個糖果，我們需要計算初始數量和剩余數量的差值...\"
而思維草稿法的回答則簡潔得多：\"20-x=12；x=20-12=8 。 ####8\"
這種差異不僅體現在文字數量上，更重要的是思維方式的轉變。傳統方法像是讓AI扮演一個耐心的老師，需要詳細解釋每個步驟的邏輯和原因。而思維草稿法讓AI更像一個熟練的專家，直接抓住問題的核心，用最簡潔的方式表達關鍵步驟。
研究團隊還發現，這種方法需要通過示例來\"訓練\"AI的行為模式。他們為每種任務類型手工編寫了草稿式的示例，讓AI學習這種簡潔的表達方式。這就像教一個學生如何做筆記——不是告訴他們做筆記的理論，而是展示什么樣的筆記是有效的。
**五、局限性：并非萬能的解決方案**
盡管思維草稿法展現出了令人印象深刻的效果，但研究團隊也誠實地指出了這種方法的局限性。最主要的問題是，這種方法高度依賴于示例引導，如果沒有恰當的例子， AI往往無法自發地采用草稿式思維。
當研究團隊測試\"零示例\"情況時，也就是不給AI任何草稿式思維的例子，直接要求它用簡潔方式思考時，效果大打折扣。在數學問題測試中， GPT-4o的準確率從標準的56.9%只提升到84.4% ，遠低于有示例指導時的91.1% 。 Claude 3.5 Sonnet的表現更差，準確率只從61.9%輕微提升到65.5% 。
這個現象反映了一個深層問題：目前的AI系統在訓練過程中接觸的主要是詳細、完整的文本，很少見到草稿式的簡潔推理過程。這就像一個從小只讀過正式文學作品的人，突然被要求寫筆記或做摘要，會感到不知所措。
另一個重要局限是在小型AI模型上的表現。研究團隊測試了幾個參數量少于30億的小型模型，包括Qwen2.5、Llama 3.2和Zoom自研的SLM模型。結果顯示，這些模型使用思維草稿法時，雖然能減少詞匯使用量，但準確率下降更為明顯。比如Qwen2.5-3B模型使用傳統方法的準確率為59.1% ，使用思維草稿法時降至43.1% 。
研究團隊分析認為，這是因為小型模型的\"理解能力\"相對有限，需要更多的中間步驟來\"想清楚\"問題。就像一個剛學會解題的學生，如果強制要求他們簡化步驟，可能會導致思路混亂。而大型模型由于\"經驗\"更豐富，能夠在簡化表達的同時保持思維的連貫性。
**六、實際應用：改變AI使用的游戲規則**
思維草稿法的意義遠遠超出了學術研究的范圍，它可能會根本性地改變我們使用AI的方式，特別是在成本和效率至關重要的商業應用中。
在客服系統中，這種方法能夠顯著降低運營成本。傳統的AI客服在處理復雜查詢時，往往會生成冗長的內部推理過程，雖然用戶看不到這些過程，但每個字符都需要計算資源。使用思維草稿法， AI可以用更少的計算資源得出同樣準確的答案，這意味著同樣的服務器可以同時處理更多用戶請求。
在教育技術領域，這種方法特別有價值。當學生提交數學或邏輯問題時， AI家教不需要生成冗長的解釋過程來\"思考\"答案，而可以快速給出準確回應，然后將節省的計算資源用于生成更個性化的教學內容。這就像把一個反應慢但最終很準確的老師，變成了一個反應敏捷且同樣準確的老師。
在金融分析、醫療診斷輔助等對實時性要求很高的專業領域，思維草稿法能夠讓AI系統更快地處理大量信息并給出初步判斷。雖然這些領域仍需要人類專家的最終確認，但AI的快速預處理可以大大提高整體工作效率。
研究團隊還指出，這種方法可以與其他效率優化技術結合使用。比如與并行處理、智能緩存等技術配合，進一步提升AI系統的整體性能。這種組合效應可能會讓AI服務的成本降低到目前的十分之一甚至更少。
從更宏觀的角度看，思維草稿法代表了AI發展的一個重要方向：不僅要讓AI更聰明，還要讓AI更高效。隨著AI應用的普及，計算資源和能源消耗已經成為不可忽視的問題。通過優化AI的\"思維方式\" ，我們可以在保持智能水平的同時，大幅降低資源消耗。
研究團隊建議，未來的AI訓練過程應該專門包含草稿式推理的數據，讓AI從\"幼兒期\"就學會這種高效的思維模式。這可能需要重新設計訓練數據集，加入更多簡潔而準確的推理示例。同時，他們也在探索如何讓AI自動學會在不同情況下選擇合適的詳細程度——在需要解釋時詳細，在只需要答案時簡潔。
說到底， Zoom團隊的這項研究揭示了一個簡單而深刻的道理：有時候，說得少反而能想得更好。就像人類在解決問題時依靠簡潔的草稿和要點一樣， AI也可以通過減少不必要的\"話語\"來提高思維效率。這不僅僅是技術上的改進，更是對智能本質的重新理解——真正的智能不是能說多少話，而是能用最少的信息達到最準確的結果。
這項研究的影響可能會持續很多年。隨著越來越多的開發者和企業開始采用思維草稿法，我們可能會看到AI服務變得更便宜、更快速，同時保持同樣的可靠性。對于普通用戶而言，這意味著更好的AI體驗；對于企業而言，這意味著更低的運營成本；對于整個社會而言，這意味著更可持續的AI發展模式。
當然，這種方法還需要進一步的完善和驗證，特別是在更多復雜場景下的應用。但研究團隊已經為我們打開了一扇新的大門，讓我們看到了AI效率優化的巨大潛力。有興趣深入了解技術細節的讀者，可以通過arXiv:2502.18600v2訪問完整的研究論文，其中包含了詳細的實驗數據和技術實現方案。
Q&A
Q1：思維草稿法是什么？它是如何工作的？ A：思維草稿法是一種讓AI模仿人類簡潔思考的新方法。不像傳統AI需要詳細解釋每個步驟，這種方法讓AI只記錄最關鍵的信息點，就像我們做筆記時只寫要點一樣。通過限制每個思考步驟最多用5個詞， AI能更快地找到答案。
Q2：使用思維草稿法會不會影響AI回答的準確性？ A：研究顯示準確性基本不受影響，有時甚至更準確。以數學問題為例， GPT-4o的準確率只從95.4%下降到91.1% ，但處理速度快了4倍多。在某些任務中，簡潔的思維反而幫助AI避免被冗長信息\"繞糊涂\" ，提高了準確性。
Q3：普通用戶什么時候能體驗到這種技術帶來的改進？ A：這種方法可以立即應用到現有的AI系統中，不需要重新訓練模型。目前主要限制是需要為不同任務設計合適的示例。隨著更多企業采用這種方法，用戶很快就能享受到更快、更便宜的AI服務，特別是在客服、教育和專業咨詢等領域。

Zoom團隊：AI推理新突破提升ChatGPT效率80%

推薦閱讀

黑芝麻餡料怎么做

順風局和逆風局什么意思

ppt能放視頻嗎

男生抽條是什么意思

天貓同意換貨會預留庫存嗎商家同意換貨時有留庫存嗎

微信收不到公眾號的紅包

不是武漢戶口可以在武漢買房嗎

夢見洞房洞房花燭

開齋2021年是哪一天開齋2021年是幾月幾日

鍵盤怎么切換中文輸入法鍵盤如何切換中文輸入法

建成房屋如何挖地下室

麥昆小白鞋黃斑怎么去

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別

我買了堅果手機，感覺系統好像沒有過度動畫

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢