AI學會反思后智商飆升，分享我訓練AI干活的3個方法_數學|人工智能

文章圖片

當 AI 開始像人一樣“反思錯題” ，小模型也能逆襲大十倍的對手。本文拆解一篇 16 頁實戰論文：用“反思-重試-獎勵”三步法，讓 15 億參數的模型在函數調用和數學題上碾壓 720 億參數的“學霸” 。作者親授 3 個可復制的訓練技巧，教你把 AI 從一次性答題機器變成會自我糾錯的“錯題本” ，效率直接拉滿。

今天想跟大家分享一篇有意思的AI論文，標題有點長，叫《反思，重試，獎勵：通過強化學習實現自我改進的大語言模型》。
說內容前，我先說說自己是怎么發現這篇論文的。熟悉AI的同學大多知道一個網站叫Hugging Face ，這個平臺不僅有各種大模型的訓練場和技術討論區，還開設了一個“每日論文”欄目。由于AI領域如今太過火熱，每天都有大量新論文發布，這個欄目就像是一個論文版的“知乎熱榜”——作者提交論文，讀者點贊排名。
今天要介紹的這篇論文，是這個欄目6月排行榜的第三位。論文作者并不是一個典型的高校研究學者，而是一家名叫Writer的人工智能創業公司的研究團隊，聯合作者一共有八個人。
也許正因為是創業企業的研究團隊，所以沒有那么在乎學術層面的論文慣例，整個論文加上引用也只有16頁，讀起來也沒有故作高深，非常簡單明了。

01 3個步驟，教會AI從錯誤中學習這篇論文——《反思、重試、獎勵：通過強化學習實現自我改進的大語言模型》——光是題目，你就能知道這項研究的核心結論是什么。
對我們人類來說， “從錯誤中學習”是非常重要并且有效的學習方式之一。不信你去網上搜搜看，文具有一個專門的品類就叫“錯題本” 。我們在求學時，當一道題沒做對的時候，好的老師肯定不會直接說答案，而是會引導我們反思：“你覺得問題出在什么地方？下次可以怎么改進？”
而這篇論文的核心研究，就提出了一種巧妙的方法，能讓AI像人一樣，從錯誤中不斷成長。
研究團隊發現，即便是再強大的模型，也存在自己的“盲區”——它在某一個任務上表現得非常好，但并不代表它就一定能順利搞定類似的另一個任務。
面對這個問題，傳統的解決辦法是收集更多數據，對模型進行重新訓練或微調。
但這樣的做法往往存在幾個現實難題：一是很多時候你并沒有更高質量的新數據可用；二是即便訓練了，也常常出現“打地鼠”式的問題——那就是優化了一個點，另一個原本表現不錯的地方反而出了問題。
后來，研究團隊就換了一個思路：與其一遍遍喂AI數據、調優模型，不如教會它怎么反思。只要讓AI掌握“怎么從錯誤中總結經驗、改進自己”的方法，它在面對不同任務時，就能逐步自行進化。用通俗的話說，就是不再一味“灌知識” ，而是教它“怎么學” 。
這個方法一共包含三個步驟，就像論文標題里寫的那樣：反思、重試和獎勵。
第一步，反思。當模型在某個任務上第一次失敗時，系統不會直接結束，而是讓它先生成一段自我反思的內容，分析自己到底哪里出了問題。就像學生考試答錯題后，會問自己：“我哪一步想錯了？是不是公式用錯了？”這一環節的核心目的，是讓AI開始自我覺察，并意識到錯誤的原因。
第二步，重試。這時候， AI模型會帶著剛才的反思內容，再去嘗試完成同一個任務。就像學生在弄明白上次哪里出錯后，再去解同一類題目，就更容易成功。
第三步，獎勵。如果模型在第二次嘗試中成功完成了任務，系統就會對它在“反思階段”所生成的內容進行獎勵。這里的“獎勵”并不是我們理解中的發紅包，而是一種強化學習技術。簡單來說，就是通過調整模型參數，讓它更偏向于那些曾經帶來正面結果的反思方式。
你可以把這個過程想象成一個老師在表揚學生：當學生通過反思改正了錯誤，終于做對了一道難題，老師會說：“你的反思很有幫助，繼續保持下去，你的數學會越來越好。 ”注意，老師夸獎的不是解題方法本身，而是“反思”這一學習策略。所以學生就會知道，反思是有效果的，遇到問題的時候，就應該用這種方式來解決。
所以，這個機制的創新點在于：研究人員獎勵的并不是模型最后給出的正確答案，而是它中間生成的“反思過程” 。
這樣的訓練方式，讓模型不再依賴死記硬背某個問題的答案，而是逐漸學會了一種通用的、自我糾錯和自我提升的能力。

02 AI學會反思，效果如何？研究團隊不是光講概念，他們還做了兩個實驗，來實際驗證這個機制的有效性。
這兩個實驗對于AI來說都不算簡單，一個是函數調用，一個是數學方程求解，都屬于具有挑戰性、但又能夠清晰判斷對錯的任務類型。
先說函數調用。傳統技術開發需要對接各種API接口，要填入各種參數。這個任務就是看AI能不能正確地調用，這不同于那種沒有標準答案的寫作任務，調用API ，成功與否，判斷標準非常明確。
實驗團隊在多種規模大小的模型上都做了實驗，測試了這種機制，例如從15億參數的小模型到72億參數的模型不等。效果令人驚嘆。
一個只有15億參數的阿里千問小模型，在這個任務上，一次就答對的概率只有大約32.6% 。
但是經過今天介紹的這個反思訓練后，第一次嘗試的準確率就躍升到了48.6% ，提升了16個百分點。如果允許它利用自己的反思再嘗試一次，第二次的成功率就達到了52.9% ，這相比原始能力提高了20多個百分點。
【AI學會反思后智商飆升，分享我訓練AI干活的3個方法】再說第二個任務——數學方程求解，它比函數調用更困難得多。
實驗中， 15億參數的模型在第一次嘗試時，正確率只有6% ，幾乎等于純靠蒙的水平，就好比初中數學100分滿分只考了個6分。
但當模型引入“反思機制”訓練后，第一次嘗試的正確率躍升到了34.9% ，已經是一個質的飛躍。如果再讓它根據第一次的反思重試一遍，第二次的成功率更是提升到45% 。
正確率從最初的6%到最后的45% ，這個跨度就像從不及格一路提升到接近及格線。
還有一個更驚人的發現是，經過這種學習方法訓練的小模型，在能力上超過了參數量比自己大十倍的更高級模型。
研究團隊同樣使用了千問的70億參數模型進行訓練，結果發現，在這兩個任務上，學會“反思”的70億模型，表現都超過了不會反思的720億模型。要知道，這兩個模型都屬于阿里千問系列。
這就像一個經過良好學習方法訓練的高中生，在某些難題上，反而能打敗知識儲備多出十倍、但缺乏方法的博士生。
這個發現的現實意義在于，對于某些任務來說，并不一定非得依賴超大規模模型，如果能優化訓練方式，小模型不僅節省成本，也能具備很強的能力。

03 我訓練AI干活的方法我之所以要介紹這篇論文，是因為它的核心結論，對我們普通人是有借鑒價值的。
我觀察到身邊有一些同事在使用AI工具時，往往只進行一輪對話：給AI發一個任務，等它完成后就結束了。有時即便AI明顯給出了錯誤答案，回應也只是簡單一句“錯了，再試一次” 。
但按照這篇論文的啟發，我們其實可以稍微調整一下話術，比如說：“你的答案可能有問題，請分析一下哪里出錯了，然后再重新回答一遍。 ”
其次，在一些具體場景下，我們可以給AI提供更明確的反思方向。
比如在做商業決策分析時，讀完AI的第一輪回答后，你可以補充說：“你的分析似乎忽略了市場風險因素，請重新考慮并補充完整。 ”當然，這種方式前提是你自己能敏銳地識別出回答中的問題。
類似的反思提示詞還有很多，例如：

“請檢查一下你的推理過程，找出可能的邏輯漏洞。 ”
“分析一下你剛才的回答哪些地方可能不夠準確。 ”
“如果讓你重新回答這個問題，你會怎么改進？”
“你覺得你的答案已經完全滿足問題要求了嗎？請詳細說明。 ”

最后，我想分享一個我偶爾會用的小技巧，它和本文介紹的“反思機制”有異曲同工之妙。我給它起了個名字，叫做 “PUA大法” 。
這個方法尤其適用于那些重要且復雜的任務，比如撰寫競品分析報告或者調研文檔。我的做法是，先準備好三到四個表現穩定的大模型，比如從ChatGPT、Claude、DeepSeek、豆包、Kimi中挑選幾個。
我個人的習慣是：先把任務描述清楚，然后分別讓豆包、Kimi和DeepSeek先各自完成一次回答。
接下來，我會打開ChatGPT ，對它說：“我正在完成一個任務，任務內容是……我已經請三個AI助手分別作答。現在你是評審官，請你根據任務的特點，制定一套100分制的評卷規則，然后分別對這三個助手的答案打分，并詳細說明你的評分理由。 ”
接下來，我就會把其他幾個AI的回答一個個發給ChatGPT 。這時它會先搭建一套評分標準，再對其他AI的回答進行打分和點評，比如給出85分、87分之類的分數，并詳細解釋打分理由。
然后，我就會開始“PUA”它，對它說：“你既然這么懂，那你自己來答一遍這個問題看看？”
它會乖乖照做，答完后，我繼續追問：“那你就按你剛才的評分規則，對你自己的回答也打個分，并說明理由。 ”
它通常會開始進行所謂的“公正打分”和自我評價——但你會發現，它幾乎每次都比給其他AI打的分數高，一般會打個90到95分之間。哪怕這樣，我也不會放過它，還要繼續追問：“那你這剩下的幾分是扣在哪里了？好好想想，再改一遍。 ”
當然，它最后輸出的結果是不是滿分作品，其實并不重要。但在這個過程中，往往會冒出很多新思路和新角度，對我們人類來說是很有啟發的。
這個方法其實很簡單，說到底，可能還是被我初中數學老師“深刻啟發”過。當年他那種高壓反思式教學，讓我一度對數學敬而遠之。
不過還好，現在的AI沒有情緒，不會反抗，我們可以盡情用“PUA語氣”去激發它的智力潛力。
本文由人人都是產品經理作者【快刀青衣】，微信公眾號：【快刀青衣】，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。
題圖來自Unsplash ，基于 CC0 協議。