
文章圖片
當 AI 開始像人一樣“反思錯題” , 小模型也能逆襲大十倍的對手 。 本文拆解一篇 16 頁實戰論文:用“反思-重試-獎勵”三步法 , 讓 15 億參數的模型在函數調用和數學題上碾壓 720 億參數的“學霸” 。 作者親授 3 個可復制的訓練技巧 , 教你把 AI 從一次性答題機器變成會自我糾錯的“錯題本” , 效率直接拉滿 。今天想跟大家分享一篇有意思的AI論文 , 標題有點長 , 叫《反思 , 重試 , 獎勵:通過強化學習實現自我改進的大語言模型》 。
說內容前 , 我先說說自己是怎么發現這篇論文的 。 熟悉AI的同學大多知道一個網站叫Hugging Face , 這個平臺不僅有各種大模型的訓練場和技術討論區 , 還開設了一個“每日論文”欄目 。 由于AI領域如今太過火熱 , 每天都有大量新論文發布 , 這個欄目就像是一個論文版的“知乎熱榜”——作者提交論文 , 讀者點贊排名 。
今天要介紹的這篇論文 , 是這個欄目6月排行榜的第三位 。 論文作者并不是一個典型的高校研究學者 , 而是一家名叫Writer的人工智能創業公司的研究團隊 , 聯合作者一共有八個人 。
也許正因為是創業企業的研究團隊 , 所以沒有那么在乎學術層面的論文慣例 , 整個論文加上引用也只有16頁 , 讀起來也沒有故作高深 , 非常簡單明了 。
01 3個步驟 , 教會AI從錯誤中學習這篇論文——《反思、重試、獎勵:通過強化學習實現自我改進的大語言模型》——光是題目 , 你就能知道這項研究的核心結論是什么 。
對我們人類來說 , “從錯誤中學習”是非常重要并且有效的學習方式之一 。 不信你去網上搜搜看 , 文具有一個專門的品類就叫“錯題本” 。 我們在求學時 , 當一道題沒做對的時候 , 好的老師肯定不會直接說答案 , 而是會引導我們反思:“你覺得問題出在什么地方?下次可以怎么改進?”
而這篇論文的核心研究 , 就提出了一種巧妙的方法 , 能讓AI像人一樣 , 從錯誤中不斷成長 。
研究團隊發現 , 即便是再強大的模型 , 也存在自己的“盲區”——它在某一個任務上表現得非常好 , 但并不代表它就一定能順利搞定類似的另一個任務 。
面對這個問題 , 傳統的解決辦法是收集更多數據 , 對模型進行重新訓練或微調 。
但這樣的做法往往存在幾個現實難題:一是很多時候你并沒有更高質量的新數據可用;二是即便訓練了 , 也常常出現“打地鼠”式的問題——那就是優化了一個點 , 另一個原本表現不錯的地方反而出了問題 。
后來 , 研究團隊就換了一個思路:與其一遍遍喂AI數據、調優模型 , 不如教會它怎么反思 。 只要讓AI掌握“怎么從錯誤中總結經驗、改進自己”的方法 , 它在面對不同任務時 , 就能逐步自行進化 。 用通俗的話說 , 就是不再一味“灌知識” , 而是教它“怎么學” 。
這個方法一共包含三個步驟 , 就像論文標題里寫的那樣:反思、重試和獎勵 。
第一步 , 反思 。 當模型在某個任務上第一次失敗時 , 系統不會直接結束 , 而是讓它先生成一段自我反思的內容 , 分析自己到底哪里出了問題 。 就像學生考試答錯題后 , 會問自己:“我哪一步想錯了?是不是公式用錯了?”這一環節的核心目的 , 是讓AI開始自我覺察 , 并意識到錯誤的原因 。
第二步 , 重試 。 這時候 , AI模型會帶著剛才的反思內容 , 再去嘗試完成同一個任務 。 就像學生在弄明白上次哪里出錯后 , 再去解同一類題目 , 就更容易成功 。
第三步 , 獎勵 。 如果模型在第二次嘗試中成功完成了任務 , 系統就會對它在“反思階段”所生成的內容進行獎勵 。 這里的“獎勵”并不是我們理解中的發紅包 , 而是一種強化學習技術 。 簡單來說 , 就是通過調整模型參數 , 讓它更偏向于那些曾經帶來正面結果的反思方式 。
你可以把這個過程想象成一個老師在表揚學生:當學生通過反思改正了錯誤 , 終于做對了一道難題 , 老師會說:“你的反思很有幫助 , 繼續保持下去 , 你的數學會越來越好 。 ”注意 , 老師夸獎的不是解題方法本身 , 而是“反思”這一學習策略 。 所以學生就會知道 , 反思是有效果的 , 遇到問題的時候 , 就應該用這種方式來解決 。
所以 , 這個機制的創新點在于:研究人員獎勵的并不是模型最后給出的正確答案 , 而是它中間生成的“反思過程” 。
這樣的訓練方式 , 讓模型不再依賴死記硬背某個問題的答案 , 而是逐漸學會了一種通用的、自我糾錯和自我提升的能力 。
02 AI學會反思 , 效果如何?研究團隊不是光講概念 , 他們還做了兩個實驗 , 來實際驗證這個機制的有效性 。
這兩個實驗對于AI來說都不算簡單 , 一個是函數調用 , 一個是數學方程求解 , 都屬于具有挑戰性、但又能夠清晰判斷對錯的任務類型 。
先說函數調用 。 傳統技術開發需要對接各種API接口 , 要填入各種參數 。 這個任務就是看AI能不能正確地調用 , 這不同于那種沒有標準答案的寫作任務 , 調用API , 成功與否 , 判斷標準非常明確 。
實驗團隊在多種規模大小的模型上都做了實驗 , 測試了這種機制 , 例如從15億參數的小模型到72億參數的模型不等 。 效果令人驚嘆 。
一個只有15億參數的阿里千問小模型 , 在這個任務上 , 一次就答對的概率只有大約32.6% 。
但是經過今天介紹的這個反思訓練后 , 第一次嘗試的準確率就躍升到了48.6% , 提升了16個百分點 。 如果允許它利用自己的反思再嘗試一次 , 第二次的成功率就達到了52.9% , 這相比原始能力提高了20多個百分點 。
【AI學會反思后智商飆升,分享我訓練AI干活的3個方法】再說第二個任務——數學方程求解 , 它比函數調用更困難得多 。
實驗中 , 15億參數的模型在第一次嘗試時 , 正確率只有6% , 幾乎等于純靠蒙的水平 , 就好比初中數學100分滿分只考了個6分 。
但當模型引入“反思機制”訓練后 , 第一次嘗試的正確率躍升到了34.9% , 已經是一個質的飛躍 。 如果再讓它根據第一次的反思重試一遍 , 第二次的成功率更是提升到45% 。
正確率從最初的6%到最后的45% , 這個跨度就像從不及格一路提升到接近及格線 。
還有一個更驚人的發現是 , 經過這種學習方法訓練的小模型 , 在能力上超過了參數量比自己大十倍的更高級模型 。
研究團隊同樣使用了千問的70億參數模型進行訓練 , 結果發現 , 在這兩個任務上 , 學會“反思”的70億模型 , 表現都超過了不會反思的720億模型 。 要知道 , 這兩個模型都屬于阿里千問系列 。
這就像一個經過良好學習方法訓練的高中生 , 在某些難題上 , 反而能打敗知識儲備多出十倍、但缺乏方法的博士生 。
這個發現的現實意義在于 , 對于某些任務來說 , 并不一定非得依賴超大規模模型 , 如果能優化訓練方式 , 小模型不僅節省成本 , 也能具備很強的能力 。
03 我訓練AI干活的方法我之所以要介紹這篇論文 , 是因為它的核心結論 , 對我們普通人是有借鑒價值的 。
我觀察到身邊有一些同事在使用AI工具時 , 往往只進行一輪對話:給AI發一個任務 , 等它完成后就結束了 。 有時即便AI明顯給出了錯誤答案 , 回應也只是簡單一句“錯了 , 再試一次” 。
但按照這篇論文的啟發 , 我們其實可以稍微調整一下話術 , 比如說:“你的答案可能有問題 , 請分析一下哪里出錯了 , 然后再重新回答一遍 。 ”
其次 , 在一些具體場景下 , 我們可以給AI提供更明確的反思方向 。
比如在做商業決策分析時 , 讀完AI的第一輪回答后 , 你可以補充說:“你的分析似乎忽略了市場風險因素 , 請重新考慮并補充完整 。 ”當然 , 這種方式前提是你自己能敏銳地識別出回答中的問題 。
類似的反思提示詞還有很多 , 例如:
- “請檢查一下你的推理過程 , 找出可能的邏輯漏洞 。 ”
- “分析一下你剛才的回答哪些地方可能不夠準確 。 ”
- “如果讓你重新回答這個問題 , 你會怎么改進?”
- “你覺得你的答案已經完全滿足問題要求了嗎?請詳細說明 。 ”
這個方法尤其適用于那些重要且復雜的任務 , 比如撰寫競品分析報告或者調研文檔 。 我的做法是 , 先準備好三到四個表現穩定的大模型 , 比如從ChatGPT、Claude、DeepSeek、豆包、Kimi中挑選幾個 。
我個人的習慣是:先把任務描述清楚 , 然后分別讓豆包、Kimi和DeepSeek先各自完成一次回答 。
接下來 , 我會打開ChatGPT , 對它說:“我正在完成一個任務 , 任務內容是……我已經請三個AI助手分別作答 。 現在你是評審官 , 請你根據任務的特點 , 制定一套100分制的評卷規則 , 然后分別對這三個助手的答案打分 , 并詳細說明你的評分理由 。 ”
接下來 , 我就會把其他幾個AI的回答一個個發給ChatGPT 。 這時它會先搭建一套評分標準 , 再對其他AI的回答進行打分和點評 , 比如給出85分、87分之類的分數 , 并詳細解釋打分理由 。
然后 , 我就會開始“PUA”它 , 對它說:“你既然這么懂 , 那你自己來答一遍這個問題看看?”
它會乖乖照做 , 答完后 , 我繼續追問:“那你就按你剛才的評分規則 , 對你自己的回答也打個分 , 并說明理由 。 ”
它通常會開始進行所謂的“公正打分”和自我評價——但你會發現 , 它幾乎每次都比給其他AI打的分數高 , 一般會打個90到95分之間 。 哪怕這樣 , 我也不會放過它 , 還要繼續追問:“那你這剩下的幾分是扣在哪里了?好好想想 , 再改一遍 。 ”
當然 , 它最后輸出的結果是不是滿分作品 , 其實并不重要 。 但在這個過程中 , 往往會冒出很多新思路和新角度 , 對我們人類來說是很有啟發的 。
這個方法其實很簡單 , 說到底 , 可能還是被我初中數學老師“深刻啟發”過 。 當年他那種高壓反思式教學 , 讓我一度對數學敬而遠之 。
不過還好 , 現在的AI沒有情緒 , 不會反抗 , 我們可以盡情用“PUA語氣”去激發它的智力潛力 。
本文由人人都是產品經理作者【快刀青衣】 , 微信公眾號:【快刀青衣】 , 原創/授權 發布于人人都是產品經理 , 未經許可 , 禁止轉載 。
題圖來自Unsplash , 基于 CC0 協議 。
推薦閱讀
- 榮耀手機的影音賭局背后,卻是贏下了內卷之后的幸存者!
- 這真是人人都買得起!moto Razr50折疊屏手機國補后2294元
- 隱藏在瀏覽器背后25年的男人,被奧特曼找到了,OpenAI劍指Chrome霸權
- 華Mate80曝光:滿級四攝+5900mAh,看完后讓人拍手叫絕
- 真有“后悔藥”!微信聊天記錄誤刪后可以撤銷了
- 性價比卷王——榮耀400,補貼后2039元!
- 7月國補后,價格“雪崩”的驍龍8至尊版手機,一步到位用6年
- 外賣大戰升級:奶茶白給、龍蝦16塊8!背后的邏輯不只是發福利
- 從“專用”到“通用”—華為 AI 芯片架構大轉向背后的信號
- 驍龍8至尊版旗艦重回低價,6260mAh+8T屏,國補后依然“真香”
