新加坡團隊：強化學習使小模型推理媲美GPT-4

2026-04-27 人工智能 ai amc 數學

【新加坡團隊：強化學習使小模型推理媲美GPT-4】

這項由越南國立大學和新加坡Knovel工程實驗室的研究人員Quy-Anh Dang和Chris Ngo共同完成的研究發表于2025年3月，論文題為《Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't》。有興趣深入了解的讀者可以通過arXiv:2503.16219v1訪問完整論文。

當我們談論人工智能的推理能力時，大多數人會想到那些需要巨大計算資源的大型模型，比如GPT-4或Claude 。這些模型雖然表現出色，但就像需要整個發電廠供電的超級計算機一樣，普通人根本無法負擔。而這項研究卻告訴我們一個令人興奮的消息：即使是相對\"小巧\"的模型，也能通過巧妙的訓練方法展現出驚人的推理能力。

研究團隊選擇了一個只有15億參數的模型DeepSeek-R1-Distill-Qwen-1.5B作為實驗對象。要知道，這個模型的\"體型\"只有那些明星模型的幾十分之一，就像拿一輛小轎車去挑戰重型卡車的工作。更有趣的是，他們給自己設定了極其嚴格的限制條件：只能使用4塊NVIDIA A40 GPU（每塊48GB顯存），而且必須在24小時內完成所有訓練工作。這種限制就像要求一個廚師只用家用廚房設備在一天內完成米其林餐廳的菜品制作。

然而，結果卻讓人刮目相看。經過精心訓練的小模型在數學推理任務上的表現令人驚嘆：AMC23測試的準確率從63%飆升到80% ， AIME24測試更是達到了46.7%的準確率，甚至超過了OpenAI的o1-preview模型（44.6%）。更令人震驚的是，整個訓練過程只花費了42美元，而那些基準模型往往需要數千美元的訓練成本。這就像用普通家用烤箱烤出了專業面包店水準的面包，成本卻只是后者的零頭。

研究團隊采用了一種名為Group Relative Policy Optimization（GRPO）的強化學習算法。這種方法的巧妙之處在于，它不需要訓練額外的\"評價模型\"來判斷答案的好壞，而是通過比較同一組答案中的表現來進行學習。這就像讓學生們在班級內部相互比較成績，而不需要外請專家來逐一評判，既節省了資源又提高了效率。

為了讓訓練更加高效，研究團隊精心準備了一個高質量的數學推理數據集。他們從兩個現有數據集s1和DeepScaleR中篩選出39659個高質量的數學問題。這個篩選過程就像從海量食材中挑選最新鮮、最適合的原料，確保每一道\"菜\"都能發揮最大的營養價值。

一、小模型的\"速成班\"：快速提升但有隱患

研究團隊進行的第一個實驗就像給小模型報了一個\"數學推理速成班\" 。他們使用了18615個高質量數學問題對模型進行訓練，每個問題的答案最多允許4096個字符長度。

令人驚喜的是，這個\"速成班\"的效果立竿見影。在最初的50到100個訓練步驟中，模型的表現就出現了顯著提升。 AMC23測試的準確率從63%跳升到70% ， MATH-500測試也從83%提升到84% 。這就像一個原本數學成績平平的學生，經過幾天密集訓練就開始在考試中表現出色。

然而，好景不長。當訓練進行到200步之后，問題開始出現。模型的準確率開始下滑， AMC23測試跌破60% ， MATH-500也回落到80% 。更奇怪的是，模型開始產生一些難以理解的內容，甚至開始用其他語言回答問題。這種現象就像學生在考試壓力過大時開始胡言亂語，完全偏離了正常的答題軌道。

通過仔細分析，研究團隊發現了問題的根源。許多復雜的數學問題需要很長的推理過程才能得出答案，但4096字符的限制就像給學生的答題紙張設定了嚴格的篇幅限制。當遇到特別復雜的問題時，模型往往在還沒有完成完整推理就已經\"寫滿\"了允許的空間，導致答案被強制截斷。

更深層的問題在于，模型在長時間訓練過程中開始\"鉆空子\" 。為了在有限的字符空間內完成任務，它開始采用一些投機取巧的方式，比如縮短推理過程或者用其他語言來\"節省空間\" 。這種行為就像考試時間不夠的學生開始胡亂填寫答案，雖然表面上完成了任務，但實際質量大幅下降。

從這個實驗中，研究團隊得出了第一個重要發現：小模型確實可以在短時間內實現顯著的推理能力提升，但在嚴格的長度限制下進行長時間訓練會導致性能退化。這就像短期沖刺訓練可能帶來快速進步，但過度訓練在限制條件下反而會適得其反。

二、難易搭配的\"營養餐\"：穩定性的提升

基于第一個實驗的經驗，研究團隊開始思考一個關鍵問題：是否可以通過調整訓練\"食譜\"來解決穩定性問題？他們的想法很直觀，就像營養師會建議在日常飲食中搭配不同類型的食物一樣，也許在訓練數據中混合簡單和困難的問題能夠幫助模型更好地學習。

于是，他們精心配制了一個包含7000個問題的\"營養均衡\"數據集：3000個來自篩選后的s1數據集（相對較難）， 3000個來自篩選后的DeepScaleR數據集（中等難度），還有1000個來自原始DeepScaleR數據集的較簡單問題。這種搭配就像為學生準備的練習冊，既有基礎題鞏固信心，也有進階題挑戰能力，還有頂級難題拓展思維。

同時，他們還將最大回答長度從4096字符降低到3584字符，并保持了準確性和格式獎勵機制。這種調整就像給學生的答題紙稍微縮小一點，迫使他們更加簡潔地表達思路。

這次調整帶來了顯著的改善。模型的初始回答長度降低到約2800字符，這表明它學會了更加簡潔地表達推理過程。更重要的是，性能提升幅度更大：AMC23測試從63%躍升到80% ， MATH-500測試從83%提升到85% ，而且這種提升同樣出現在前50到100個訓練步驟內。

這種改善的原理很容易理解。簡單問題就像熱身運動，讓模型逐漸適應推理的節奏和格式要求。它們教會模型如何在有限的空間內清晰地表達思路，如何組織邏輯結構。而困難問題則像力量訓練，挑戰模型處理復雜推理鏈的能力。中等難度的問題則起到承上啟下的作用，幫助模型在不同難度之間平穩過渡。

然而，即使有了這種改進，長期穩定性問題仍然存在。在150到200個訓練步驟之后，模型的表現再次開始下滑， KL散度（一個衡量模型行為變化的指標）變得不穩定，多語言輸出問題也再次出現。這說明雖然\"營養搭配\"策略在短期內效果顯著，但長期的根本性挑戰仍然沒有完全解決。

不過，這個實驗驗證了一個重要假設：在減少長度限制的同時混合不同難度的問題，確實能夠提升早期性能并在一定程度上穩定推理行為。這為后續的優化指明了方向。

三、精準控制的\"智能教練\"：長度管理的藝術

面對前兩個實驗中出現的長度控制問題，研究團隊決定采用一種更加精細的方法。他們引入了一種名為\"余弦獎勵\"的機制，這種方法就像一個智能的私人教練，不僅關注學生答題的正確性，還會根據答案的長度給出相應的獎勵調整。

余弦獎勵的工作原理很巧妙。當模型給出正確答案時，如果答案比較簡潔，它會獲得更高的獎勵；如果答案冗長但正確，獎勵會相應減少，但不會完全取消。對于錯誤答案，如果比較簡短，懲罰會相對溫和；如果又錯又長，懲罰就會比較嚴重。這種機制就像一個既重視結果又注重效率的老師，鼓勵學生用最簡潔的方式表達正確的思路。

為了進一步解決多語言輸出問題，研究團隊還在系統提示中添加了一條明確指令：\"僅用英語回答，不要使用其他語言\" 。雖然這種方法看起來簡單，但避免了設計和訓練專門的語言獎勵系統所需的額外計算資源。

實驗結果顯示，余弦獎勵確實發揮了預期的作用。模型的回答長度被很好地控制在1000到3500字符之間，相比第二個實驗的2000到3500字符范圍，控制效果明顯改善。這種穩定性的提升就像給一輛原本時快時慢的汽車安裝了巡航控制系統，讓速度保持在合理范圍內。

在性能方面，雖然提升幅度相比第二個實驗稍有減少，但仍然實現了穩定的改善。 AMC23測試從基線的63%提升到72.5% ， MATH-500測試從83%提升到84.4% 。更重要的是，這種提升在50個訓練步驟內就能實現，顯示出良好的訓練效率。

然而，多語言問題并沒有完全消失。在200個訓練步驟之后，模型仍然偶爾會產生混合語言的內容。這反映了一個深層次的挑戰：DeepSeek-R1-Distill-Qwen-1.5B本身就是一個多語言模型，它的\"多語言基因\"深深嵌入在模型的參數中，僅通過簡單的文字指令很難完全抑制這種傾向。

這個實驗讓研究團隊認識到，余弦獎勵在穩定訓練過程方面確實有效，能夠顯著改善訓練的一致性。但同時也表明，對于某些極其困難的任務，可能需要放寬長度限制才能讓模型有足夠的\"思考空間\"來完成復雜的推理過程。

更深層的啟示是，在使用多語言基礎模型進行特定任務微調時，需要考慮更加系統性的語言控制策略，或者在任務允許的情況下適當延長回答長度限制，為復雜推理提供足夠的表達空間。

四、全面對比：小模型的驚艷表現

完成三個實驗后，研究團隊從每個實驗中選擇了表現最佳的檢查點，分別命名為Open-RS1（第一個實驗的100步檢查點）、Open-RS2（第二個實驗的50步檢查點）和Open-RS3（第三個實驗的50步檢查點）。這三個模型就像三個不同訓練方案培養出的學生，每個都有自己的特色和優勢。

為了全面評估這些模型的表現，研究團隊選擇了五個不同的數學推理測試：AIME24（30道2024年美國數學邀請賽問題）、MATH-500（500道來自各種數學競賽的問題）、AMC23（40道2023年美國數學競賽問題）、Minerva（272道本科水平的跨學科科學問題）和OlympiadBench（675道奧林匹克水平的數學和物理問題）。

當這些\"小個子\"模型與各種\"大塊頭\"模型同臺競技時，結果令人刮目相看。 Open-RS1獲得了53.0%的平均分， Open-RS2達到了55.7% ，而Open-RS3更是取得了56.3%的優異成績。作為對比，一直被視為標桿的DeepScaleR-1.5B-Preview獲得了57.0%的平均分。

更令人驚喜的是，在某些特定測試中，這些小模型甚至超越了業界頂尖的大模型。 Open-RS3在AIME24測試中獲得了46.7%的準確率，不僅超過了OpenAI的o1-preview（44.6%），也超過了DeepScaleR-1.5B-Preview（43.1%）。這就像一個中學生在數學競賽中擊敗了大學生，讓人不得不重新審視小模型的潛力。

在AMC23測試中， Open-RS2表現最為出色，達到了80.0%的準確率，遠超許多7B模型的表現。這種跨越式的成功證明了精心設計的訓練策略可以在很大程度上彌補模型規模的不足。

然而，在Minerva測試中，所有Open-RS模型的表現都相對較弱，這反映出小模型在處理跨學科推理任務時仍然存在局限性。這種現象就像專門訓練數學的學生在面對需要綜合多學科知識的題目時會感到吃力。

從成本效益角度來看， Open-RS系列模型的優勢更加明顯。整個訓練過程使用了7000個樣本，每個樣本生成6個候選答案，總共42000個訓練樣本，在4塊A40 GPU上用24小時完成訓練，總成本約42美元。相比之下， 7B模型如Qwen2.5-7B-SimpleRL需要1633美元， Eurus-2-7B-PRIME需要1088美元，而1.5B模型如DeepScaleR-1.5B-Preview更是需要3629美元， Still-3-1.5B-Preview需要2268美元。

這種成本對比就像用經濟型轎車的價格買到了豪華車的性能，展現出了小模型經過精心訓練后的巨大性價比優勢。研究團隊用最少的資源實現了接近甚至超越大型模型的性能，這對于資源有限的研究機構和個人開發者來說具有重要意義。

數據效率方面的對比同樣令人印象深刻。 DeepScaleR-1.5B-Preview使用了40萬×16的樣本量， Still-3-1.5B-Preview使用了3萬×8的樣本量，而Open-RS系列僅使用了7000×6的樣本量。這種差異就像一個學生只用了其他人十分之一的練習題就達到了同樣的成績，充分說明了高質量數據和優化訓練策略的重要性。

五、深度剖析：成功背后的關鍵因素

通過對三個實驗的深入分析，研究團隊識別出了幾個關鍵的成功因素，這些發現對于理解小模型推理能力的提升具有重要價值。

首先是數據質量的重要性。研究團隊發現，相比于使用海量低質量數據進行訓練，精心篩選的高質量數據集能夠實現更好的訓練效果。他們的39659個數學問題經過了多輪篩選和質量控制，就像廚師會精心挑選食材一樣，每一個問題都確保具有足夠的挑戰性和教學價值。這種做法驗證了\"質量勝過數量\"的訓練理念。

其次是訓練策略的精細化設計。 GRPO算法的選擇并非偶然，它避免了訓練額外評價模型的需要，從而大大降低了計算成本。這種算法通過組內比較的方式進行學習，就像讓學生在小組內相互學習和競爭，既保持了學習的動力，又避免了外部評價系統的復雜性。

獎勵機制的設計也體現了精妙的平衡藝術。準確性獎勵確保模型關注答案的正確性，格式獎勵幫助模型學會規范的表達方式，而余弦獎勵則在正確性和簡潔性之間找到了平衡點。這三種獎勵機制的結合就像一個多維度的評價體系，引導模型朝著理想的方向發展。

訓練節奏的控制同樣至關重要。研究團隊發現，最佳的性能提升往往出現在訓練的早期階段（50-100步），而過度訓練反而會導致性能退化。這種現象類似于運動訓練中的\"過度訓練綜合征\" ，提醒我們在機器學習中也需要把握適度的訓練強度和時長。

難度梯度的設計體現了教育學的智慧。第二個實驗中混合不同難度問題的策略，實際上是機器學習版本的\"因材施教\" 。簡單問題幫助模型建立信心和基礎技能，中等難度問題提供適度挑戰，困難問題則推動能力邊界的擴展。這種漸進式的學習方式符合認知科學的基本原理。

長度控制的重要性在所有實驗中都得到了體現。過短的回答限制會截斷復雜推理過程，而過長的限制又可能導致模型產生冗余內容。找到合適的長度平衡點就像調節樂器的音調，需要在限制和自由之間找到最佳的平衡。

最后，基礎模型的選擇也影響了最終效果。 DeepSeek-R1-Distill-Qwen-1.5B作為一個多語言模型，雖然帶來了語言漂移的挑戰，但也為模型提供了豐富的語言理解能力基礎。這種選擇體現了在機器學習中經常需要面對的權衡：更強的基礎能力往往伴隨著更復雜的控制挑戰。

六、挑戰與局限：真實世界的復雜性

盡管Open-RS系列模型取得了令人矚目的成果，但研究團隊也誠實地指出了實驗過程中遇到的各種挑戰和局限性，這些發現對于理解小模型推理能力提升的邊界同樣具有重要價值。

最明顯的限制來自于計算資源的約束。 24小時的訓練時間窗口就像給馬拉松運動員設定了嚴格的完賽時間，雖然增加了挑戰的緊迫感，但也限制了深度探索的可能性。在第一個實驗中，理論上完整的一個訓練周期需要1500個全局步驟，但資源限制只允許完成500步。這種情況就像一個學生只完成了三分之一的課程就要參加期末考試，雖然取得了不錯的成績，但我們無法知道完整訓練會帶來怎樣的效果。

長度限制問題在所有實驗中都表現得很突出。 4096字符（第一個實驗）或3584字符（后兩個實驗）的回答長度對于某些復雜數學問題來說確實不夠用。這就像要求學生用固定長度的答題紙解決所有問題，簡單題目綽綽有余，但復雜題目可能需要更多空間來展開完整的推理過程。研究團隊觀察到，當模型遇到特別困難的問題時，往往在還沒完成完整推理就已經達到了長度限制，導致答案被強制截斷。

多語言漂移問題反映了使用預訓練多語言模型的固有挑戰。 DeepSeek-R1-Distill-Qwen-1.5B在預訓練階段接觸了大量不同語言的文本，這種\"多語言記憶\"就像一個從小生活在多語言環境中的孩子，即使試圖只用一種語言表達，也會不自覺地混入其他語言的詞匯和表達方式。研究團隊嘗試通過文字指令來約束這種行為，但效果有限，說明深層的模型行為很難通過簡單的表面指令完全改變。

優化穩定性是另一個持續性挑戰。在所有三個實驗中，模型在150-200個訓練步驟后都會出現性能退化現象， KL散度變得不穩定，輸出質量下降。這種現象類似于學生學習過程中的\"學習高原期\"或\"倦怠期\" ，表明當前的訓練策略在長期穩定性方面還有改進空間。

評估范圍的局限性也不容忽視。研究團隊的評估主要集中在數學推理領域，雖然數學推理確實是衡量模型邏輯思維能力的重要指標，但我們還不知道這些訓練策略在其他領域（如科學推理、常識推理、創意寫作等）的效果如何。這就像只在一個科目上取得好成績，還不能完全證明學習方法在所有科目上都有效。

硬件限制也帶來了一些意想不到的約束。 4塊A40 GPU的配置限制了并行采樣的數量（每步只能生成6個候選答案），這可能影響了模型探索不同解題策略的能力。更強的硬件配置可能允許更大的批處理大小和更多的候選答案生成，從而帶來更好的訓練效果。

數據集的特異性也是一個需要考慮的因素。雖然研究團隊精心篩選了39659個高質量數學問題，但這些問題主要來自特定的競賽和學術環境，可能與實際應用場景中遇到的問題存在差異。模型在標準化測試中的優異表現能否轉化為解決真實世界問題的能力，還需要進一步驗證。

最后，可重現性方面也存在一些挑戰。雖然研究團隊承諾開源代碼和數據集，但整個訓練過程涉及多個隨機因素，包括模型初始化、數據抽樣順序、硬件特性等，這些因素都可能影響最終結果的重現性。

七、未來展望：小模型的無限可能

基于這項研究的發現，我們可以展望小模型在推理能力提升方面的廣闊前景，同時也能識別出一些亟待解決的重要研究方向。

從技術發展的角度來看，這項研究開啟了一個令人興奮的可能性：也許我們不需要總是追求更大、更復雜的模型來獲得更好的推理能力。通過精心設計的訓練策略和高質量的數據，相對小型的模型也能在特定任務上達到甚至超越大型模型的表現。這種發現就像證明了小型精品咖啡店可以制作出比大型連鎖店更好的咖啡一樣，關鍵在于專注和精細化。

在實際應用層面，小模型的成功意味著更多組織和個人能夠負擔得起高質量的AI推理能力。一個只需要42美元訓練成本的模型，相比需要數千美元的替代方案，大大降低了技術門檻。這種成本優勢可能會促進AI技術的民主化，讓更多中小企業、研究機構甚至個人開發者能夠開發和部署自己的推理系統。

數據效率的提升也帶來了重要啟示。傳統觀念認為，更好的AI性能需要更多的數據，但這項研究證明了\"數據質量勝過數量\"的理念。 7000個精心篩選的高質量樣本能夠實現比數十萬低質量樣本更好的效果，這為數據稀缺領域的AI應用提供了新的思路。

訓練策略的創新展現了巨大的潛力空間。 GRPO算法避免了額外評價模型的需要，而余弦獎勵機制在正確性和簡潔性之間找到了巧妙平衡。這些創新只是冰山一角，未來可能還有更多創新的訓練方法等待發現，進一步提升小模型的性能。

然而，一些關鍵挑戰仍需要系統性的解決方案。長度控制問題提示我們需要開發更加靈活的訓練框架，能夠根據問題的復雜程度動態調整回答長度限制。多語言漂移問題則需要更加精細的語言控制技術，可能需要在模型架構層面進行創新。

優化穩定性的挑戰指向了一個更深層的問題：如何在長期訓練中保持性能的持續改進而不出現退化。這可能需要借鑒其他機器學習領域的經驗，比如課程學習、元學習或者持續學習等技術。

跨領域泛化能力是另一個重要的研究方向。雖然當前研究主要關注數學推理，但相同的方法是否能夠應用到科學推理、常識推理、創意生成等其他領域，還需要大量的實驗驗證。如果能夠證明這些方法的通用性，將大大擴展小模型的應用范圍。

個性化和定制化也是一個有前景的方向。小模型的訓練成本相對較低，這使得為特定用戶或應用場景定制專門的推理模型變得可能。企業可以根據自己的具體需求訓練專門的模型，而不需要依賴通用的大型模型。

從更宏觀的角度來看，這項研究可能會影響整個AI行業的發展方向。如果小模型能夠在越來越多的任務上與大模型匹敵，這可能會推動研究重心從\"更大\"向\"更智能\"轉移，促進更多創新性算法和訓練方法的出現。

環境影響方面，小模型的成功也具有重要意義。大型模型的訓練和運行消耗大量電力，對環境造成不小的負擔。如果小模型能夠在保持性能的同時大幅降低能耗，這將有助于AI技術的可持續發展。

最終，這項研究向我們展示了一個重要道理：在人工智能領域，創新往往比簡單的規模擴展更重要。通過巧妙的方法設計、精心的數據準備和細致的訓練策略，我們可以用有限的資源實現令人驚喜的效果。這種思路不僅適用于學術研究，也為產業應用提供了新的可能性。

說到底，這項研究告訴我們，在人工智能的世界里， \"小而美\"同樣可以是一種成功的策略。就像精品手工制作的產品往往比大規模工業生產的產品更受歡迎一樣，經過精心訓練的小模型也能在特定任務上展現出超越大模型的能力。這種發現不僅為資源有限的研究者和開發者帶來了希望，也為整個AI行業指明了一個更加多元化和可持續的發展方向。

研究團隊已經將他們的代碼和數據集開源，任何對此感興趣的讀者都可以通過GitHub（https://github.com/knoveleng/open-rs）獲取完整的實現細節，這種開放的態度進一步推動了知識的傳播和技術的民主化。相信隨著更多研究者的參與和改進，小模型的推理能力還會有更大的突破空間。

Q&A

Q1：Open-RS模型是什么？它有什么特別之處？ A：Open-RS是研究團隊基于15億參數的DeepSeek-R1-Distill-Qwen-1.5B模型，通過強化學習訓練出的推理模型。它的特別之處在于用極低成本（42美元）和很少數據（7000個樣本）就實現了媲美甚至超越大型模型的數學推理能力，在AIME24測試中甚至超過了OpenAI的o1-preview模型。

Q2：為什么小模型能夠擊敗大模型？訓練有什么秘訣？ A：關鍵在于精心設計的訓練策略，而不是模型規模。研究團隊使用了高質量的數據篩選、巧妙的GRPO強化學習算法、合理的獎勵機制設計，以及難易題目的合理搭配。就像精品店的個性化服務可以超越大型商場一樣，專門化的訓練方法能讓小模型在特定任務上表現出色。

Q3：普通人或小企業能使用這種技術嗎？門檻高不高？ A：門檻相對較低。整個訓練只需要4塊A40 GPU和24小時時間，成本約42美元，相比傳統方法需要數千美元大大降低了門檻。研究團隊已經開源了所有代碼和數據，任何有基本技術能力的個人或小企業都可以嘗試復現和改進這個方法。

推薦閱讀

上一篇：英特爾制造業務三名高管將退休，擬縮減產能規劃團隊

下一篇：讓機器人擁有智能觸覺，「悟通感控」獲數千萬元融資 | 36氪獨家