快手團隊：Klear-Reasoner實現AI深度思考_人工智能

【快手團隊：Klear-Reasoner實現AI深度思考】
這項由快手科技Klear團隊完成的研究發表于2025年8月，詳細介紹了他們開發的Klear-Reasoner模型及其背后的創新技術。感興趣的讀者可以通過GitHub項目頁面（https://github.com/suu990901/KlearReasoner）了解更多技術細節，完整論文也已在arXiv平臺發布。

當我們解決復雜數學題或編程問題時，總是需要一步步仔細思考，不斷嘗試不同方法，有時甚至要推翻之前的想法重新開始。現在，人工智能也學會了這種深度思考的能力。快手科技的研究團隊開發出一個名為Klear-Reasoner的AI模型，它不僅能像人類一樣進行長時間的邏輯推理，還在數學和編程領域取得了令人矚目的成績。

這個模型就像一個非常聰明的學生，在美國數學邀請賽（AIME）2024年的考試中獲得了90.5分的高分，在2025年的考試中也達到了83.2分。要知道，這可是連很多數學專業的大學生都覺得困難的考試。在編程能力測試LiveCodeBench上，它也表現出色，分別在V5和V6版本中取得了66.0%和58.1%的成績。

更重要的是，這項研究不像很多其他工作那樣遮遮掩掩，而是詳細公開了整個訓練過程的每一個步驟。研究團隊發現，訓練這樣的推理模型就像培養一個優秀的學生一樣，需要精心設計的學習材料和恰當的指導方法。他們特別強調，與其給模型提供大量普通質量的學習材料，不如專注于少量但高質量的內容。這就好比讓學生做十道精選的好題，比做一百道平庸的練習題更有效果。

在技術創新方面，研究團隊提出了一種叫做\"梯度保持剪切策略優化\"（GPPO）的新方法。傳統的AI訓練方法在處理某些學習信號時，會簡單粗暴地忽略掉一些看似不重要的信息，就像老師批改作業時只看對錯而不關注學生的思考過程。而GPPO方法更像一位耐心的導師，即使學生的答案不完全正確，也會從中提取有價值的思考線索，幫助模型更好地學習和改進。

一、從模仿到思考：AI學習方式的根本轉變

傳統的AI模型訓練就像教孩子背誦標準答案，給它看大量的問題和對應的正確答案，讓它通過模式識別來學會解題。然而，這種方法在面對需要深度思考的復雜問題時就顯得力不從心了。就好比一個只會背誦乘法口訣表的學生，當遇到需要多步驟推理的應用題時就會束手無策。

OpenAI的O1系列模型和DeepSeek的R1模型的成功，讓研究者們意識到了長鏈式思考的重要性。這些模型不是簡單地輸出答案，而是會展示完整的思考過程，就像學生在草稿紙上一步步推導數學公式一樣。但問題是，這些商業模型的訓練細節往往不對外公開，就像名廚不愿意分享獨門秘方一樣，這讓其他研究者很難復現或改進這些技術。

快手團隊決定打破這種局面。他們以Qwen3-8B作為基礎模型，就像選擇了一個聰明但還需要進一步培養的學生，然后通過精心設計的訓練方法，讓它學會了深度推理的能力。整個過程分為兩個主要階段：首先是長鏈式思考的監督學習，然后是強化學習的進一步優化。

在監督學習階段，研究團隊收集了150萬個高質量的數學和編程問題，每個問題都配有詳細的解題思路。這些材料主要來源于OpenThoughts、NuminaMath、AceReason-Nemotron等知名數據集，就像為學生精選了最好的教科書和練習冊。更重要的是，他們使用DeepSeek-R1-0528這樣的頂級模型作為\"老師\" ，為每個問題生成詳細的解答過程，確保學習材料的質量。

二、質量勝過數量：精選學習材料的智慧

在教育領域有一個普遍認知：與其讓學生刷大量題目，不如精選少數高質量的典型題目進行深入思考。快手團隊的研究證實了這一點在AI訓練中同樣適用。他們通過大量實驗發現，使用少量高質量的數據源訓練出的模型，性能遠超使用大量不同質量數據源訓練的模型。

這個發現顛覆了很多人的直覺。通常我們會認為，數據越多樣化越好，就像讓學生接觸各種不同類型的題目能提高適應能力。然而實驗結果顯示，當研究團隊只使用最高質量的一到兩個數據源時，模型表現最佳。隨著加入更多數據源，性能反而開始下降。這就好比一個學生如果同時使用太多不同風格的教科書，反而可能被不一致的解題思路搞糊涂。

更令人意外的是關于錯誤答案的發現。一般來說，我們會認為應該只讓模型學習正確的解題過程，就像老師只會給學生展示標準答案一樣。但研究團隊發現，這個原則需要根據題目難度來靈活應用。對于簡單題目，確實應該只學習正確答案，因為錯誤的解法會干擾模型對基礎概念的理解。但對于困難題目，適當包含一些錯誤的嘗試過程反而有助于模型學習，因為這些\"錯誤\"展示了不同的思考路徑，幫助模型更好地理解問題的復雜性和解決方案的邊界。

研究團隊還對比了不同\"老師\"模型的效果。他們發現，使用更強大的模型作為老師，就像請更有經驗的專家來指導學生，確實能帶來更好的學習效果。 DeepSeek-R1-0528作為老師時，學生模型的表現明顯優于使用QwQ-32B或DeepSeek-R1-0120作為老師的情況。這說明在知識傳遞過程中，老師的水平直接影響學生的學習質量。

三、突破傳統限制：梯度保持剪切策略的創新

在強化學習階段，研究團隊面臨一個關鍵挑戰。傳統的訓練方法在處理學習信號時存在一個根本問題：當模型的行為變化太大時，為了保持訓練穩定，系統會簡單地丟棄一些看似異常的學習信號。這就像一個過度保守的教練，只要運動員嘗試稍微冒險的動作就立即制止，結果限制了運動員的潛能發揮。

具體來說，傳統的PPO（近端策略優化）方法使用一種叫做\"剪切\"的機制來控制模型更新的幅度。當某些學習信號超出預設范圍時，系統就會將其完全忽略。這種做法雖然確保了訓練過程的穩定性，但也帶來了兩個嚴重問題。

第一個問題是高熵令牌的剪切。在推理過程中，有些關鍵決策點對應的令牌具有較高的不確定性，這些往往代表了模型的探索性行為。傳統剪切機制會無差別地丟棄這些信號，就像一個謹慎的老師不允許學生嘗試任何創新解法，只要求他們按照標準流程作答。這樣雖然避免了出錯，但也扼殺了創新思維的培養。

第二個問題是負樣本收斂延遲。當模型產生不夠好的結果時，如果這些結果與之前的行為差異太大，傳統方法會忽略這些負面反饋，導致模型無法及時從錯誤中學習。這就像學生犯錯后，老師因為錯誤太離譜而選擇忽視，結果學生不知道自己哪里做錯了，繼續重復同樣的錯誤。

為了解決這些問題，研究團隊提出了梯度保持剪切策略優化（GPPO）方法。這種方法的核心思想是：即使某些學習信號看起來異常，也不應該完全丟棄，而是要以一種溫和的方式將其納入學習過程。就像一位經驗豐富的導師，面對學生的異想天開或嚴重錯誤時，不是簡單地否定，而是從中提取有價值的信息來指導后續學習。

GPPO的工作原理可以這樣理解：當模型的某個行為變化超出正常范圍時，傳統方法會說\"這個信號我不要了\" ，而GPPO會說\"這個信號我要，但我會調整它的強度，讓它以合適的方式影響學習過程\" 。這樣既保持了訓練的穩定性，又充分利用了所有可用的學習信息。

四、因材施教：針對數學和編程的專門優化

在實際訓練過程中，研究團隊發現數學推理和編程解題雖然都需要邏輯思考，但它們的特點和難點卻很不相同，需要采用不同的訓練策略。

對于數學問題，團隊采用了二元獎勵機制，就像考試一樣非常明確：答對了就給正分，答錯了就給負分。但他們特別強調解題過程必須包含在特定的思考標簽內，這就好比要求學生不僅要給出答案，還要展示完整的解題步驟。這種要求確保模型不是在瞎猜答案，而是真正學會了推理過程。

編程問題的情況更加復雜。傳統的編程訓練通常也采用二元評價：代碼要么能通過所有測試用例，要么就是失敗。但這種方法存在一個嚴重問題：很多代碼可能只是在某些邊界情況下出錯，其主要邏輯都是正確的。如果簡單地將這些部分正確的代碼標記為失敗，就浪費了其中包含的有價值學習信息。

為了解決這個問題，研究團隊引入了\"軟獎勵\"機制。如果一段代碼通過了16個測試用例中的4個，它就會獲得0.25（4/16）的獎勵分數，而不是簡單的零分。這就像給學生的作業打分時，不是只看最終答案對錯，而是根據解題過程的正確程度給出相應分數。這種方法讓模型能夠從部分正確的嘗試中學習，逐步提高代碼質量。

在數據篩選方面，團隊也采用了不同策略。對于編程數據，他們會過濾掉那些測試用例明顯有問題的題目，因為錯誤的測試用例會給模型傳遞混亂的學習信號。對于數學數據，他們更注重內容的正確性和邏輯清晰度。

五、協同作用：監督學習與強化學習的完美結合

在強化學習過程中，研究團隊還發現了一個重要技巧：將監督學習的損失函數與強化學習的損失函數結合使用，效果比單純使用強化學習更好。這就好比在訓練運動員時，既要讓他們在實戰中積累經驗，也要定期回到基礎訓練上鞏固基本功。

具體做法是，在每次強化學習更新時，如果當前批次中包含正確的解答，就同時計算這些正確解答的監督學習損失，并將其與強化學習損失加權結合。研究團隊通過實驗發現，當監督學習損失的權重設為0.1時效果最佳。這個比例既能發揮強化學習的探索優勢，又能利用監督學習的穩定指導作用。

這種結合的好處是多方面的。首先，它提高了正面示例的利用效率，讓模型能夠更充分地學習正確的解題模式。其次，監督學習部分起到了\"錨點\"的作用，防止模型在強化學習過程中偏離正確方向。最后，這種方法有助于緩解\"獎勵黑客\"現象，即模型找到一些技巧性方法來獲得高獎勵，但實際上并沒有真正學會解題。

六、實驗驗證：全面而深入的性能分析

為了驗證GPPO方法的有效性，研究團隊進行了詳盡的對比實驗。他們將GPPO與傳統的剪切方法以及最近提出的CISPO方法進行了比較。實驗結果顯示， GPPO不僅在最終性能上更優秀，訓練過程也更加穩定。

在AIME2024數學競賽測試中， GPPO方法訓練的模型達到了82%左右的準確率，而傳統剪切方法只能達到76% 。在編程能力測試LiveCodeBench V5上， GPPO的優勢同樣明顯，達到了58%的通過率，比傳統方法高出約4個百分點。更重要的是， GPPO在整個訓練過程中保持了更穩定的梯度范數，說明其訓練過程更加可控和可靠。

研究團隊還測試了不同超參數設置的影響。他們發現，將監督學習損失的權重α設為0.1時效果最佳。當α為0（即不使用監督學習損失）時，模型性能明顯下降。但α過大（如0.2）時，性能也會下降，因為過強的監督信號會抑制模型的探索能力。

在編程領域的軟獎勵實驗中，結果同樣令人鼓舞。使用軟獎勵機制的模型在LiveCodeBench V5上達到了61.0%的成績，而使用傳統硬獎勵機制的模型只能達到59.2% 。雖然差距看起來不大，但在高難度編程競賽中，每1%的提升都代表著顯著的進步。

七、數據質量的深度探索：意外發現與重要啟示

在數據質量研究方面，團隊的發現顛覆了許多傳統認知。他們使用OpenR1-Math-220k數據集進行了細致的分析，將數據按難度分為簡單和困難兩類，然后分別測試使用純正確數據和混合數據（包含正確和錯誤解答）的訓練效果。

結果顯示了一個有趣的現象：對于簡單問題，使用純正確數據訓練的效果確實更好，這符合我們的直覺。比如在AIME 2024的簡單題目上，純正確數據訓練的模型準確率為45.00% ，而混合數據訓練的只有40.22% 。這就像教小學生加法時，應該只給標準的計算步驟，而不要混入錯誤的方法。

但對于困難問題，情況完全相反。混合數據訓練的模型在困難題目上的表現反而更好。在AIME 2024的困難題目上，混合數據訓練的模型達到了47.29%的準確率，而純正確數據訓練的只有45.63% 。這個現象的原理類似于免疫系統的工作方式：適當接觸一些\"病毒\"（錯誤解法）反而能增強免疫力（辨別能力）。

這一發現對AI訓練具有重要指導意義。它說明我們不應該一刀切地追求數據的\"純潔性\" ，而應該根據任務難度來決定數據篩選策略。對于復雜推理任務，適當包含一些錯誤示例可能反而有助于模型學習，因為這些錯誤展示了常見的思維誤區和陷阱，幫助模型建立更強的判斷能力。

八、架構優化與訓練細節：精工細作的技術實現

在具體的技術實現上，研究團隊展現了精工細作的態度。他們采用了多階段訓練策略，首先進行數學推理的強化學習，然后進行編程能力的強化學習。這種分階段的方法就像培養一個全才學生，先專攻數學打好邏輯基礎，再學習編程掌握實際應用能力。

在數學強化學習階段，他們使用了較小的批次大?。 ?6）和較高的學習率（1e-6），這樣的設置有助于模型快速適應數學推理的特點。而在編程強化學習階段，他們調整為更大的批次大?。 ?2）和更低的學習率（5e-7），這種調整反映了編程任務需要更穩定和細致的學習過程。

整個訓練過程都在32K的上下文長度下進行，這個長度足以容納復雜問題的完整推理過程。值得注意的是，即使在推理時使用64K的上下文長度，模型依然表現出色，說明訓練的泛化能力很強。

在數據預處理方面，團隊采用了嚴格的去重和過濾策略。他們使用9-gram重疊檢測來避免訓練數據與測試集的污染，確保評估結果的可靠性。這種嚴格的數據處理方式體現了科學研究的嚴謹態度。

九、性能突破與橫向對比：站上行業前沿

Klear-Reasoner的最終性能表現令人印象深刻。在32K推理預算下，它就已經達到了與其他使用64K或96K推理預算的頂級模型相當的性能水平。具體來說，在AIME2024上達到83.2% ， AIME2025上達到75.6% ， LiveCodeBench V5上達到61.6% ， LiveCodeBench V6上達到53.1% 。

當將推理預算擴展到64K時， Klear-Reasoner的性能進一步提升到了新的高度：AIME2024上90.5% ， AIME2025上83.2% ， HMMT2025上70.8% ， LiveCodeBench V5上66.0% ， LiveCodeBench V6上58.1% 。這些成績不僅在同規模模型中位居前列，甚至可以與一些更大規模的商業模型相媲美。

與同行的對比更是突出了這項研究的價值。 OpenReasoning-Nemotron-7B雖然使用了500萬個長鏈式思考樣本進行訓練，但Klear-Reasoner僅用150萬樣本就取得了更好的效果。這再次證明了\"質量勝過數量\"的原則，也展示了精心設計的訓練方法的重要性。

更值得關注的是， Klear-Reasoner展現出的強化學習效果超越了單純依靠大量數據的監督學習方法。這說明在AI推理能力的提升上，訓練方法的創新比簡單增加數據量更加重要。

十、技術創新的理論意義與實踐價值

GPPO方法的提出不僅僅是一個技術改進，更代表了對強化學習理論的深入思考。傳統的剪切機制雖然保證了訓練穩定性，但其\"一刀切\"的做法忽略了學習信號的復雜性和多樣性。 GPPO通過保留所有梯度信息但控制其影響強度，實現了穩定性和信息利用率的平衡。

從理論角度看， GPPO體現了\"pessimistic update\"（悲觀更新）的設計思想。當遇到可能過于樂觀的更新時，它會保持謹慎；而對于負面反饋，它會積極吸收。這種不對稱的處理方式符合學習的基本規律：對好消息保持理性，對壞消息積極反思。

從實踐角度看， GPPO為其他研究者提供了一個可行的改進方向。由于其實現相對簡單，理論基礎扎實，很容易在其他強化學習項目中應用。這種技術的開源分享精神也值得稱贊，有助于整個AI研究社區的進步。

在更廣泛的意義上，這項研究展示了如何通過精心設計的方法論來突破技術瓶頸。面對AI推理能力提升的挑戰，研究團隊沒有簡單地依賴更大的模型或更多的數據，而是深入分析問題本質，提出了針對性的解決方案。這種研究思路對整個AI領域都有重要的啟發意義。

說到底， Klear-Reasoner的成功不是偶然的。它體現了科學研究中理論創新與工程實踐的完美結合，展示了開放合作與嚴謹求證的研究態度，更重要的是證明了通過深入思考和精心設計，我們能夠讓AI在復雜推理任務上達到前所未有的高度。

這項研究的意義遠超其技術本身。它告訴我們，在AI發展的道路上，創新思維比簡單的資源堆砌更為重要。通過開源分享的方式，快手團隊不僅推動了自身技術的發展，也為整個AI研究社區貢獻了寶貴的知識財富。對于那些希望深入了解AI推理技術的讀者，可以通過項目的GitHub頁面獲取更多技術細節，這種開放的研究態度值得我們每個人學習和支持。

Q&A

Q1：Klear-Reasoner相比其他AI推理模型有什么獨特優勢？

A：Klear-Reasoner的最大優勢是完全公開了訓練細節，并提出了GPPO這種創新的訓練方法。它能在32K推理預算下達到其他模型需要64K才能達到的性能，在AIME數學競賽中獲得90.5%的高分。更重要的是，它證明了通過精選高質量數據和優化訓練方法，小規模模型也能達到頂級性能。

Q2：GPPO梯度保持剪切策略優化方法解決了什么問題？

A：GPPO解決了傳統強化學習訓練中的兩個關鍵問題：一是高熵令牌被過度剪切導致探索能力受限，二是負面樣本的學習信號被丟棄導致收斂緩慢。它不像傳統方法那樣簡單丟棄異常信號，而是以溫和的方式保留所有學習信息，既保證訓練穩定又充分利用了所有反饋。

Q3：為什么說質量勝過數量在AI訓練中很重要？

A：研究發現使用少量頂級數據源訓練的效果遠超大量混合數據源。就像學生用一兩本優秀教材深度學習比草草瀏覽十本普通教材效果更好。對于困難問題，適當包含錯誤示例反而有助于學習，因為這些\"錯誤\"展示了不同思維路徑，幫助模型建立更強的判斷能力。

快手團隊：Klear-Reasoner實現AI深度思考

推薦閱讀

湖南油炸米粉肉的做法

螃蟹和蝦不能和什么一起吃

青梅果什么時候上市

皮革婚是什么意思

闖紅燈扣不扣分

word繪制表格怎么劃線

夢見雪后太陽夢見雪后太陽出來了

李元芳簡介

自研國產海思麒麟簡介海思麒麟芯片是哪個國家的產品品牌

簽了！華為正式對外官宣，外媒：這相當于確認了

小米手機怎么用USB連接電腦上網

天鎮縣景點

銀川到西安客車電話是多少時間，請問銀川到西安的客車在哪個站發車每天幾點發車票多少錢

佳能打印機怎么連接wifi

西安二手車市場，西安的舊車交易市場在哪幾點開

開標原件怎么查,取消投標人原件核查