突破Claude-4編程上限！自進化Agent框架拿下新SOTA，已開源

2025-08-19 20:16 騰訊地圖

文章圖片

文章圖片

SE-Agent團隊投稿
【突破Claude-4編程上限！自進化Agent框架拿下新SOTA，已開源】量子位 | 公眾號 QbitAI
突破多步推理瓶頸，讓Claude-3.7-Sonnet解題成功率暴增20.6% 。
在SWE-Bench Verified上刷新開源框架SOTA！
中科院、清華大學、階躍星辰等提出SE-Agent ，一個創新的自進化（Self-Evolution）框架。
它不再滿足于簡單地“多想幾次” ，而是讓智能體學會系統性地修訂、重組與精煉其整個思考過程，通過多軌跡間的相互啟發與對抗，探索更廣闊、更多樣化的解決方案空間。
隨著Claude 4模型的發布， SE-Agent的性能被推向新的高度：在SWE-Bench Verify上，它取得了高達80%的Top-1 Resolution Rate ，再次刷新了領域紀錄。
這充分證明該框架可以隨著基礎模型升級而不斷進步。

核心思想：從“獨立嘗試”到“集體進化”大語言模型（LLM）驅動的智能體在處理復雜推理和工具使用方面展現了驚人的潛力，尤其是在軟件工程等需要多步驟交互的任務上。然而，現有方法（如蒙特卡洛樹搜索 MCTS）常常陷入困境：它們將每次的解決嘗試（即“軌跡”）視為獨立事件，忽視了不同解決方案路徑之間的內在聯系，導致思維固化，難以跳出局部最優解。
通俗來說，傳統智能體就像一群各自為戰的士兵，雖然人數眾多，但缺乏協同。 SE-Agent則引入了“進化”的視角，將每一次解決問題的完整路徑（軌跡）視為一個“物種” ，通過三大核心操作，讓這些“物種”在一個“生態系統”中迭代進化，優勝劣汰。

SE-Agent的三大進化算子：1、修訂（Revision）-深度自省與定向改進
生成初始多樣性：首先，通過多樣的規劃策略和可控的“突變” ，生成一個包含不同解題思路的初始軌跡池，確保進化的起點足夠豐富。
反思與修正：隨后，智能體對每一條初始軌跡進行“復盤” ，分析其優缺點、邏輯斷點和潛在的改進空間，然后進行有針對性的修正，消除邏輯不一致和冗余推理，完成個體的自我完善。
2、重組（Recombination）-跨軌跡的“雜交”與學習
這是SE-Agent最具創新性的部分。它不再將軌跡視為孤島，而是促進它們之間的“知識共享” 。
交叉融合（Crossover）：識別并提取不同軌跡中的高效片段（例如，一個軌跡擅長定位問題，另一個擅長編寫修復代碼），然后將這些“優勢基因”組合起來，創造出全新的、更強大的混合軌跡。
知識遷移（Transfer Learning）：將成功軌跡中的關鍵策略和洞見，系統性地“嫁接”到其他表現較差的軌跡上，實現“差生”向“優等生”的學習。
3、精煉（Refinement）-多維評估與優化選擇
在每一輪進化后， SE-Agent會通過一個多維度評估函數（綜合考量任務完成度、推理質量和效率）對所有新舊軌跡進行打分。
精英選擇：保留得分最高的“精英”軌跡，同時通過策略性選擇確保軌跡的多樣性，避免所有方案趨同。這個過程不斷迭代，直到找到能夠穩健解決問題的最優解。
在最具挑戰性的代碼基準上實現 SOTA研究團隊以SWE agent作為我們的Baseline ，在公認極具挑戰性的SWE-bench Verified基準（包含500個真實GitHub問題）上對SE-Agent進行了全面評測。結果顯示， SE-Agent在所有測試的LLM上都實現了顯著的性能提升。
開源模型表現（Pass@1）：
DeepSeek-V3：從31.6%提升至54.8%（+73%相對提升） Qwen-2.5-72B：從18.8%提升至38.8%（+106%相對提升） Llama-3.1-70B：從15.4%提升至32.6%（+112%相對提升）閉源模型表現（Pass@1）：
GPT-4o：從22.4%提升至40.4%（+80%相對提升） Claude-3.7-Sonnet：從40.6%提升至61.2%（+51%相對提升）
值得注意的是， SE-Agent在Claude-3.7-Sonnet上達到了61.2%的首次嘗試成功率，這創造了開源智能體框架在SWE-bench Verified上的最佳性能記錄。消融實驗進一步證明，修訂和重組兩大模塊對于框架的成功至關重要。
核心優勢與技術突破SE-Agent的成功源于對現有智能體范式的幾大核心突破：
1、真正的解決方案多樣性：不同于傳統方法僅在表面表達上有所不同， SE-Agent通過軌跡級干預，生成本質上不同的解決路徑，大幅擴展了候選解決方案空間。
2、跨軌跡協同智能：SE-Agent充分利用軌跡間的豐富相互依賴關系和潛在協同效應，實現了集體智慧的最大化，突破了單一智能體的認知局限。
3、高效進化收斂：相比傳統遺傳算法， SE-Agent通過結構化的進化機制，能在顯著更少的進化周期內實現高質量結果。
4、模型無關的即插即用：SE-Agent作為一個獨立的優化模塊，可與現有智能體框架無縫集成，在多種 LLM 上都展現出一致的、強大的性能提升。
案例研究：SE-Agent如何跳出思維定勢？在一個scikit-learn的真實Bug修復案例中，傳統智能體的問題顯露無遺。

傳統智能體（上圖）：所有嘗試都緊盯報錯信息出現的_validation.py文件，提出的修復方案幾乎是“換湯不換藥”的重復，始終無法觸及問題的根源，導致測試失敗。
SE-Agent（下圖）：通過軌跡的重組與進化， SE-Agent強迫自己探索了完全不同的方向。它跳出了最初報錯的文件，成功定位到根源在于multioutput.py文件缺少了一個關鍵字段的寫入。最終，通過一行代碼的根本性修復，完美通過了所有測試。
這個案例生動地說明了SE-Agent如何通過在軌跡層面進行演化，有效避免了“隧道視野” ，從而發現那些隱藏更深、也更為關鍵的解決方案。
結論與技術影響SE-Agent的提出，為提升LLM智能體的復雜推理能力提供了一個全新的、高效的范式。其重要影響在于：
1、開創了軌跡級優化范式：從傳統的參數調整轉向系統性的推理路徑操作，為智能體能力提升提供了新的理論基礎。
2、驗證了集體智慧機制：證明了通過跨軌跡學習實現智能體群體智慧的有機融合，是突破單一智能體認知瓶頸的有效途徑。
3、構建了自進化智能系統：為實現能夠持續自我改進的智能體系統鋪平了道路。
展望未來，研究團隊計劃將SE-Agent的自進化思想擴展到更廣泛的路徑搜索問題中，例如強化學習策略發現、具身智能規劃等，為通往更強大、更魯棒的通用人工智能持續貢獻力量。
本論文團隊還創立了學術組織QuantaAlpha ，成員來自北大、中科院、CMU等，旨在探索智能和引領前沿。我們將在CodeAgent、AgentRL等方向持續產出高質量的研究。主頁：https://quantaalpha.github.io
論文標題： SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents論文鏈接： https://arxiv.org/pdf/2508.02085開源代碼： https://github.com/JARVIS-Xs/SE-Agent
— 完 —
量子位 QbitAI · 頭條號
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：榮耀徹底“攤牌了”，從5699元跌至2989元，進入清倉倒計時

下一篇：曾被萬人嫌的“靈動島”，怎么成了安卓系統必升功能？