突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源

突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源

文章圖片

突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源

文章圖片


SE-Agent團隊 投稿
【突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源】量子位 | 公眾號 QbitAI
突破多步推理瓶頸 , 讓Claude-3.7-Sonnet解題成功率暴增20.6% 。
在SWE-Bench Verified上刷新開源框架SOTA!
中科院、清華大學、階躍星辰等提出SE-Agent , 一個創新的自進化(Self-Evolution)框架 。
它不再滿足于簡單地“多想幾次” , 而是讓智能體學會系統性地修訂、重組與精煉其整個思考過程 , 通過多軌跡間的相互啟發與對抗 , 探索更廣闊、更多樣化的解決方案空間 。
隨著Claude 4模型的發布 , SE-Agent的性能被推向新的高度:在SWE-Bench Verify上 , 它取得了高達80%的Top-1 Resolution Rate , 再次刷新了領域紀錄 。
這充分證明該框架可以隨著基礎模型升級而不斷進步 。

核心思想:從“獨立嘗試”到“集體進化”大語言模型(LLM)驅動的智能體在處理復雜推理和工具使用方面展現了驚人的潛力 , 尤其是在軟件工程等需要多步驟交互的任務上 。 然而 , 現有方法(如蒙特卡洛樹搜索 MCTS)常常陷入困境:它們將每次的解決嘗試(即“軌跡”)視為獨立事件 , 忽視了不同解決方案路徑之間的內在聯系 , 導致思維固化 , 難以跳出局部最優解 。
通俗來說 , 傳統智能體就像一群各自為戰的士兵 , 雖然人數眾多 , 但缺乏協同 。 SE-Agent則引入了“進化”的視角 , 將每一次解決問題的完整路徑(軌跡)視為一個“物種” , 通過三大核心操作 , 讓這些“物種”在一個“生態系統”中迭代進化 , 優勝劣汰 。

SE-Agent的三大進化算子:1、修訂(Revision)-深度自省與定向改進
生成初始多樣性:首先 , 通過多樣的規劃策略和可控的“突變” , 生成一個包含不同解題思路的初始軌跡池 , 確保進化的起點足夠豐富 。
反思與修正:隨后 , 智能體對每一條初始軌跡進行“復盤” , 分析其優缺點、邏輯斷點和潛在的改進空間 , 然后進行有針對性的修正 , 消除邏輯不一致和冗余推理 , 完成個體的自我完善 。
2、重組(Recombination)-跨軌跡的“雜交”與學習
這是SE-Agent最具創新性的部分 。 它不再將軌跡視為孤島 , 而是促進它們之間的“知識共享” 。
交叉融合(Crossover):識別并提取不同軌跡中的高效片段(例如 , 一個軌跡擅長定位問題 , 另一個擅長編寫修復代碼) , 然后將這些“優勢基因”組合起來 , 創造出全新的、更強大的混合軌跡 。
知識遷移(Transfer Learning):將成功軌跡中的關鍵策略和洞見 , 系統性地“嫁接”到其他表現較差的軌跡上 , 實現“差生”向“優等生”的學習 。
3、精煉(Refinement)-多維評估與優化選擇
在每一輪進化后 , SE-Agent會通過一個多維度評估函數(綜合考量任務完成度、推理質量和效率)對所有新舊軌跡進行打分 。
精英選擇:保留得分最高的“精英”軌跡 , 同時通過策略性選擇確保軌跡的多樣性 , 避免所有方案趨同 。 這個過程不斷迭代 , 直到找到能夠穩健解決問題的最優解 。
在最具挑戰性的代碼基準上實現 SOTA研究團隊以SWE agent作為我們的Baseline , 在公認極具挑戰性的SWE-bench Verified基準(包含500個真實GitHub問題)上對SE-Agent進行了全面評測 。 結果顯示 , SE-Agent在所有測試的LLM上都實現了顯著的性能提升 。
開源模型表現(Pass@1):
DeepSeek-V3:從31.6%提升至54.8%(+73%相對提升) Qwen-2.5-72B:從18.8%提升至38.8%(+106%相對提升) Llama-3.1-70B:從15.4%提升至32.6%(+112%相對提升)閉源模型表現(Pass@1):
GPT-4o:從22.4%提升至40.4%(+80%相對提升) Claude-3.7-Sonnet:從40.6%提升至61.2%(+51%相對提升)
值得注意的是 , SE-Agent在Claude-3.7-Sonnet上達到了61.2%的首次嘗試成功率 , 這創造了開源智能體框架在SWE-bench Verified上的最佳性能記錄 。 消融實驗進一步證明 , 修訂和重組兩大模塊對于框架的成功至關重要 。
核心優勢與技術突破SE-Agent的成功源于對現有智能體范式的幾大核心突破:
1、真正的解決方案多樣性:不同于傳統方法僅在表面表達上有所不同 , SE-Agent通過軌跡級干預 , 生成本質上不同的解決路徑 , 大幅擴展了候選解決方案空間 。
2、跨軌跡協同智能:SE-Agent充分利用軌跡間的豐富相互依賴關系和潛在協同效應 , 實現了集體智慧的最大化 , 突破了單一智能體的認知局限 。
3、高效進化收斂:相比傳統遺傳算法 , SE-Agent通過結構化的進化機制 , 能在顯著更少的進化周期內實現高質量結果 。
4、模型無關的即插即用:SE-Agent作為一個獨立的優化模塊 , 可與現有智能體框架無縫集成 , 在多種 LLM 上都展現出一致的、強大的性能提升 。
案例研究:SE-Agent如何跳出思維定勢?在一個scikit-learn的真實Bug修復案例中 , 傳統智能體的問題顯露無遺 。

傳統智能體(上圖):所有嘗試都緊盯報錯信息出現的_validation.py文件 , 提出的修復方案幾乎是“換湯不換藥”的重復 , 始終無法觸及問題的根源 , 導致測試失敗 。
SE-Agent(下圖):通過軌跡的重組與進化 , SE-Agent強迫自己探索了完全不同的方向 。 它跳出了最初報錯的文件 , 成功定位到根源在于multioutput.py文件缺少了一個關鍵字段的寫入 。 最終 , 通過一行代碼的根本性修復 , 完美通過了所有測試 。
這個案例生動地說明了SE-Agent如何通過在軌跡層面進行演化 , 有效避免了“隧道視野” , 從而發現那些隱藏更深、也更為關鍵的解決方案 。
結論與技術影響SE-Agent的提出 , 為提升LLM智能體的復雜推理能力提供了一個全新的、高效的范式 。 其重要影響在于:
1、開創了軌跡級優化范式:從傳統的參數調整轉向系統性的推理路徑操作 , 為智能體能力提升提供了新的理論基礎 。
2、驗證了集體智慧機制:證明了通過跨軌跡學習實現智能體群體智慧的有機融合 , 是突破單一智能體認知瓶頸的有效途徑 。
3、構建了自進化智能系統:為實現能夠持續自我改進的智能體系統鋪平了道路 。
展望未來 , 研究團隊計劃將SE-Agent的自進化思想擴展到更廣泛的路徑搜索問題中 , 例如強化學習策略發現、具身智能規劃等 , 為通往更強大、更魯棒的通用人工智能持續貢獻力量 。
本論文團隊還創立了學術組織QuantaAlpha , 成員來自北大、中科院、CMU等 , 旨在探索智能和引領前沿 。 我們將在CodeAgent、AgentRL等方向持續產出高質量的研究 。 主頁:https://quantaalpha.github.io
論文標題: SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents論文鏈接: https://arxiv.org/pdf/2508.02085開源代碼: https://github.com/JARVIS-Xs/SE-Agent
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀