Z.ai發布GLM-5.1編程模型，可連續運行數小時自主作業

2026-04-28 ai 人工智能 openai 軟件工程編程

中國AI公司Z.ai近日推出GLM-5.1 ，這是一款專為智能體軟件工程場景設計的開源編程模型。此次發布正值AI廠商紛紛從自動補全式編程工具轉型，轉而構建能夠長時間、低人工干預下處理軟件任務的智能系統。

Z.ai表示， GLM-5.1能夠在數百次迭代過程中保持穩定性能，這一能力是其區別于其他在長時任務中性能下滑模型的核心競爭力。
以向量數據庫優化任務為例， GLM-5.1經過超過600次迭代、6000次工具調用，最終將查詢速度提升至每秒21500次，約為單次50輪會話最佳結果的六倍。
在一份研究報告中， Z.ai指出GLM-5.1在多項軟件工程基準測試上超越了其前代產品GLM-5 ，在代碼倉庫生成、終端問題求解和反復代碼優化等方面表現尤為突出。該公司表示， GLM-5.1在SWE-Bench Pro基準測試中得分為58.4 ，而GLM-5為55.1 ，同時也高于OpenAI GPT-5.4、Anthropic Opus 4.6以及谷歌Gemini 3.1 Pro在該基準上的得分。
GLM-5.1已在MIT許可證下開源發布，可通過Z.ai的開發者平臺獲取，模型權重也已公開，支持本地部署。這對那些希望在部署AI工具時掌握更多控制權的企業而言具有較大吸引力。
Z.ai表示，與在長時會話中性能逐漸下降的模型相比，長時運行下的穩定表現是其核心差異化優勢。
業內分析人士指出，目前許多模型在經過相對較少的對話輪次后仍會出現性能停滯或偏移，這限制了其在復雜多步驟軟件任務中的實用價值。
Pareekh Consulting首席執行官Pareekh Jain表示，行業正在從能夠回答提示詞的工具，轉向能夠在較少人工監督下完成更長期任務的系統。他認為，問題已不再是\"我能問AI什么\" ，而是\"我能讓它在未來八小時內完成什么任務\" 。
對于企業而言，這意味著未來或許可以在早上將一個工單交給智能體，經過數百次實驗和代碼性能分析后，在當天結束時收到經過優化的解決方案。
Forrester副總裁兼首席分析師Charlie Dai表示：\"這一能力契合了大規模代碼重構、系統遷移項目和持續故障處理等真實需求，表明長時運行的自主智能體正逐漸走向實用，前提是企業需要在治理、監控和升級機制上做好配套，以有效管控風險。 \"
GLM-5.1采用MIT許可證發布，對于受監管行業或對安全敏感的企業而言具有重要意義。
Jain認為這體現在四個關鍵維度：第一是成本，其定價遠低于高端商業模型，自托管部署也讓企業可以管控費用，而非按使用量付費；第二是數據治理，敏感代碼和數據無需發送至外部API ，這在金融、醫療和國防等行業至關重要；第三是可定制性，企業可以根據自身代碼庫和內部工具對模型進行定制，不受任何限制。
第四個因素， Jain指出，是地緣政治風險。盡管該模型是開源的，但其與中國基礎設施及相關實體的關聯仍可能引發部分美國企業的合規顧慮。
Dai表示， MIT許可證讓企業更便于在自有系統上部署運行該模型，并根據內部需求和治理政策進行調整。他認為：\"對于許多買家而言， GLM-5.1在商業模型之外提供了一個可行的戰略選項，尤其是在監管約束、知識產權敏感性或長期平臺控制最為重要的場景下。 \"
Z.ai在評測中引用了三項基準測試：SWE-Bench Pro（測試復雜軟件工程任務）、NL2Repo（評估代碼倉庫生成能力）以及Terminal-Bench 2.0（評估真實終端環境中的問題解決能力）。
Omdia首席分析師Lian Jye Su表示：\"這些基準測試專為考察編程智能體的高級編程能力而設計，在這些測試中名列前茅，反映了強勁的編程性能表現，例如從規劃到執行的可靠性、更少的提示詞反復調整以及更快的交付速度。然而，這些測試與典型的企業現實環境仍存在一定距離。 \"
Su指出，公開基準測試仍無法還原專有代碼庫、遺留系統和代碼審查流程的復雜現狀。他補充道，基準測試結果來自受控環境，與生產環境存在差距，不過隨著越來越多的團隊引入智能體架構，這一差距正在逐步縮小。
Q&A
Q1：GLM-5.1與其他編程模型相比，最大的優勢是什么？
A：GLM-5.1的核心優勢在于長時運行下的穩定性能。許多現有模型在較少輪次后性能就會下滑，而GLM-5.1可以在數百次迭代中持續運行，例如在向量數據庫優化任務中，經過超過600次迭代后仍能持續提升，最終查詢速度約是單次50輪會話最佳結果的六倍。
Q2：GLM-5.1開源對企業有什么實際意義？
【Z.ai發布GLM-5.1編程模型，可連續運行數小時自主作業】A：GLM-5.1采用MIT許可證開源，企業可以本地部署，主要帶來四方面好處：降低成本（無需按調用量付費）、保障數據安全（敏感代碼無需上傳外部API）、支持自定義（可根據內部代碼庫靈活調整），以及一定程度規避云端依賴風險。對金融、醫療等監管嚴格的行業尤其適用。
Q3：GLM-5.1在基準測試中的表現如何？這些成績能代表真實能力嗎？
A：GLM-5.1在SWE-Bench Pro上得分58.4 ，高于前代GLM-5的55.1 ，也超過了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的得分。不過分析師指出，這些基準測試基于受控環境，尚無法完全反映企業真實場景中的遺留系統、專有代碼庫等復雜情況，實際落地效果仍需結合具體業務驗證。

推薦閱讀

上一篇：傳英偉達擬收購戴爾or惠普！

下一篇：高質量、低成本、廣覆蓋難以兼得？中國醫療的AI新路