GLM-5架構曝光，智譜兩日漲近60%：采用DeepSeek同款稀疏注意力

2026-04-05 物聯網松江移遠通信

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

夢晨發自凹非寺量子位 | 公眾號 QbitAI
不管Pony Alpha是不是智譜的，下一代旗艦大模型GLM-5都要來了。
GitHub代碼確認，新一代架構細節曝光。

GLM-5采用了DeepSeek-V3/V3.2架構，包括稀疏注意力機制（DSA）和多Token預測（MTP），總參數量745B ，是上一代GLM-4.7的2倍。

與此同時， OpenRouter平臺上突然出現的神秘匿名模型「Pony Alpha」，編程和推理能力極為強勁，被社區91%以上的用戶判斷為GLM-5測試版。
受這些消息影響，智譜AI港股兩日暴漲60% 。

開源代碼泄露參數架構GLM-5的架構信息并非來自智譜官方，而是被開源社區從代碼提交中“挖”出來的。
在vLLM推理框架的PR中，開發者發現GLM-5的實現邏輯被直接映射到了DeepSeek-V3的組件上。

GLM-5繼承的第一項核心技術是DeepSeek稀疏注意力（DeepSeek Sparse Attention ， DSA）。
DSA通過兩階段流程做到長文本處理效率大幅提升，輸出質量幾乎不受影響。
首先由Lightning Indexer輕量級組件快速掃描所有歷史token并打分，評估它們與當前query token的相關性；然后只挑選得分最高的Top-k個token進行完整的注意力計算，其余全部跳過。
第二項技術是多Token預測（Multi-Token Prediction ， MTP），用于提升模型的生成效率。
從代碼中推斷出的架構參數看， GLM-5包含78層隱藏層，采用MoE（混合專家）架構，共256個專家，每次推理激活8個，激活參數約44B ，稀疏度5.9% ，與DeepSeek-V3.2的5.4%基本持平。
上下文窗口支持最高202K token 。

有開發者指出，復用DeepSeek架構意味著GLM-5可以直接受益于vLLM、SGLang等推理框架已有的優化，部署門檻會更低。
但也有人提出疑問：DeepSeek-V3架構以純文本為主， GLM-5首發版本是否會因此缺失多模態能力？

匿名測試與春節檔大混戰2月初， OpenRouter平臺上新匿名免費模型，代號「Pony Alpha」，支持200K上下文窗口。

模型一上線就引起了開發者社區的廣泛關注，它的編程能力非常突出，能根據單條提示直接生成完整的功能性應用程序，在復雜推理和Agent工作流上同樣表現出色。
“這到底是誰家的模型”迅速成為社區熱議話題。

指向GLM-5的證據鏈覆蓋了多個維度：
時間上，「Pony Alpha」出現的節點與智譜首席科學家唐杰多次暗示的GLM-5發布窗口完全吻合。

有開發者測試發現該模型對特定token的反應和GLM系列一致。
風格上，它的輸出排版習慣也與GLM系列高度一致。

GLM-5的發布窗口，恰好撞上了一個異常擁擠的檔期。
唐杰在內部信中已明確預告GLM-5即將發布，多方信息指向2026年2月中旬，即春節前后。
【GLM-5架構曝光，智譜兩日漲近60%：采用DeepSeek同款稀疏注意力】而在同一時間段， DeepSeek新模型、Qwen 3.5、MiniMax M2.2等模型也都有消息將發布更新。
2026年的“春節檔” ， AI比電影那邊還熱鬧。
參考鏈接：[1
https://github.com/vllm-project/vllm/pull/34124[2
https://x.com/chetaslua/status/2020832197771714943

推薦閱讀

上一篇：從黑客松到GTM：一群年輕人把產品推向市場的 72 小時

下一篇：硅谷豪賭算力燒到停電，中國團隊反向出擊！直接砍碎Scaling Law