GLM-5架構曝光,智譜兩日漲近60%:采用DeepSeek同款稀疏注意力

GLM-5架構曝光,智譜兩日漲近60%:采用DeepSeek同款稀疏注意力

文章圖片

GLM-5架構曝光,智譜兩日漲近60%:采用DeepSeek同款稀疏注意力

文章圖片

GLM-5架構曝光,智譜兩日漲近60%:采用DeepSeek同款稀疏注意力

文章圖片

GLM-5架構曝光,智譜兩日漲近60%:采用DeepSeek同款稀疏注意力

文章圖片

GLM-5架構曝光,智譜兩日漲近60%:采用DeepSeek同款稀疏注意力

文章圖片


夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
不管Pony Alpha是不是智譜的 , 下一代旗艦大模型GLM-5都要來了 。
GitHub代碼確認 , 新一代架構細節曝光 。

GLM-5采用了DeepSeek-V3/V3.2架構 , 包括稀疏注意力機制(DSA)和多Token預測(MTP) , 總參數量745B , 是上一代GLM-4.7的2倍 。

與此同時 , OpenRouter平臺上突然出現的神秘匿名模型「Pony Alpha」 , 編程和推理能力極為強勁 , 被社區91%以上的用戶判斷為GLM-5測試版 。
受這些消息影響 , 智譜AI港股兩日暴漲60% 。

開源代碼泄露參數架構GLM-5的架構信息并非來自智譜官方 , 而是被開源社區從代碼提交中“挖”出來的 。
在vLLM推理框架的PR中 , 開發者發現GLM-5的實現邏輯被直接映射到了DeepSeek-V3的組件上 。

GLM-5繼承的第一項核心技術是DeepSeek稀疏注意力(DeepSeek Sparse Attention , DSA) 。
DSA通過兩階段流程做到長文本處理效率大幅提升 , 輸出質量幾乎不受影響 。
首先由Lightning Indexer輕量級組件快速掃描所有歷史token并打分 , 評估它們與當前query token的相關性;然后只挑選得分最高的Top-k個token進行完整的注意力計算 , 其余全部跳過 。
第二項技術是多Token預測(Multi-Token Prediction , MTP) , 用于提升模型的生成效率 。
從代碼中推斷出的架構參數看 , GLM-5包含78層隱藏層 , 采用MoE(混合專家)架構 , 共256個專家 , 每次推理激活8個 , 激活參數約44B , 稀疏度5.9% , 與DeepSeek-V3.2的5.4%基本持平 。
上下文窗口支持最高202K token 。

有開發者指出 , 復用DeepSeek架構意味著GLM-5可以直接受益于vLLM、SGLang等推理框架已有的優化 , 部署門檻會更低 。
但也有人提出疑問:DeepSeek-V3架構以純文本為主 , GLM-5首發版本是否會因此缺失多模態能力?

匿名測試與春節檔大混戰2月初 , OpenRouter平臺上新匿名免費模型 , 代號「Pony Alpha」 , 支持200K上下文窗口 。

模型一上線就引起了開發者社區的廣泛關注 , 它的編程能力非常突出 , 能根據單條提示直接生成完整的功能性應用程序 , 在復雜推理和Agent工作流上同樣表現出色 。
“這到底是誰家的模型”迅速成為社區熱議話題 。

指向GLM-5的證據鏈覆蓋了多個維度:
時間上 , 「Pony Alpha」出現的節點與智譜首席科學家唐杰多次暗示的GLM-5發布窗口完全吻合 。

有開發者測試發現該模型對特定token的反應和GLM系列一致 。
風格上 , 它的輸出排版習慣也與GLM系列高度一致 。

GLM-5的發布窗口 , 恰好撞上了一個異常擁擠的檔期 。
唐杰在內部信中已明確預告GLM-5即將發布 , 多方信息指向2026年2月中旬 , 即春節前后 。
【GLM-5架構曝光,智譜兩日漲近60%:采用DeepSeek同款稀疏注意力】而在同一時間段 , DeepSeek新模型、Qwen 3.5、MiniMax M2.2等模型也都有消息將發布更新 。
2026年的“春節檔” , AI比電影那邊還熱鬧 。
參考鏈接:[1
https://github.com/vllm-project/vllm/pull/34124[2
https://x.com/chetaslua/status/2020832197771714943

    推薦閱讀