野生DeepSeek火了,速度碾壓官方版,權重開源

野生DeepSeek火了,速度碾壓官方版,權重開源

文章圖片

野生DeepSeek火了,速度碾壓官方版,權重開源

文章圖片

野生DeepSeek火了,速度碾壓官方版,權重開源

文章圖片

野生DeepSeek火了,速度碾壓官方版,權重開源

文章圖片

機器之心報道
編輯:杜偉、澤南
沒等來 DeepSeek 官方的 R2 , 卻迎來了一個速度更快、性能不弱于 R1 的「野生」變體!
這兩天 , 一個名為「DeepSeek R1T2」的模型火了!

這個模型的速度比 R1-0528 快 200% , 比 R1 快 20% 。 除了速度上的顯著優勢 , 它在 GPQA Diamond(專家級推理能力問答基準)和 AIME 24(數學推理基準)上的表現均優于 R1 , 但未達到 R1-0528 的水平 。
在技術層面 , 采用了專家組合(Assembly of Experts , AoE)技術開發 , 并融合了 DeepSeek 官方的 V3、R1 和 R1-0528 三大模型 。
當然 , 這個模型也是開源的 , 遵循 MIT 協議 , 并在 Hugging Face 上開放了權重 。

Hugging Face 地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
經過進一步了解 , 我們發現:DeepSeek R1T2 是德國一家 AI 咨詢公司「TNG」推出的 , 模型全稱為「DeepSeek-TNG R1T2 Chimera」(以下簡稱 R1T2) 。
該模型除了前文提到的在智力水平和輸出效率之間實現完美平衡之外 , 相較于這家公司的初代模型「R1T Chimera」 , 智力大幅躍升 , 并實現了突破性的 think-token 一致性 。
不僅如此 , 即使在沒有任何系統提示的情況下 , 該模型也能表現穩定 , 提供自然的對話交互體驗 。

在評論區 , 有人誤以為這個模型出自 DeepSeek 官方 , 并且認為他們是不是也在走相同的路線:給模型起各種名稱 , 就是不用主系列下一代版本號?

更多的人認可該模型「找到了智能與輸出 token 長度之間的最佳平衡點 , 并且提升了速度」 , 并對該模型在現實世界的表現充滿了期待 。


模型細節概覽
從 Hugging Face 主頁來看 , R1T2 是一個基于 DeepSeek R1-0528、R1 以及 V3-0324 模型構建的 AoE Chimera 模型 。
該模型是一個采用 DeepSeek-MoE Transformer 架構的大語言模型 , 參數規模為 671B 。
R1T2 是該公司 4 月 26 日發布的初代模型「R1T Chimera」的首個迭代版本 。 相較于利用雙基模型(V3-0324 + R1)的初代架構 , 本次升級到了三心智(Tri-Mind)融合架構 , 新增基模型 R1-0528 。
該模型采用 AoE 技術構建 , 過程中利用較高精度的直接腦區編輯(direct brain edits)實現 。 這種精密融合不僅帶來全方位提升 , 更徹底解決了初代 R1T 的 <think>token 一致性缺陷 。

團隊表示 , R1T2 對比其他模型具備如下優劣:

  • 與 DeepSeek R1 對比:R1T2 有望成為 R1 的理想替代品 , 兩者幾乎可以通用 , 并且 R1T2 性能更佳 , 可直接替換 。
  • 與 R1-0528 對比:如果不需要達到 0528 級別的最高智能 , R1T2 相比之下更加經濟 。
  • 與 R1T 對比:通常更建議使用 R1T2 , 除非 R1T 的特定人格是最佳選擇、思考 token 問題不重要 , 或者極度需求速度 。
  • 與 DeepSeek V3-0324 對比:V3 速度更快 , 如果不太關注智能可以選擇 V3;但是 , 如果需要推理能力 , R1T2 是首選 。
此外 , R1T2 的幾點局限性表現在:
  • R1-0528 雖推理耗時更長 , 但在高難度基準測試中仍優于 R1T2;
  • 經 SpeechMap.ai(由 xlr8harder 提供)測評 , R1T2 應答克制度(reserved)顯著高于 R1T , 但低于 R1-0528;
  • 暫不支持函數調用:受 R1 基模型影響 , 現階段不推薦函數調用密集型場景(后續版本可能修復);
  • 基準測試變更說明:開發版由 AIME24+MT-Bench 變更為 AIME24/25+GPQA-Diamond 測評體系 , 新體系下 R1 與初代 R1T 的分差較早期公布數據更大 。
最后 , 關于 R1T2 中重要的 AoE 技術 , 可以參考以下論文 。

  • 論文標題:Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors
  • 論文地址:https://arxiv.org/pdf/2506.14794
【野生DeepSeek火了,速度碾壓官方版,權重開源】參考鏈接:https://x.com/tngtech/status/1940531045432283412

    推薦閱讀