離GPT-5最近的一次！中國1萬億參數開源巨獸突然爆火

2026-04-21 數學 gpt5

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：傾傾桃子
【新智元導讀】Kimi K2 Thinking重磅開源， 1萬億「思考Agent模型」在推理、智能體基準上干翻GPT-5 。關鍵，還能連調300次工具，直出3D模擬。
昨天，月之暗面發布全新模型Kimi K2 Thinking ，一上線就擠爆了服務器。
思考，是它的核心賣點，自稱是開源的「思考Agent模型」。

它同樣采用了MoE架構，總參數約1萬億，每次激活約320億，上下文256K token 。
在各大基準測試中， Kimi K2 Thinking性能表現亮眼。
尤其是，在BrowseComp、HLE測試中，實力完全碾壓GPT-5、Claude Sonnet 4.5 。

在Tau2 Bench Telecom基準測試中， K2 Thinking位列第一。

最關鍵的是，在無人干預情況下， K2 Thinking可連續調用200-300次工具。
國外研究者Nathan Lambert 稱它為：「開源模型距閉源前沿最近的一次。」
這句話在技術圈廣為流傳，人們也開始重新審視這款模型。

不只是聊天工具， K2 Thinking更像是一個會自己推理、自己動手的智能體。

一款真正會思考的模型

Kimi K2 Thinking沒有強調算力更大，而是強調更會「思考」。
這些配置讓它在處理長文本、復雜任務時能維持更穩定的推理過程。
蘋果大牛Awni Hannun測試后驚嘆道：
1萬億參數，只用2臺M3 Ultra芯片的Mac電腦即可流暢運行，而且int4壓縮后性能幾乎無損。

通過mlx-lm并行技術，它生成了大約3500個token ，速度每秒15個token 。

但真正讓人關注的，是它的「思考能力」。
如前所述， K2 Thinking可以在一次任務中連續執行200到300次工具調用，全程無需人工干預。
有網友實測「工具調用」，立即制作出如下的數學和物理講解動畫。

不同于其他模型的胡編亂造，它在面對復雜問題時，會自己拆解步驟、搜索信息、調用外部工具、再整合結果。
團隊把這種機制稱為「交替思考」——模型在「思考」和「執行」之間循環往復，讓推理更連貫。
K2 Thinking在性能上的表現也很亮眼。
在Humanity’s Last Exam（HLE）和 BrowseComp（網頁搜索綜合能力）任務上，成績已經接近甚至超過GPT-5和Claude Sonnet 4.5 。

Kimi K2 Thinking與GPT-5、Claude Sonnet 4.5在多項基準測試中的表現
除了推理表現，它在工程落地上也做了不少優化。
K2使用量化感知訓練（QAT）對MoE模塊進行INT4權重量化，在保證性能的同時，將生成速度提升了約兩倍。
除了推理和搜索任務， K2 Thinking在編碼、工具使用、數學推理等更細分的測試中表現也很突出。
在SWE-bench、LiveCodeBench、GPQA-Diamond等任務上，它的成績已經超過DeepSeek、GPT-4 Turbo等多個主流模型，顯示出更強的「執行力」。

Kimi K2 Thinking在多項編程與數學任務中的表現對比
這意味著， K2 Thinking的測試成績就是它在真實環境下的表現，而非理想化打分。
它目前已經在kimi.com上線，并開源API和模型權重，開發者可以直接試用。
從實驗室到真實場景，這個模型的「思考能力」明顯超過了現有的其他模型。

智能體編碼一流， 300次工具調用

這一次，月之暗面沒再讓模型停留在論文里。
K2 Thinking不是展示品，而是一臺真正能被人用起來的智能體。
發布當天，團隊同步上線了 kimi.com聊天模式、開放了API 接口，還在Hugging Face公布了完整權重。

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source
開發者不需要等待內測邀請，也不用注冊繁瑣流程，任何人都能直接使用。
K2 Thinking的從訓練開始，到優化，再到上線，周期不到半年。
在這個動輒以年為單位更新的大模型時代，這個速度意味著它已具備完整的工程化能力。
打開kimi.com ，就能直接體驗到K2 Thinking的思考過程。
與一般聊天模型不同，它在生成答案前，會清晰地展示自己的推理鏈。

此外，研究人員特別提到， K2 Thinking在軟件和編碼任務上進步顯著。
它在 SWE-Multilingual測試中得分61.1%，在SWE-Bench Verified測試中得分71.3% ，在Terminal-Bench測試中得分47.1% 。
這無疑證明了，該模型在HTML、React等方面的任務上有了很明顯的進步。

寫代碼前，先寫計劃

當用戶輸入「分析我發給你的CSV文件，并生成圖表來支持你的分析」時， K2不會直接輸出代碼。
他會先列出自己的行動方案：首先，加載數據集，接下來，篩選數據集，然后，分析內容，調用繪圖庫，最終生成結果。

有了行動方案，它才會逐步生成代碼，執行、驗證、修正。
如果出錯，它會提示「正在重新規劃」，然后自動嘗試新方案。整個過程，都能在屏幕上看到。

最終，我們能得到K2生成的數據分析圖表。
【離GPT-5最近的一次！中國1萬億參數開源巨獸突然爆火】

僅僅調用14次python ，就能生成這樣完美的可視化圖表、準確的統計數據以及包含詳細分析的交互網頁。

私人定制行程：比管家還靠譜

你是否想過擁有一個完美管家？那K2可以滿足你的需求。
你只要提出你的需求，比如「我的預算是1000美元，給我規劃我的演唱會之旅」。
輸入之后， K2就會像一位盡職盡責的管家，詢問你的喜好、目的、工作安排，甚至查閱你的谷歌郵件。

之后，他開始搜索，查機票、看演唱會場次，甚至會考慮到演唱會附近的餐廳。簡直比管家還貼心！

最后，結合各方數據，交出最適合你的演唱會計劃。
而做到這些，僅僅調用了17次工具！很難想象如果親自做計劃，要耗時多久。

一針見血的數學講解員

除了長段的提示詞，短短幾句話， K2 Thinking也能完美運行。
比如，對它說「解釋二維梯度下降」。
它就能調用工具，以最直觀、形象的方式向你作出解釋：
藍色的等高線越靠近中心，函數值越?。換粕穆肪妒怯嘔惴ù悠鸕愕階鈑諾愕南陸倒旒＃緩焐〖繁硎咎荻齲?f）的方向；黃色點表示當前的模型參數位置，它沿著梯度的反方向移動。

配合上動圖，一目了然。

觸手可及的「細胞戰」

不僅僅是數學， K2 Thinking甚至進軍生物學領域！
你只要輸入「做一個可以調節免疫參數的病毒模擬程序」，就可以得到一個可交互的病毒仿真系統。

紅藍兩種粒子在屏幕上相互追逐、碰撞、吞噬。拖動滑塊，就能調整病毒復制率、免疫細胞數量。
對于Kimi K2 Thinking真實表現，你怎么看？
參考資料：
https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means
https://x.com/Kimi_Moonshot/status/1986449512538513505

推薦閱讀

上一篇：從高空到近身，大疆DJI Neo 2又成現象級爆品！

下一篇：戴爾PowerFlex與Regatta數據庫組合突破傳統數據庫局限性