離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火

文章圖片

離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火
編輯:傾傾 桃子
【新智元導讀】Kimi K2 Thinking重磅開源 , 1萬億「思考Agent模型」在推理、智能體基準上干翻GPT-5 。 關鍵 , 還能連調300次工具 , 直出3D模擬 。
昨天 , 月之暗面發布全新模型Kimi K2 Thinking , 一上線就擠爆了服務器 。
思考 , 是它的核心賣點 , 自稱是開源的「思考Agent模型」 。

它同樣采用了MoE架構 , 總參數約1萬億 , 每次激活約320億 , 上下文256K token 。
在各大基準測試中 , Kimi K2 Thinking性能表現亮眼 。
尤其是 , 在BrowseComp、HLE測試中 , 實力完全碾壓GPT-5、Claude Sonnet 4.5 。

在Tau2 Bench Telecom基準測試中 , K2 Thinking位列第一 。

最關鍵的是 , 在無人干預情況下 , K2 Thinking可連續調用200-300次工具 。
國外研究者Nathan Lambert 稱它為:「開源模型距閉源前沿最近的一次 。 」
這句話在技術圈廣為流傳 , 人們也開始重新審視這款模型 。


不只是聊天工具 , K2 Thinking更像是一個會自己推理、自己動手的智能體 。



一款真正會思考的模型


Kimi K2 Thinking沒有強調算力更大 , 而是強調更會「思考」 。
這些配置讓它在處理長文本、復雜任務時能維持更穩定的推理過程 。
蘋果大牛Awni Hannun測試后驚嘆道:
1萬億參數 , 只用2臺M3 Ultra芯片的Mac電腦即可流暢運行 , 而且int4壓縮后性能幾乎無損 。



通過mlx-lm并行技術 , 它生成了大約3500個token , 速度每秒15個token 。

但真正讓人關注的 , 是它的「思考能力」 。
如前所述 , K2 Thinking可以在一次任務中連續執行200到300次工具調用 , 全程無需人工干預 。
有網友實測「工具調用」 , 立即制作出如下的數學和物理講解動畫 。

不同于其他模型的胡編亂造 , 它在面對復雜問題時 , 會自己拆解步驟、搜索信息、調用外部工具、再整合結果 。
團隊把這種機制稱為「交替思考」——模型在「思考」和「執行」之間循環往復 , 讓推理更連貫 。
K2 Thinking在性能上的表現也很亮眼 。
在Humanity’s Last Exam(HLE)和 BrowseComp(網頁搜索綜合能力)任務上 , 成績已經接近甚至超過GPT-5和Claude Sonnet 4.5 。

Kimi K2 Thinking與GPT-5、Claude Sonnet 4.5在多項基準測試中的表現
除了推理表現 , 它在工程落地上也做了不少優化 。
K2使用量化感知訓練(QAT) 對MoE模塊進行INT4權重量化 , 在保證性能的同時 , 將生成速度提升了約兩倍 。
除了推理和搜索任務 , K2 Thinking在編碼、工具使用、數學推理等更細分的測試中表現也很突出 。
在SWE-bench、LiveCodeBench、GPQA-Diamond等任務上 , 它的成績已經超過DeepSeek、GPT-4 Turbo等多個主流模型 , 顯示出更強的「執行力」 。

Kimi K2 Thinking在多項編程與數學任務中的表現對比
這意味著 , K2 Thinking的測試成績就是它在真實環境下的表現 , 而非理想化打分 。
它目前已經在kimi.com上線 , 并開源API和模型權重 , 開發者可以直接試用 。
從實驗室到真實場景 , 這個模型的「思考能力」明顯超過了現有的其他模型 。



智能體編碼一流 , 300次工具調用


這一次 , 月之暗面沒再讓模型停留在論文里 。
K2 Thinking不是展示品 , 而是一臺真正能被人用起來的智能體 。
發布當天 , 團隊同步上線了 kimi.com聊天模式、開放了API 接口 , 還在Hugging Face公布了完整權重 。

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source
開發者不需要等待內測邀請 , 也不用注冊繁瑣流程 , 任何人都能直接使用 。
K2 Thinking的從訓練開始 , 到優化 , 再到上線 , 周期不到半年 。
在這個動輒以年為單位更新的大模型時代 , 這個速度意味著它已具備完整的工程化能力 。
打開kimi.com , 就能直接體驗到K2 Thinking的思考過程 。
與一般聊天模型不同 , 它在生成答案前 , 會清晰地展示自己的推理鏈 。

此外 , 研究人員特別提到 , K2 Thinking在軟件和編碼任務上進步顯著 。
它在 SWE-Multilingual測試中得分61.1%, 在SWE-Bench Verified測試中得分71.3% , 在Terminal-Bench測試中得分47.1% 。
這無疑證明了 , 該模型在HTML、React等方面的任務上有了很明顯的進步 。

寫代碼前 , 先寫計劃


當用戶輸入「分析我發給你的CSV文件 , 并生成圖表來支持你的分析」時 , K2不會直接輸出代碼 。
他會先列出自己的行動方案:首先 , 加載數據集 , 接下來 , 篩選數據集 , 然后 , 分析內容 , 調用繪圖庫 , 最終生成結果 。

有了行動方案 , 它才會逐步生成代碼 , 執行、驗證、修正 。
如果出錯 , 它會提示「正在重新規劃」 , 然后自動嘗試新方案 。 整個過程 , 都能在屏幕上看到 。

最終 , 我們能得到K2生成的數據分析圖表 。
【離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火】


僅僅調用14次python , 就能生成這樣完美的可視化圖表、準確的統計數據以及包含詳細分析的交互網頁 。

私人定制行程:比管家還靠譜


你是否想過擁有一個完美管家?那K2可以滿足你的需求 。
你只要提出你的需求 , 比如「我的預算是1000美元 , 給我規劃我的演唱會之旅」 。
輸入之后 , K2就會像一位盡職盡責的管家 , 詢問你的喜好、目的、工作安排 , 甚至查閱你的谷歌郵件 。

之后 , 他開始搜索 , 查機票、看演唱會場次 , 甚至會考慮到演唱會附近的餐廳 。 簡直比管家還貼心!

最后 , 結合各方數據 , 交出最適合你的演唱會計劃 。
而做到這些 , 僅僅調用了17次工具!很難想象如果親自做計劃 , 要耗時多久 。

一針見血的數學講解員


除了長段的提示詞 , 短短幾句話 , K2 Thinking也能完美運行 。
比如 , 對它說「解釋二維梯度下降」 。
它就能調用工具 , 以最直觀、形象的方式向你作出解釋:
藍色的等高線越靠近中心 , 函數值越?。 換粕穆肪妒怯嘔惴ù悠鸕愕階鈑諾愕南陸倒旒#緩焐〖繁硎咎荻齲?f)的方向;黃色點表示當前的模型參數位置 , 它沿著梯度的反方向移動 。

配合上動圖 , 一目了然 。

觸手可及的「細胞戰」


不僅僅是數學 , K2 Thinking甚至進軍生物學領域!
你只要輸入「做一個可以調節免疫參數的病毒模擬程序」 , 就可以得到一個可交互的病毒仿真系統 。

紅藍兩種粒子在屏幕上相互追逐、碰撞、吞噬 。 拖動滑塊 , 就能調整病毒復制率、免疫細胞數量 。
對于Kimi K2 Thinking真實表現 , 你怎么看?
參考資料:
https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means
https://x.com/Kimi_Moonshot/status/1986449512538513505

    推薦閱讀