
文章圖片

文章圖片

智東西
作者 | 王涵
編輯 | 漠影
智東西8月7日報道 , 今天上午 , 通義千問Qwen宣布推出兩款更小尺寸的新模型:Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507 。
其中 , Qwen3-4B-Thinking-2507的推理能力可媲美中尺寸模型;Qwen3-4B-Instruct-2507在知識、推理、編程、對齊以及agent能力上全面超越了閉源的小尺寸模型GPT-4.1-nano 。
此次發布的“2507”版本的Qwen3-4B模型對手機等端側硬件部署較為友好 , 目前已在魔搭社區和Hugging Face正式開源 。
已在Hugging Face開源(來源:Hugging Face)
魔搭社區:https://modelscope.cn/collections/Qwen3-9743180bdc6b48
Hugging Face:https://huggingface.co/Qwen
一、性能比肩中尺寸模型 , agent能力超越GPT-4.1-nanoQwen3-4B-Instruct-2507與Qwen3-4B-Thinking-2507的上下文理解能力都擴展到了256K , 可處理長文本 , 能支持更復雜的文檔分析、長篇內容生成以及跨段落推理等場景 。
性能方面 , Qwen3-4B-Thinking-2507在復雜問題推理能力、數學能力、代碼能力以及多輪函數調用能力上的表現大幅領先Qwen3同尺寸小模型 。 在Arena-Hard v2基準測試上 , Qwen3-4B-Instruct-2507取得43.4分的成績 , 更勝一籌 。
在非推理領域 , Qwen3-4B-Instruct-2507在知識、推理、編程、對齊以及agengt能力上全面超越了閉源的小尺寸模型GPT-4.1-nano , 且與中等規模的Qwen3-30B-A3B(non-thinking)性能接近 。
該模型覆蓋了更多語言的長尾知識 , 在主觀和開放性任務中與人類偏好的對齊性增強 , 能夠提供更符合需求的答復 。
在推理領域 , Qwen3-4B-Thinking-2507表現突出 , 推理能力可媲美中等模型Qwen3-30B-Thinking 。 特別是在聚焦數學能力的AIME25測評中 , 以4B參數量取得了81.3分的成績 。
其通用能力也顯著提升 , Agent分數超越了更大尺寸的Qwen3-30B-Thinking模型 。
結語:小尺寸模型加速AI端側落地通義千問此次推出的Qwen3-4B系列新模型 , 以更小的尺寸實現了性能上的優化 , 在通用能力上展現出超越同級別模型甚至逼近中大規模模型的實力 , 并且 , 小尺寸模型展現出了對端側硬件的更高的友好度 。
無論是騰訊、阿里還是OpenAI等AI老玩家 , 都開始推出小尺寸模型 , 并且在agent能力上下功夫 。 這在一定程度上反映出目前主流市場認為小型語言模型(SLM)對Agentic AI的發展具有重要價值 。
【阿里開源兩款4B小模型:手機電腦都能用,比GPT-4.1-nano還強】這類高性能小模型的開源與普及 , 將有望加速AI技術在端側設備的滲透 , 進而推動更多輕量化、場景化的智能應用落地 。
推薦閱讀
- 美國不甘落后!啟動ATOM計劃:直指中國“千問”開源AI領先地位
- 為更好與英偉達CUDA競爭,華為CANN全面開源
- 騰訊AI Lab開源可復現的深度研究智能體,最大限度降低外部依賴
- 剛剛,OpenAI發布2款開源模型!手機筆記本也能跑,北大校友扛大旗
- 科研寫作神器,超越Mathpix的科學公式提取工具已開源
- 7年狂銷3億臺,真我宣布好消息,兩款新旗艦也馬上要來了
- 騰訊一口氣開源4款模型!最小僅0.5B,增強agent能力,手機就能跑
- 手機也能跑大模型,騰訊混元推出多款小尺寸開源模型
- 開源首個3D世界模型,騰訊要用AI重塑娛樂產業,游戲只是前菜
- 剛剛,小米又開源一大模型,22個公開測評SOTA
