百元級硬件流暢運行百億參數LLM!上交&本智激活開源端側原生LLM

百元級硬件流暢運行百億參數LLM!上交&本智激活開源端側原生LLM

文章圖片

百元級硬件流暢運行百億參數LLM!上交&本智激活開源端側原生LLM

文章圖片

百元級硬件流暢運行百億參數LLM!上交&本智激活開源端側原生LLM

允中 發自 凹非寺
量子位 | 公眾號 QbitAI
AI的下一個戰場 , 不在云端 , 而在你的口袋里 。
iPhone、華為、三星、小米、OPPO等各大手機廠商幾乎都在將大模型塞進手機 , 端側AI已然成為兵家必爭之地 。
背后的邏輯清晰而堅定:最懂你的AI , 必須能安全地訪問你的個人數據——郵件、照片、日程 , 而這一切的前提 , 就是將計算留在本地 , 將隱私還給用戶 。
然而 , 想讓AI在本地流暢運行 , 遠比想象的要難得多 。 最好的證據 , 莫過于財力雄厚、軟硬一體的蘋果 , 其雄心勃勃的Apple Intelligence計劃也未能如期而至 , 核心AI功能不得不推遲到明年 。
這無疑向整個行業釋放了一個清晰的信號:端側AI , 是一塊難啃的硬骨頭 。
正當全球科技巨頭在端側AI的道路上艱難探索時 , 一股產學研深度融合的新興力量 , 給出了獨有的解決路線 。
今天 , 上海交通大學IPADS研究所、上海交通大學人工智能學院聯合初創公司本智激活(Zenergize AI) , 在HuggingFace開源了端側原生大模型SmallThinker 。
該系列模型采用為端側算力、內存、存儲特性而原生設計的模型架構 , 并從零開始預訓練 , 具體包含兩個尺寸的稀疏模型 , 分別是SmallThinker-4B-A0.6B和SmallThinker-21B-A3B , 模型也已開源 , 鏈接如下 。
https://huggingface.co/PowerInfer/SmallThinker-21BA3B-Instruct https://huggingface.co/PowerInfer/SmallThinker-4BA0.6B-Instruct其顯著特征 , 就是用端側CPU即可快速推理 , 不再依賴高端GPU 。 其中 , 4B模型在1GB峰值內存下的推理速度達到驚人的19.41 tokens/s 。
而更令人矚目的是 , 21B旗艦稀疏模型 , 在一塊百元級的國產RK3588開發板上 , 實現了相較于同等能力的主流模型(Qwen-14B)高達21倍的推理加速 , 將同類解決方案遠遠甩在身后 。
SmallThinker:端側原生大模型主流大模型 , 從出生起就是為云端成千上萬TOPS算力、TB級顯存的GPU集群“量身定制”的 。 想把它們塞進算力、內存等都不到云端5%的端側設備 , 傳統方法只有“壓縮” 。
這就好比讓一個“博士生”模型 , 通過蒸餾、量化等手段 , 強行“降智” , 最終變成一個只會簡單問答的“小學生” , 犧牲了太多智能 。
是否存在一種不做“模型降智” , 而是一步到位的選擇?
為了實現這一目標 , SmallThinker系列針對端側的弱算力、小內存、慢存儲 , 設計了創新的大模型架構 , 并從零開始預訓練 , 實現了與端側硬件的“精巧匹配” 。

具體來說 , 這一端側原生的大模型架構主要擁有三大核心技術特性:
第一 , 端側算力原生的雙層稀疏架構 , 稀疏度提升5倍 。
傳統的MoE(混合專家模型)只在專家層面是稀疏的 。 而SmallThinker在此基礎上 , 增加了專家內部的神經元稀疏 。
這就好比 , 模型不僅能精準調用最相關的專家知識 , 還能只激活專家知識庫里最核心的部分 , 避免“復述全部所學” , 對端側算力的要求大大降低 。

【百元級硬件流暢運行百億參數LLM!上交&本智激活開源端側原生LLM】第二 , 端側存儲原生的專家路由前置 , 顯著隱藏IO開銷 。
在內存資源受限的端側 , 通常模型權重不能完全放置在內存里 , 需要在推理過程中動態從慢速存儲(比如SSD、UFS等)加載模型專家權重 , 而在這個過程中 , 端側的慢速I/O會嚴重影響推理速度 。
傳統方案是算完注意力 , 再計算路由 , 最后排隊等待加載專家 。
而SmallThinker在模型架構中就原生提供了機制 , 幫助預判需要哪個專家 , 在進行注意力計算的同時 , 就去異步加載專家 。
做到了“邊檢查邊傳喚” , 將I/O等待時間隱藏在注意力計算的過程中 。

第三 , 端側內存原生的混合稀疏注意力 , KV緩存占用下降76% 。
針對長文本場景 , SmallThinker設計了“略讀”+“精讀”的混合注意力機制 。 它使用滑動窗口注意力(Sliding Window)進行高效的“略讀” , 同時保留全局注意力的能力進行“精讀” 。
兩種方式組合 , 在處理16K文本時 , 相比傳統GQA機制 , KV緩存占用降低76% , 讓端側設備也能輕松處理長文檔

生態兼容性與極致性能:SmallThinker與PowerInfer的完美結合一個真正優秀的開源模型 , 不僅自身要強大 , 更要擁抱廣闊的開放生態 。 SmallThinker模型系列在設計上充分考慮了開發者的使用習慣 , 能夠無縫兼容HuggingFace Transformers、vLLM、SGLang、llama.cpp、KTransformers等一系列主流推理框架 。
在硬件適配上 , 它實現了對英特爾、英偉達、高通等主流芯片 , 甚至已經可以在國產鴻蒙操作系統上進行推理 。 這種開箱即用的靈活性 , 極大地降低了開發者的使用門檻 。
而要體驗SmallThinker最極致的端側加速與內存優化效果 , 則需要使用團隊為其量身打造的端側原生Infra——PowerInfer(https://github.com/SJTU-IPADS/PowerInfer/blob/main/smallthinker/README.md) 。
PowerInfer是團隊于2023年12月開源的業界首個稀疏大模型端側推理框架 , 發布后迅速獲得全球開發者的高度關注 , 目前GitHub星標已達8.2K , 并曾連續兩天蟬聯GitHub全球項目趨勢榜第一 。
它能夠深度激活SmallThinker原創的雙層稀疏架構 , 在推理時只調用必要的專家及神經元 , 并能在不影響推理速度的情況下降低內存占用 。
它就像是為SmallThinker這臺“F1賽車”專門打造的引擎 , 為開發者提供了一套從模型到部署、真正完整的全棧優化解決方案 。
SmallThinker模型智力與推理性能兼具理論再好 , 也要看療效 。 SmallThinker團隊交出的 , 是一份模型能力與端側推理性能兼備的答卷 。
為了真正實現“端側原生” , 團隊從零開始預訓練 , 基于高質量數據語料 , 訓練了兩種規模的模型:
SmallThinker-4B-A0.6B:基于2.5T Tokens數據預訓練 , 擁有40億參數 , 激活6億參數 , 主打極速響應 。 SmallThinker-21B-A3B:基于7.5T Tokens數據預訓練 , 擁有210億參數 , 激活30億參數 , 主打旗艦性能 。 它能夠在百元級RK3588上流暢部署 , 全內存情況下的CPU推理速度也能達到10.84 tokens/s ??谡f無憑 , 評測見真章 。
在MMLU、GPQA等多個權威評測基準上 , SmallThinker的智力水平均超越了同尺寸甚至更大尺寸的開源模型 , 充分證明了其“原生”架構設計的優越性 。

而在更關鍵的實際運行性能上 , 當SmallThinker與PowerInfer結合時 , 其在內存約束場景下的優勢盡顯 。 團隊在旗艦移動平臺和個人電腦PC上 , 對業界主流模型進行了正面硬剛 。
場景一: 手機極限內存瓶頸 (1GB RAM)在主流手機上 , SmallThinker-4B-A0.6B模型的Q4量化版本 , 在僅調用4個CPU核心的情況下 , 推理速度便高達79 tokens/s 。
而在對模型架構與推理框架構成終極考驗的極限內存瓶頸(1GB)場景下 , SmallThinker的優勢則體現得淋漓盡致;4B模型依然跑出了19.91 tokens/s的流暢速度 。
作為對比 , Qwen3-1.7B模型速度僅為1.07 tokens/s , 幾乎無法正常使用 。
近19倍的性能差距 , 充分證明了SmallThinker在極端資源受限環境下的卓越運行能力 。 這不僅是一次技術的勝利 , 更是將高端AI平民化的關鍵一步 。
場景二: 主流PC配置(8GB RAM)當內存放寬到旗艦PC的8GB時 , SmallThinker的架構優勢依然顯著 。
SmallThinker-21B-A3B的4核CPU(Intel i9 14990K)推理速度達到20.30 tokens/s , 而Qwen3-30B-A3B的4核CPU速度為 10.11 tokens/s , 加速比達到2倍 。
未來展望:不止于此 , 通往端側原生智能在這訓練過程中 , 團隊發現;即使在如此龐大的數據投喂之后 , 模型的loss曲線仍在穩步下降 , 仍未達到飽和 。
未來 , 團隊會圍繞兩條路線演進 。
第一條路線 , 繼續Scaling:更大更強 。
既然模型尚未“吃飽” , 那么最直接的路徑就是——繼續投喂 。
團隊的下一步計劃 , 將繼續遵循被驗證有效的Scaling Law , 利用更多的高質量Tokens進行進一步訓練 。 進一步壓榨模型潛力 , 在知識儲備、邏輯推理和代碼生成等核心能力上 , 將SmallThinker推向新的高度 , 打造出更強大的端側基礎模型 。
第二條路線 , 打造“個人賈維斯”:從模型到可信賴的智能體 。
如果說Scaling Law是讓模型變得更“博學” , 那么團隊的終極野心 , 則是打造一個真正屬于每個人的“賈維斯式”智能體 。
這個智能體的獨特之處在于 , 它完全運行在你的個人設備上 , 能夠安全、完整地理解你的全部數字生命——從郵件、日程 , 到聊天記錄和相冊 。 正是在這片獨一無二的私有數據土壤之上 , 才能生長出“千人千面”、真正懂你的可信賴AI 。
相信未來 , 隨著端側原生AI能力的不斷進步 , 未來的AI能力就會像今天的水和空氣一樣 , 主動融入我們每個人的日常工作和生活 , 提供安全私密、成本低廉、充滿智慧的AI體驗 。
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀