本地部署無壓力!英特爾酷睿Ultra X9 388H大語言模型生成速度測

本地部署無壓力!英特爾酷睿Ultra X9 388H大語言模型生成速度測

文章圖片

本地部署無壓力!英特爾酷睿Ultra X9 388H大語言模型生成速度測

文章圖片

本地部署無壓力!英特爾酷睿Ultra X9 388H大語言模型生成速度測

文章圖片


那么酷睿Ultra X9 388H在大語言模型應用中的表現如何?下面我們就一起來測試一下 。
下方這張GIF圖是1倍速錄制的酷睿Ultra X9 388H在跑DeepSeek-R1-14B時的速度 , 基本上滿足了本地使用的速度需求 。 不過也能看出 , 14B應該是這顆處理器本地部署和使用稠密AI大語言模型的上限了 , 如果想使用更大參數量的大模型 , 那么就需要部署MoE混合模型 , 這樣才能保持生成速度 。
我們測試了六款常用大語言模型 , DeepSeek-R1-14B生成速度為10.67 tokens/s , Gemma 3-12B生成速度為13.15 tokens/s , DeepSeek-R1-7B生成速度為19.79 tokens/s , Qwen 3-30B-A3B混合專家模型生成速度為34.9 tokens/s , GPT-OSS-20B生成速度為34.83 tokens/s , Phi-4 Mini生成速度為35.27 tokens/s 。
從測試結果來看 , 酷睿Ultra X9 388H憑借銳炫B390核顯性能提升 , 可以流暢運行14B及以下參數量的稠密模型 , 也可以通過部署MoE混合專家模型 , 來使用更大參數量的模型 , 不過激活參數量自然是最好不要超過14B , 否則速度會比較慢 。
最后還是附上之前評測中的理論測試情況 , 具體如下:
首先通過UL Procyon對其GPU和NPU算力進行了測算 , 可以看到銳炫B390核顯的GPU Float16算力評分達到1495 , 相對于上一代的800+提升了近700分;而NPU算力評分達到1223 , 相對于上一代900+的評分提升了300多分 , 因此酷睿Ultra X9 388H在GPU和NPU算力上分別提升了約78%和32%!
上一代核顯受算力和顯存不足的制約 , 無法完成UL Procyon的AI大語言模型生成測試 , 而酷睿Ultra X9 388H不僅能夠順利完成 , 并且在PHI 3.5、MISTRAL 7B、LLAMA 3.1、LLAMA 2四款大語言模型測試中 , 生成速度分別達到了43.3 tokens/s、28.47 tokens/s、25.17 tokens/s以及14.02 tokens/s 。
【本地部署無壓力!英特爾酷睿Ultra X9 388H大語言模型生成速度測】通過本地AI大語言模型測試可以看到 , 得益于GPU AI算力的升級 , 英特爾酷睿Ultra X9 388H是完全可以在本地部署并流暢使用14B及以下參數量AI大語言模型的硬件平臺 , 同時還可以通過MoE模型來使用更大參數量的混合專家模型 , 基本能夠滿足本地化部署和使用AI大模型的需求 。
(11328801)

    推薦閱讀