比臺式機處理器還強?這顆銳龍神U是真的強

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

文章圖片

比臺式機處理器還強?這顆銳龍神U是真的強

銳龍AI Max+ 395是銳龍AI Max+系列的頂配型號 , 原生16顆超大核心32線程設計 , 最高加速頻率5.1GHz , 總緩存高達80MB , NPU峰值AI算力為50TOPS , cTDP為45-120W , 集成40個圖形核心的Radeon 8060S iGPU , 并且支持高達128GB容量的LPDDR5x 8000高速統一內存 。 下面咱們看看它的性能表現 。
首先參考CINEBENCH R23和2024測試 , 銳龍AI Max+ 395處理器在R23測試標準下 , 單核得分1985 , 多核得分36648;2024標準下單核得分113 , 多核得分1752 , 整體性能表現非常出色 , 甚至可以探到移動端HX級別處理器的性能水準 。 因此銳龍AI Max+ 395并非“AI偏科生” , 而是有著極其扎實的單核和多核性能實力 。
通過AIDA 64 FPU CPU單烤機測試可見 , 這顆處理器的長時穩定功耗釋放可以保持在103W附近 , 平均核心溫度99.1℃ , 3分鐘以內的短時功耗釋放甚至可以達到120W 。
銳龍AI Max+ 395之所以能夠勝任70B大模型運行 , 很重要的一點是它采用了128GB統一內存 , 并且可以將一部分內存容量分配給Radeon 8060S iGPU , 而且最高可以分配96GB容量 。 這使得集成顯卡也能通過超大顯存順利運行大參數量的大語言模型 。
同時 , 統一內存的優勢在于讀寫與拷貝速度更快 , 通過AIDA 64內存性能測試可以看到 , 其讀取速度高達119.34GB/s , 寫入速度高達210.1GB/s , 拷貝速度高達153.49GB/s 。
銳龍AI Max+ 395之所以能夠勝任大參數量AI大模型的需求 , 很重要的原因在于它集成的Radeon 8060S iGPU , 這顆GPU在集成顯卡中可以說是超模的存在 。 它擁有2560個流處理器 , 64GB LPDDR5顯存 , 128GB/s顯存帶寬 , 核心頻率高達2900MHz , 顯存頻率1000MHz , 比當前任何一款集成顯卡的性能都要強很多 。
參考3DMark各項測試可以看到 , Radeon 8060S iGPU在Speed Way DX12性能方面得分達到了2025 , 遠超其它集成顯卡的性能 。 Port Royal光追性能達到了5884分 , 基本達到了RTX 4060獨顯的水平(5957分左右) 。 而Time Spy以及Fire Strike圖形分也分別達到了11498和30713分 , 作為集成顯卡 , 它的理論圖形性能其實達到甚至超越了RTX 4060獨顯的水平 , 著實讓人感到驚艷 。
銳龍AI Max+ 395除了在AI應用方面有優勢之外 , 日常生產力、游戲等應用方面也完全不瘸腿 。
7-Zip壓縮與解壓縮測試中 , 銳龍AI Max+ 395處理器得益于16顆超大核心32線程設計 , 壓縮速度達到了150617KB/s , 解壓縮速度達到了2063057KB/s , 總評分高達177.76GIPS , 是目前移動級處理器中T0級別的性能水準 。
視頻編碼方面 , x264 Benchmark實測編碼2500幀的幀速率為77.31fps , 完成時間為32秒 , 相對于HX系列的處理器要略慢一些 。
渲染方面 , V-Ray Bencmark 1分鐘采樣率達到38813 vsamples;Corona Benchmark渲染速度達到了11248700Rays/sec , 渲染用時僅43秒 。
【比臺式機處理器還強?這顆銳龍神U是真的強】總體來說 , 銳龍AI Max+ 395處理器在壓縮、解壓縮以及物理渲染方面有著遠高于其它移動端處理器的性能表現 , 而視頻編碼能力滿足生產力需求也是不成問題的 。
接下來再看看Radeon 8060S iGPU相關的應用性能 。
首先是V-Ray Benchmark的加速測試 , 1分鐘渲染速度達到了1812 vpaths , 在集成顯卡中鶴立雞群 。
Blender benchmark的表現同樣出色 , monster、junkshop、classroom三項渲染采樣率分別達到560.23、199.86以及252.34 samples/min , 同樣遠超當前其它集成顯卡的性能 。
生產力應用性能我們參考UL Procyon的照片編輯和視頻編輯測試 , 二者評分分別達到了8955和22765分 , 可以相當輕松地勝任RAW格式原片處理 , 并且在2K、4K視頻剪輯上也能提供極為出色的性能支持 。
目前 , 搭載AMD銳龍AI Max+ 395處理器的產品主要是筆記本與迷你電腦 , 價格在13999元到20000多不等 , 對于大眾用戶這個價格不便宜 , 但是如果將它與動輒數萬、數十萬元的AI一體機來做對比的話 , 這款機器可以說是目前成本相當低的AI學習、開發、應用平臺 , 對初步上手AI的人群來說非常適合 。
了解AI的朋友都知道 , 顯存和內存在AI應用中非常重要 , Radeon 8060S雖然圖形性能極為出色 , 但其顯存也不過就是6GB , 應對AI大語言模型的應用需求有點捉襟見肘 。 不過通過AMD獨特的統一內存技術 , 在AMD軟件控制中心 , 我們可以將其128GB內存分配給集成顯卡作顯存 , 最高可以分配96GB , 這樣就可以承擔起大參數量大語言模型的應用需求了 。
在AI應用測試之前 , 我們先來看看銳龍AI Max+ 395處理器的CPU、GPU以及NPU三大AI計算單元的算力表現 。 參考UL Procyon的CPU Integer、GPU Float 16以及NPU Integer測試 , 三項評分分別為248、987以及1783分 , 相對此前的銳龍8040系列的處理器來說 , 銳龍AI Max+ 395處理器的CPU AI算力提升不算太大 , 但GPU和NPUAI算力提升幅度基本都超過了3倍!
理論性能了解之后 , 我們看看銳龍AI Max+ 395在實際AI應用中的表現 。
首先通過UL Procyon測試了Phi-3.5 4B、Mistral 7B、Llama 3.1 8B以及Llama 2 13B四款經典大語言模型 , 生成速度分別達到了69.56 tokens/s、44.87 tokens/s、38.01 tokens/s以及25.45 tokens/s , 速度非常快 。 另外值得一提的是 , 即便是RTX 5060筆記本電腦GPU , 因為其作為獨立顯卡也只有可憐的8GB顯存 , 所以也無法正常運行參數量較大的Llama 2大模型 , 而Radeon 8060S不僅成功運行 , 且生成速度能夠達到25.45 tokens/s , 日常應用完全沒有問題 。 此時 , 銳龍AI Max+ 395平臺的獨特優勢就徹底顯現出來了 。
接下來我們通過LM Studio進行了15B及以下小參數量大語言模型和22B及以上大參數量大語言模型的測試 。
首先在各類小參數量稠密大模型測試中可以看到 , 銳龍AI Max+ 395表現非常出色 , 憑借內存分配帶來的超大顯存支持 , 即便是遇到BF16高精度的Mistral-small 24B以及Gemma 2 27B大模型 , 生成速度也分別達到了12.37 tokens/s和11.62 tokens/s , 表現出色 。 而對于更高性能的DeepSeek R1 14B、Phi-4 15B , 速度也能達到19.63 tokens/s和12.24 tokens/s;低精度的DeepSeek R1 7B生成速度更是達到了41.94 tokens/s , 而DeepSeek R1 1.5B則達到了92.67 tokens/s , 可見在面對小參數量大模型時 , 銳龍AI Max+ 395無論是面對高精度模型還是低精度模型 , 都能提供足夠快的生成速度 。
在面對大參數量大語言模型時 , 其實首要解決的問題不是能不能使用大模型 , 而是能不能正常加載大模型 。 就比如RTX 5060筆記本電腦GPU , 雖然其性能比Radeon 8060S要強 , 但如果大模型參數量較大 , 前者大概率也過不了加載這一關 , 更別提進一步應用了 。
從下圖可以看到 , 我們在加載Qwen3-235B-A22B-IQ2_S的MoE混合大模型時 , 內存峰值占用高達63.6GB , 如果沒有128GB超大內存支持的話 , 加載這一關就過不了 。
在各類大參數量大語言模型測試中 , Qwen3-235B-A22B-IQ2_SMoE模型生成速度達到了14.72 tokens/s , 表現出色;DeepSeek IQ2_M、DeepSeek R1 Distill Llama 70B大參數量稠密模型也能夠正常運行 , 并且可以達到4.91 tokens/s和5.31 tokens/s的生成速度 。 而Q4量化版本的DeepSeek R1 Qwen 32B蒸餾模型以及QWQ 32B大模型生成速度分別可以達到9.71 tokens/s和9.79 tokens/s的生成速度 。
另外這里要說明的一點是 , Qwen3-235B-A22B-IQ2_S這個模型雖然參數量達到了235B , 但它并非是常見的稠密模型 , 而是MoE(Mixture of experts)混合專家模型 。 簡單來說 , MoE模型雖然總參數量很大 , 但以Qwen3-235B-A22B-IQ2_S模型為例 , 它雖然擁有235B總參數量 , 但運行時實際只會調用22B(模型中A22B標識就表示運行時只會調用22B參數量)的參數進行計算 , 因此對于硬件的壓力要小很多 。
也正是因為有著這種大參數、低算力特性 , MoE模型或許會成為未來大模型發展的主流趨勢 。
反之 , 稠密模型每一次計算都會調用所有參數 , 這也就是為什么235B的Qwen3-235B-A22B-IQ2_S生成速度反而比DeepSeek R1 32B、QWQ 32B大模型要快的原因 。
AI測試的最后一部分 , 我們使用了針對AMD銳龍平臺打造的Amuse這款Stable Diffusion工具 , 它支持文生圖、圖生圖、文生視頻等應用 , 使用起來非常方便 。
首先我們使用最近大半年非常火爆的FLUX.1-Dev模型進行了文生圖測試 , 實測迭代10步 , 生成一張1024×1024超清圖片用時234.3秒 。 這個表現雖然不如獨顯 , 但在集成顯卡里 , 能順利完成這一任務的此前沒有 , Radeon 8060S不僅順利完成 , 而且效率也還不錯 , 畢竟1024×1024規格的圖片生成 , 在AI文生圖應用中算是高負載任務了 。
其次我們使用了Stable Diffusion XL Turbo模型 , 進行了2048x2048規格圖片的生成 。 這款大模型整體精度要低一些 , 所以對硬件負載的壓力不算太高 。 普通用戶使用這類大模型進行文生圖就足夠了 , 沒必要使用FLUX.1-Dev這種超高精度大模型 。
可以看到 , Stable Diffusion XL Turbo模型生成2048x2048規格圖片耗時僅需12.8秒 , 每秒迭代次數也達到了2.6次 。
總體來說 , 銳龍AI Max+ 395是非常不錯的AI計算平臺 , 配合大內存并通過AMD統一內存技術分配給顯存之后 , 常規的AI應用基本沒有太大壓力 , 完全可以作為個人或者小型工作室、小型企業用戶的AI終端設備 。 尤其相比動輒數萬、數十萬元的AI一體機來說 , 它絕對是一個高性價比的解決方案 。
(10333042)

    推薦閱讀