比臺式機處理器還強？這顆銳龍神U是真的強

2026-04-27 星鏈 SpaceX

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

銳龍AI Max+ 395是銳龍AI Max+系列的頂配型號，原生16顆超大核心32線程設計，最高加速頻率5.1GHz ，總緩存高達80MB ， NPU峰值AI算力為50TOPS ， cTDP為45-120W ，集成40個圖形核心的Radeon 8060S iGPU ，并且支持高達128GB容量的LPDDR5x 8000高速統一內存。下面咱們看看它的性能表現。
首先參考CINEBENCH R23和2024測試，銳龍AI Max+ 395處理器在R23測試標準下，單核得分1985 ，多核得分36648；2024標準下單核得分113 ，多核得分1752 ，整體性能表現非常出色，甚至可以探到移動端HX級別處理器的性能水準。因此銳龍AI Max+ 395并非“AI偏科生” ，而是有著極其扎實的單核和多核性能實力。
通過AIDA 64 FPU CPU單烤機測試可見，這顆處理器的長時穩定功耗釋放可以保持在103W附近，平均核心溫度99.1℃ ， 3分鐘以內的短時功耗釋放甚至可以達到120W 。
銳龍AI Max+ 395之所以能夠勝任70B大模型運行，很重要的一點是它采用了128GB統一內存，并且可以將一部分內存容量分配給Radeon 8060S iGPU ，而且最高可以分配96GB容量。這使得集成顯卡也能通過超大顯存順利運行大參數量的大語言模型。
同時，統一內存的優勢在于讀寫與拷貝速度更快，通過AIDA 64內存性能測試可以看到，其讀取速度高達119.34GB/s ，寫入速度高達210.1GB/s ，拷貝速度高達153.49GB/s 。
銳龍AI Max+ 395之所以能夠勝任大參數量AI大模型的需求，很重要的原因在于它集成的Radeon 8060S iGPU ，這顆GPU在集成顯卡中可以說是超模的存在。它擁有2560個流處理器， 64GB LPDDR5顯存， 128GB/s顯存帶寬，核心頻率高達2900MHz ，顯存頻率1000MHz ，比當前任何一款集成顯卡的性能都要強很多。
參考3DMark各項測試可以看到， Radeon 8060S iGPU在Speed Way DX12性能方面得分達到了2025 ，遠超其它集成顯卡的性能。 Port Royal光追性能達到了5884分，基本達到了RTX 4060獨顯的水平（5957分左右）。而Time Spy以及Fire Strike圖形分也分別達到了11498和30713分，作為集成顯卡，它的理論圖形性能其實達到甚至超越了RTX 4060獨顯的水平，著實讓人感到驚艷。
銳龍AI Max+ 395除了在AI應用方面有優勢之外，日常生產力、游戲等應用方面也完全不瘸腿。
7-Zip壓縮與解壓縮測試中，銳龍AI Max+ 395處理器得益于16顆超大核心32線程設計，壓縮速度達到了150617KB/s ，解壓縮速度達到了2063057KB/s ，總評分高達177.76GIPS ，是目前移動級處理器中T0級別的性能水準。
視頻編碼方面， x264 Benchmark實測編碼2500幀的幀速率為77.31fps ，完成時間為32秒，相對于HX系列的處理器要略慢一些。
渲染方面， V-Ray Bencmark 1分鐘采樣率達到38813 vsamples；Corona Benchmark渲染速度達到了11248700Rays/sec ，渲染用時僅43秒。
【比臺式機處理器還強？這顆銳龍神U是真的強】總體來說，銳龍AI Max+ 395處理器在壓縮、解壓縮以及物理渲染方面有著遠高于其它移動端處理器的性能表現，而視頻編碼能力滿足生產力需求也是不成問題的。
接下來再看看Radeon 8060S iGPU相關的應用性能。
首先是V-Ray Benchmark的加速測試， 1分鐘渲染速度達到了1812 vpaths ，在集成顯卡中鶴立雞群。
Blender benchmark的表現同樣出色， monster、junkshop、classroom三項渲染采樣率分別達到560.23、199.86以及252.34 samples/min ，同樣遠超當前其它集成顯卡的性能。
生產力應用性能我們參考UL Procyon的照片編輯和視頻編輯測試，二者評分分別達到了8955和22765分，可以相當輕松地勝任RAW格式原片處理，并且在2K、4K視頻剪輯上也能提供極為出色的性能支持。
目前，搭載AMD銳龍AI Max+ 395處理器的產品主要是筆記本與迷你電腦，價格在13999元到20000多不等，對于大眾用戶這個價格不便宜，但是如果將它與動輒數萬、數十萬元的AI一體機來做對比的話，這款機器可以說是目前成本相當低的AI學習、開發、應用平臺，對初步上手AI的人群來說非常適合。
了解AI的朋友都知道，顯存和內存在AI應用中非常重要， Radeon 8060S雖然圖形性能極為出色，但其顯存也不過就是6GB ，應對AI大語言模型的應用需求有點捉襟見肘。不過通過AMD獨特的統一內存技術，在AMD軟件控制中心，我們可以將其128GB內存分配給集成顯卡作顯存，最高可以分配96GB ，這樣就可以承擔起大參數量大語言模型的應用需求了。
在AI應用測試之前，我們先來看看銳龍AI Max+ 395處理器的CPU、GPU以及NPU三大AI計算單元的算力表現。參考UL Procyon的CPU Integer、GPU Float 16以及NPU Integer測試，三項評分分別為248、987以及1783分，相對此前的銳龍8040系列的處理器來說，銳龍AI Max+ 395處理器的CPU AI算力提升不算太大，但GPU和NPUAI算力提升幅度基本都超過了3倍！
理論性能了解之后，我們看看銳龍AI Max+ 395在實際AI應用中的表現。
首先通過UL Procyon測試了Phi-3.5 4B、Mistral 7B、Llama 3.1 8B以及Llama 2 13B四款經典大語言模型，生成速度分別達到了69.56 tokens/s、44.87 tokens/s、38.01 tokens/s以及25.45 tokens/s ，速度非常快。另外值得一提的是，即便是RTX 5060筆記本電腦GPU ，因為其作為獨立顯卡也只有可憐的8GB顯存，所以也無法正常運行參數量較大的Llama 2大模型，而Radeon 8060S不僅成功運行，且生成速度能夠達到25.45 tokens/s ，日常應用完全沒有問題。此時，銳龍AI Max+ 395平臺的獨特優勢就徹底顯現出來了。
接下來我們通過LM Studio進行了15B及以下小參數量大語言模型和22B及以上大參數量大語言模型的測試。
首先在各類小參數量稠密大模型測試中可以看到，銳龍AI Max+ 395表現非常出色，憑借內存分配帶來的超大顯存支持，即便是遇到BF16高精度的Mistral-small 24B以及Gemma 2 27B大模型，生成速度也分別達到了12.37 tokens/s和11.62 tokens/s ，表現出色。而對于更高性能的DeepSeek R1 14B、Phi-4 15B ，速度也能達到19.63 tokens/s和12.24 tokens/s；低精度的DeepSeek R1 7B生成速度更是達到了41.94 tokens/s ，而DeepSeek R1 1.5B則達到了92.67 tokens/s ，可見在面對小參數量大模型時，銳龍AI Max+ 395無論是面對高精度模型還是低精度模型，都能提供足夠快的生成速度。
在面對大參數量大語言模型時，其實首要解決的問題不是能不能使用大模型，而是能不能正常加載大模型。就比如RTX 5060筆記本電腦GPU ，雖然其性能比Radeon 8060S要強，但如果大模型參數量較大，前者大概率也過不了加載這一關，更別提進一步應用了。
從下圖可以看到，我們在加載Qwen3-235B-A22B-IQ2_S的MoE混合大模型時，內存峰值占用高達63.6GB ，如果沒有128GB超大內存支持的話，加載這一關就過不了。
在各類大參數量大語言模型測試中， Qwen3-235B-A22B-IQ2_SMoE模型生成速度達到了14.72 tokens/s ，表現出色；DeepSeek IQ2_M、DeepSeek R1 Distill Llama 70B大參數量稠密模型也能夠正常運行，并且可以達到4.91 tokens/s和5.31 tokens/s的生成速度。而Q4量化版本的DeepSeek R1 Qwen 32B蒸餾模型以及QWQ 32B大模型生成速度分別可以達到9.71 tokens/s和9.79 tokens/s的生成速度。
另外這里要說明的一點是， Qwen3-235B-A22B-IQ2_S這個模型雖然參數量達到了235B ，但它并非是常見的稠密模型，而是MoE（Mixture of experts）混合專家模型。簡單來說， MoE模型雖然總參數量很大，但以Qwen3-235B-A22B-IQ2_S模型為例，它雖然擁有235B總參數量，但運行時實際只會調用22B（模型中A22B標識就表示運行時只會調用22B參數量）的參數進行計算，因此對于硬件的壓力要小很多。
也正是因為有著這種大參數、低算力特性， MoE模型或許會成為未來大模型發展的主流趨勢。
反之，稠密模型每一次計算都會調用所有參數，這也就是為什么235B的Qwen3-235B-A22B-IQ2_S生成速度反而比DeepSeek R1 32B、QWQ 32B大模型要快的原因。
AI測試的最后一部分，我們使用了針對AMD銳龍平臺打造的Amuse這款Stable Diffusion工具，它支持文生圖、圖生圖、文生視頻等應用，使用起來非常方便。
首先我們使用最近大半年非常火爆的FLUX.1-Dev模型進行了文生圖測試，實測迭代10步，生成一張1024×1024超清圖片用時234.3秒。這個表現雖然不如獨顯，但在集成顯卡里，能順利完成這一任務的此前沒有， Radeon 8060S不僅順利完成，而且效率也還不錯，畢竟1024×1024規格的圖片生成，在AI文生圖應用中算是高負載任務了。
其次我們使用了Stable Diffusion XL Turbo模型，進行了2048x2048規格圖片的生成。這款大模型整體精度要低一些，所以對硬件負載的壓力不算太高。普通用戶使用這類大模型進行文生圖就足夠了，沒必要使用FLUX.1-Dev這種超高精度大模型。
可以看到， Stable Diffusion XL Turbo模型生成2048x2048規格圖片耗時僅需12.8秒，每秒迭代次數也達到了2.6次。
總體來說，銳龍AI Max+ 395是非常不錯的AI計算平臺，配合大內存并通過AMD統一內存技術分配給顯存之后，常規的AI應用基本沒有太大壓力，完全可以作為個人或者小型工作室、小型企業用戶的AI終端設備。尤其相比動輒數萬、數十萬元的AI一體機來說，它絕對是一個高性價比的解決方案。
(10333042)

推薦閱讀

上一篇：小米新品官宣：8月20日，全新開售

下一篇：舊手機置換、回收存在風險，怎樣做才更保險？