
英偉達稱其DGX Spark為\"世界最小AI超級計算機\" , 售價在3000至4000美元之間(取決于配置和OEM廠商) 。 雖然這款基于Arm架構的迷你PC在性能上不是英偉達產品線中最快的GPU , 無法在大語言模型推理、微調或圖像生成方面超越RTX 5090 , 但它能夠運行5090或其他消費級顯卡根本無法處理的模型 。
在本地AI開發中 , 如果沒有足夠的顯存來完成工作 , 再多的算力和內存帶寬也無濟于事 。 任何嘗試在消費級顯卡上進行機器學習工作負載的人 , 都會遇到CUDA內存不足的錯誤 。
DGX Spark配備了128GB內存 , 這是英偉達工作站GPU產品組合中容量最大的 。 英偉達通過使用LPDDR5x實現了這一點 , 雖然與英偉達50系列使用的GDDR7相比速度較慢 , 但這個小巧的算力盒子可以運行參數多達2000億的推理模型 , 或對參數多達700億的模型進行微調(當然都是在4位精度下) 。
通常 , 這類工作負載需要多個高端GPU , 成本高達數萬美元 。 通過犧牲一些性能和大量帶寬來換取純粹的容量 , 英偉達構建了一個系統 , 雖然在任何單項任務上都不是最快的 , 但可以運行所有這些任務 。
英偉達并不是第一個構建此類系統的公司 。 蘋果和AMD已經有了配備大量LPDDR5x和寬內存總線的機器 , 這使它們在本地AI開發社區中非常受歡迎 。
然而 , 英偉達依靠的是為系統提供動力的GB10基于與其他當前一代GPU相同的Blackwell架構 。 這意味著它可以利用圍繞其CUDA運行時構建的近20年軟件開發成果 。
雖然蘋果Metal和AMD ROCm軟件棧的生態系統在過去幾年中已經相當成熟 , 但當你在AI迷你PC上花費3000-4000美元時 , 知道你現有的代碼應該能夠開箱即用是很令人安心的 。
需要注意的是 , DGX Spark將可從英偉達和戴爾、聯想、惠普、華碩、宏碁等OEM合作伙伴的定制版本中獲得 。 我們評測的英偉達創始人版售價為3999美元 , 配備4TB存儲空間和金色外殼 。 其他供應商的版本可能存儲容量較少 , 價格也更低 。
點燃火花的機器
機器本身的設計就像一個微型化的DGX-1 , 尺寸僅為150 x 150 x 50.5毫米 , 這并非巧合 。
2016年 , 英偉達CEO兼皮夾克愛好者黃仁勛親自將第一臺DGX-1交付給了OpenAI的埃隆·馬斯克 。 事實證明 , 這個系統就是點燃生成式AI熱潮的火花 。 周一 , 黃仁勛再次拜訪馬斯克 , 這次手里拿著一臺DGX Spark 。
作為迷你PC , Spark采用相當標準的流通式設計 , 通過前面的金屬網面板吸入冷空氣 , 從后面排出熱空氣 。
無論好壞 , 這種設計選擇意味著所有I/O端口都位于設備背面 。 在那里 , 我們找到了四個USB-C端口 , 其中一個專用于機器的240W電源適配器 , 剩下的三個可用于存儲和外設 。
除了USB之外 , 還有一個標準HDMI端口用于顯示輸出、一個10 GbE RJ45網絡端口 , 以及一對QSFP籠子 , 可用于以200 Gbps的速度連接形成迷你Spark集群 。
英偉達官方只支持兩臺Spark的集群 , 但我們被告知 , 如果你愿意的話 , 沒有什么能阻止你超越界限構建一個微型超級計算機 。 我們確實見過用這種方式構建的更奇怪的機器 。 還記得空軍在2010年構建的那個索尼PlayStation超級集群嗎?
系統底部有一個磁性附著的蓋子 , 但下面隱藏的只是一些無線天線 。 看起來 , 如果你想將4TB SSD換成更高容量的 , 你需要拆解整個設備 。
希望戴爾、HPE、華碩等合作伙伴的系統能讓更換存儲變得更容易一些 。
最小的超級芯片
【英偉達DGX Spark:小巧超算處理大模型的新選擇】Spark的核心是英偉達的GB10片上系統(SoC) , 顧名思義 , 它本質上是在公司價值數百萬美元的機架系統中找到的Grace Blackwell超級芯片的縮小版 。
該芯片具有兩個晶粒:一個用于CPU , 一個用于GPU——都基于臺積電的3nm工藝技術構建 , 并使用該晶圓廠的先進封裝技術進行鍵合 。
與更大的兄弟產品不同 , GB10不使用Arm的Neoverse核心 。 相反 , 該芯片是與聯發科合作構建的 , 具有20個Arm核心——10個X925性能核心和10個Cortex A725效率核心 。
與此同時 , GPU基于與英偉達50系列其他產品相同的Blackwell架構 。 這家AI武器供應商聲稱 , 該圖形處理器能夠提供1 petaFLOP的FP4計算能力 。 這聽起來不錯 , 直到你考慮到并沒有那么多工作負載能夠同時利用稀疏性和4位浮點運算 。
在實踐中 , 這意味著任何GB10系統最可能看到的是500 dense teraFLOPS的FP4性能 。
圖形處理器和CPU都由共同的LPDDR5x內存池供電 , 正如我們已經提到的 , 總容量為128GB , 提供273 GBps的帶寬 。
初始設置
開箱即用 , Spark可以在兩種模式之一中使用:帶有鍵盤、鼠標和顯示器的獨立系統 , 或者作為可通過網絡從筆記本電腦或臺式機訪問的無頭伴侶系統 。
在我們的大部分測試中 , 我們選擇將Spark用作獨立系統 , 因為我們期望這是許多人選擇與機器交互的方式 。
設置很簡單 。 連接到Wi-Fi、創建用戶帳戶并設置時區和鍵盤布局等內容后 , 我們看到了Ubuntu 24.04 LTS的輕度定制版本 。
如果你希望使用Windows , 你在這里找不到 。 另一方面 , 系統的AI功能和能力都沒有與Copilot或其集成的間諜軟件Recall綁定 。 這也意味著你可能不會在這臺機器上進行太多游戲 , 直到Steam決定為Linux發布Arm64客戶端 。
英偉達對操作系統所做的大多數定制都在幕后 。 它們包括驅動程序、實用程序、容器插件、Docker和至關重要的CUDA工具包等 。
在最好的情況下 , 管理這些都是一個麻煩 , 所以很高興看到英偉達花時間定制操作系統以減少初始設置時間 。
話雖如此 , 硬件仍然有一些粗糙的邊緣 。 許多應用程序尚未針對GB10的統一內存架構進行優化 。 在我們的測試中 , 這導致了不少尷尬的情況 , 其中GPU從系統中奪取了足夠的內存來崩潰Firefox , 或者更糟的是 , 鎖定系統 。
降低入門門檻
Spark針對各種機器學習、生成式AI和數據科學工作負載 。 雖然這些不再像以前那樣深奧 , 但對新來者來說仍然可能令人生畏 。
DGX Spark的一個重要賣點是其背后的軟件生態系統 。 英偉達已經竭盡全力提供文檔、教程和演示 , 以幫助用戶入門 。
這些指南采用簡短、易于遵循的操作手冊形式 , 涵蓋從AI代碼助手和聊天機器人到GPU加速數據科學以及視頻搜索和摘要的主題 。
這非常有價值 , 使Spark和GB10系統感覺不太像通用迷你PC , 更像AI時代的樹莓派 。
性能測試
英偉達的GB10系統是否能夠提供足以證明其3000美元以上價格標簽的性能和實用性水平 , 是另一個完全不同的問題 。 為了找出答案 , 我們讓Spark經歷了廣泛的微調、圖像生成和大語言模型推理工作負載 。
經過幾天的基準測試和演示 , 我們描述Spark的最佳方式是AI領域的皮卡車 。 當然有更快或更高容量的選擇 , 但對于你可能想做的大部分AI工作 , 它都能完成任務 。
微調測試
Spark的內存容量對微調特別有吸引力 , 微調是通過向模型暴露新信息來教授新技能的過程 。
即使是像Mistral 7B這樣的適度大語言模型的完整微調也可能需要超過100GB的內存 。 因此 , 大多數希望定制開放模型的人必須依賴LoRA或QLoRA等技術才能讓工作負載在消費級卡上運行 。 即便如此 , 他們通常僅限于相當小的模型 。
使用英偉達的GB10 , 像Mistral 7B這樣的模型的完整微調是完全合理的 , 而LoRA和QLoRA使得像Llama 3.3 70B這樣的模型的微調成為可能 。
鑒于測試時間有限 , 我們選擇在一百萬個令牌的訓練數據上微調Meta的30億參數Llama 3.2模型 。
正如你所看到的 , 憑借125 teraFLOPS的dense BF16性能 , Spark能夠在一分半鐘多一點的時間內完成工作 。
相比之下 , 我們的48GB RTX 6000 Ada——一張在一年前售價約為GB10系統兩倍的卡——在不到30秒的時間內完成了基準測試 。
這并不太令人驚訝 。 RTX 6000 Ada提供了近3倍的dense BF16性能 。 然而 , 它已經在推動模型大小和序列長度的極限 。 使用更大的模型或增加每個訓練樣本的大小 , 卡的48GB容量將在Spark開始吃力之前很久就成為瓶頸 。
我們還嘗試在RTX 3090 TI上運行基準測試 , 該卡擁有160 teraFLOPS的dense BF16峰值性能 。 理論上 , 該卡應該在一分鐘多一點的時間內完成測試 。 不幸的是 , 由于只有24GB的GDDR6X , 它從未得到機會 , 因為它很快觸發了CUDA內存不足錯誤 。
圖像生成測試
圖像生成是另一個內存密集型工作負載 。 與可以壓縮到較低精度(如INT4或FP4)而質量損失可忽略不計的大語言模型不同 , 擴散模型情況并非如此 。
量化導致的質量損失對這類模型更明顯 , 因此能夠以其原生FP32或BF16精度運行它們是一個很大的優勢 。
我們通過在流行的ComfyUI網頁界面中以BF16精度啟動Black Forest Lab的FLUX.1 Dev來測試DGX Spark 。 在這種精度下 , 這個120億參數模型需要至少24GB的顯存才能在GPU上運行 。 這意味著RTX 3090 TI再次出局 。
從技術上講 , 你可以將模型的一部分卸載到系統內存 , 但這樣做可能會嚴重影響性能 , 特別是在更高分辨率或批量大小時 。 由于我們關注硬件性能 , 我們選擇禁用CPU卸載 。
將ComfyUI設置為50個生成步驟 , DGX Spark再次不是明顯的贏家 , 需要大約97秒來生成圖像 , 而RTX 6000 Ada用了37秒 。
但是 , 憑借128GB的顯存 , Spark可以做的不僅僅是運行模型 。 英偉達的文檔提供了使用你自己的圖像微調像FLUX.1 Dev這樣的擴散模型的說明 。
該過程大約需要四個小時完成 , 使用了90多GB的內存 , 但最終我們得到了一個能夠生成DGX Spark、玩具黃仁勛搖頭娃娃或兩者任意組合的可接受圖像的模型微調版本 。
結果并不完美 , 但經過大約4小時的微調 , 我們能夠訓練Black Forest Labs的Flux.1 Dev模型并向它展示DGX Spark是什么 。
大語言模型推理測試
對于我們的大語言模型推理測試 , 我們使用了三個最流行的英偉達硬件模型運行器:Llama.cpp、vLLM和TensorRT LLM 。
我們所有的推理測試都使用4位量化運行 , 這是一個將模型權重壓縮到原始大小的大約四分之一 , 同時在此過程中將吞吐量提高四倍的過程 。
在模型運行器中 , Llama.cpp實現了最高的令牌生成性能 , 在幾乎每個場景中都匹配甚至超越了vLLM和TensorRT LLM 。
當涉及到提示處理時 , TensorRT實現了明顯優于vLLM或Llama.cpp的性能 。
我們注意到我們確實看到了某些模型的一些奇怪行為 , 其中一些可以歸因于軟件不成熟 。 例如 , vLLM使用僅權重量化啟動 , 這意味著它無法利用GB10張量核心中的FP4加速 。
我們懷疑這就是為什么vLLM中的TTFT與TensorRT相比如此差的原因 。 隨著對GB10的軟件支持改善 , 我們完全期望這個差距會大大縮小 。
上述測試是使用相對較短的輸入和輸出序列完成的 , 就像你在多輪聊天中可能看到的那樣 。 然而 , 這實際上更像是最佳情況場景 。 隨著對話的繼續 , 輸入增長 , 給計算密集型的預填充階段帶來更多壓力 , 使模型開始響應的等待時間更長 。
為了看看隨著上下文增長Spark的表現如何 , 我們測量了它在各種輸入大?。 ù?096個令牌到65536個令牌)下對gpt-oss-120B的TTFT(X軸)和令牌生成(Y軸) 。 對于這個測試 , 我們選擇使用TensorRT , 因為它在我們的批處理測試中實現了最高性能 。
隨著輸入長度增加 , 生成吞吐量下降 , 首個令牌時間攀升 , 當達到65536個令牌時超過200毫秒 。 這相當于大約200頁雙倍行距的文本 。
這對于如此小的系統來說令人印象深刻 , 并展示了Blackwell架構上引入的原生FP4加速的性能優勢 。
多批處理性能
大語言模型的另一個常見場景是使用它們從大量文檔中提取信息 。 在這種情況下 , 與其依次處理它們 , 通常更快的是在更大的批次中處理它們 , 如4、8、16、32或更多 。
為了測試Spark在批處理場景中的性能 , 我們讓它使用gpt-oss-120B處理1024個令牌輸入并生成1024個令牌響應 , 批量大小從1到64不等 。
在這種情況下 , 我們看到性能在大約批次32處達到平臺期 , 因為每個后續批量大小需要更長時間才能完成 。 這表明 , 至少對于gpt-oss-120B , Spark的計算或內存資源在這一點左右開始飽和 。
在線服務
雖然Spark顯然是為個人使用而設計的 , 但我們可以輕易看到一個小團隊部署一個或多個這些作為推理服務器來本地處理數據或文檔 。
類似于多批處理基準測試 , 我們在各種并發級別測量TTFT、請求率和個人性能等性能指標 。
隨著四個并發用戶 , Spark能夠每三秒處理一個請求 , 同時以每用戶17 tok/s維持相對交互式的體驗 。
正如你所看到的 , 機器可以處理的請求數量隨著并發性而增加 。 多達64個并發請求 , 機器能夠維持低于700毫秒的可接受TTFT , 但這是以緩慢的用戶體驗為代價的 , 因為生成率暴跌至4 tok/s 。
這告訴我們 , 在這個特定的工作負載中 , Spark有足夠的計算能力跟上大量并發請求 , 但受到內存帶寬不足的瓶頸 。
話雖如此 , 即使是每秒0.3的請求率也比你想象的要多得多 , 計算出每小時1080個請求——足以支持一天中少數用戶 , 延遲最小 。
DGX Spark的真正競爭對手
正如我們之前暗示的 , DGX Spark的真正競爭對手不是消費級甚至工作站GPU 。 相反 , 像蘋果M4 Mac Mini和Studio或基于AMD Ryzen AI Max+ 395的系統(你可能通過Strix Halo這個名字認識)構成了最大的挑戰 。
這些系統具有類似的統一內存架構和大量快速DRAM 。 不幸的是 , 我們手頭沒有這些系統進行比較 , 所以我們只能指向規格參數 。 即便如此 , 我們也沒有完整的信息 。
將DGX Spark放在這個背景下 , 基于GB10的系統3000-4000美元的價格標簽聽起來并不那么瘋狂 。 AMD及其合作伙伴在價格上嚴重低于英偉達 , 但Spark至少在紙面上要快得多 。
另一方面 , 具有同等存儲容量的Mac Studio相當昂貴 , 但擁有更高的內存帶寬 , 這將轉化為更好的令牌生成 。 更重要的是 , 如果你有錢燒在本地令牌工廠上 , M3 Ultra變體可以配置多達512GB 。
Spark最大的競爭可能來自內部 。 事實證明 , 英偉達實際上制造了一個更強大的基于Blackwell的迷你PC , 根據你的配置 , 甚至可能更便宜 。
英偉達的Jetson Thor開發套件主要設計為機器人開發平臺 。 憑借兩倍的稀疏FP4、128GB內存和273 GBps帶寬 , 該系統以3499美元的價格比DGX Spark提供了更好的性價比 。
Thor確實具有較少的I/O帶寬 , 只有一個100 Gbps QSFP插槽 , 可以分解為四個25 Gbps端口 。 盡管Spark的集成ConnectX-7 NIC可能很酷——我們還沒有機會測試它們——我們期望許多考慮購買的人會樂意放棄高速網絡 , 以換取更低的建議零售價 。
總結
DGX Spark是否適合你將取決于幾個因素 。
如果你想要一個小巧、低功耗的AI開發平臺 , 可以兼作生產力、內容創作或游戲系統 , 那么DGX Spark可能不適合你 。 你最好投資像AMD的Strix Halo或Mac Studio這樣的東西 , 或者等幾個月 , 直到英偉達的GB10超級芯片不可避免地出現在Windows盒子中 。
但是 , 如果你的主要關注點是機器學習 , 并且你正在市場上尋找相對便宜的AI工作站 , 很少有選項能像Spark一樣勾選這么多方框 。
Q&A
Q1:DGX Spark的主要優勢是什么?
A:DGX Spark的最大優勢是配備了128GB的超大內存容量 , 這是英偉達工作站GPU產品組合中容量最大的 。 它可以運行參數多達2000億的推理模型 , 或對參數多達700億的模型進行微調 , 而這些工作負載通常需要多個高端GPU才能完成 , 成本高達數萬美元 。
Q2:DGX Spark的性能表現如何?
A:DGX Spark在單項任務上并不是最快的 , 但可以運行其他消費級顯卡無法處理的大型模型 。 在微調測試中 , 它能夠在一分半鐘內完成30億參數模型的訓練 。 在圖像生成方面需要97秒生成一張圖像 , 雖然不是最快但能穩定運行大型擴散模型 。
Q3:DGX Spark適合哪些用戶群體?
A:DGX Spark主要適合專注于機器學習、生成式AI和數據科學工作負載的用戶 。 如果你需要一個能夠處理大型模型微調和推理的相對便宜的AI工作站 , DGX Spark是很好的選擇 。 但如果你需要兼作生產力、內容創作或游戲系統的多用途平臺 , 可能需要考慮其他選項 。
推薦閱讀
- 新石器與阿聯酋K2集團達成戰略合作 此前已獲得該地首張無人配送車輛牌照
- 微軟英偉達等巨頭400億美元收購數據中心推高AI泡沫
- 英偉達、AMD罕見攜手,眾多廠商大秀AI硬核實力
- 三五條樣本擊敗英偉達,國內首個超少樣本具身模型,還斬獲頂會冠軍
- 榮耀影像團隊已達到與友商“掰手腕”水平:堅持研發創新奪第一
- 吳恩達Agentic AI新課:手把手教你搭建Agent工作流
- 英偉達攜手三星晶圓廠開展定制芯片制造合作
- 「垃圾佬」看不上的巴慕達手機,在小紅書被「垃圾妹」搶瘋了
- 英偉達AI帝國:頂級初創企業投資全覽
- OpenAI與Broadcom達成四年基礎設施合作協議
