
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
編輯|Panda
假如你是一個致力于將 AI 引入傳統行業的工程團隊 。 現在 , 你有一個問題:訓練一個能看懂復雜機械圖紙、設備維護手冊或金融研報圖表的多模態助手 。 這個助手不僅要能專業陪聊 , 更要能精準地識別圖紙上的零件標注 , 或者從密密麻麻的財報截圖中提取關鍵數據 。
首先 , 你需要選擇一個合適的模型 。
7B 參數的小模型雖然跑得快 , 但「腦容量」太小 , 面對復雜的圖文邏輯經常一本正經地胡說八道;而 70B 甚至更大的模型雖然聰明 , 但部署和推理成本直接勸退了客戶 。 最后 , 你可能發現 30B 參數級的開源多模態模型(例如 Qwen-VL-30B)是個不錯的選擇 。
30B 被稱為大模型的黃金尺寸:它在理解能力上遠超小模型 , 又比巨型模型輕量 , 是企業私有化部署的完美平衡點 。
不過呢 , 你可能也會發現 , 「30B 參數」也是一個極具欺騙性的數字 。
在純文本時代 , 一張前沿的消費級顯卡或許還能勉強塞下 30B 的推理 。 但在多模態(Vision-Language)場景下 , 事情完全變了 。 當模型需要處理高分辨率圖像時 , 視覺編碼器會產生大量的視覺 Token;而為了讓模型真正懂行業 Know-how , 必須用數千張有標注圖像進行 LoRA 微調 。
這就意味著 , 除了模型本身的權重 , 我們還需要在顯存里塞進梯度、優化器狀態以及訓練過程中的激活值 。
原本以為只是「稍微大一點」的任務 , 瞬間撞上了物理學的墻 。
這些方案不太行
如果你的開發環境是頂級消費級旗艦 , 擁有 24 GB 的超大顯存 , 但在這次的任務面前 , 它顯得如此無力 。
當你嘗試啟動微調腳本時 , 終端里那行熟悉的紅色報錯如期而至:
RuntimeError: CUDA out of memory.
對于 30B 多模態模型的微調來說 , 24 GB 的顯存就是不夠 。 為了讓程序跑起來 , 你可能會選擇犧牲性能 , 比如:
Batch Size 降到 1: 哪怕訓練速度慢到像蝸牛爬 。 開啟梯度檢查點: 這是一個典型的「時間換空間」策略 , 通過不緩存中間激活值而是在反向傳播時重算 , 來節省顯存 。 但這讓訓練時間直接翻倍 。 極限量化: 將模型量化到 4-bit 甚至更低 。 但這也會帶來新的問題:對于精密圖紙的識別 , 量化后的模型精度下降明顯 , 連零件號都經常認錯 。即使做了所有這些妥協 , 只要稍微喂進去一張分辨率高一點的圖表 , 顯存還是瞬間溢出 , 程序直接崩潰 。 那種「只差一點點就能跑通」的挫敗感 , 最是折磨人 。
「要不試試隔壁美術組那臺 Mac Studio?」你可能會這樣想 。 那臺機器擁有 128 GB 統一內存(Unified Memory) 。 從硬件上看 , 這簡直是完美的救星 —— 別說 30B , 就是 70B 也能塞得下 。
但當你興沖沖地把代碼拷過去 , 才發現這是另一個深坑 。
首先是環境配置的噩夢 。 開源社區的主流多模態模型(尤其是涉及底層 CUDA 優化的視覺算子)在蘋果芯片上的適配往往慢半拍 。 你可能會花不少時間解決各種編譯報錯 , 好不容易跑通了推理 , 卻發現訓練速度受限于優化 , 效率遠不及預期 。
更致命的是「生態隔離」 。 在 Mac 上微調出的模型檢查點 , 想要部署回公司的 Linux 服務器(基于 NVIDIA GPU)上 , 需要進行繁瑣的格式轉換和精度對齊 。 這種開發環境與生產環境的割裂 , 對于追求快速迭代的工程團隊來說 , 是不可接受的風險 。
那么 , 你到底需要什么?
難道為了跑通這個 30B 模型 , 你真的要走漫長的合規流程去申請昂貴的 A100 云實例 , 時刻防范私密數據出域的風險?又或者 , 僅僅為了這一個開發項目 , 就專門配置一個高成本的工作站 , 甚至去采購一臺必須安置在專業機房、且維護成本高昂的機架式服務器?
你需要這樣一臺機器:它要有 Mac Studio 那樣海量的統一內存 , 讓你不再為顯存精打細算;它同時又必須流淌著純正的 NVIDIA 血液 , 擁有原生的 CUDA 生態 , 讓代碼無縫遷移 。
這個「既要又要」的幻想 , 直到一臺 1 升體積的小盒子的出現 , 才變成了現實 。
桌面上的一升解決方案
這個盒子就是聯想 ThinkStation PGX 。
如果你關注過英偉達之前的動作 , 可能會覺得眼熟 。 沒錯 , 聯想 ThinkStation PGX 在核心配置上與 NVIDIA DGX Spark 完全一致 。
準確地說 , ThinkStation PGX 正是英偉達 DGX Spark 的 OEM 量產版本 。 英偉達已將這一參考設計授權給了聯想等廠商 , 由它們負責具體的工程化制造與差異化定制 。
這臺機器最直觀的沖擊力來自于它的尺寸:僅有 1 升(1L) 。 它小到可以輕松塞進通勤背包 , 放在辦公桌的一角幾乎沒有存在感 。 但就在這方寸之間 , 聯想塞進了一顆基于 NVIDIA Grace Blackwell 架構的 GB10 超級芯片 。
而對于被顯存折磨得死去活來的開發者來說 , 它最性感參數是:128 GB 統一內存(Unified Memory) 。
這不僅僅是數字的勝利 , 更是架構的勝利 。 ThinkStation PGX 的統一內存架構允許 CPU 和 GPU 共享這 128 GB 的海量空間 , 且可通過 NVLink-C2C 技術實現高速互聯 。 這意味著 , 開發者終于可以在桌面上擁有接近甚至超越專業級計算卡(如 H100 80GB)的顯存容量 。
除了核心算力 , 在數據存儲方面 , 聯想貼心地提供了 1TB 和 4TB 兩個存儲版本 。 對于大部分只是想快速驗證模型原型的開發者 , 1TB 版本足矣;而對于需要本地存放海量訓練數據(如醫療影像、自動駕駛點云或數萬張高清圖紙)的團隊來說 , 4TB 版本顯然是更具安全感的選擇 。
更關鍵的是 , 它是一臺「原生」的 AI 機器 。 預裝了 NVIDIA AI 軟件棧 , 底層運行的是開發者熟悉的 Linux 系統 , 跑的是最純正的 CUDA 環境 。
接下來 , 就讓我們親手試一試這樣顯存巨大的性能小猛獸吧 。
首先 , 掂一掂重量 , 著實非常小巧 , 甚至比 Mac mini M1 還小一些 。 同時 , 它的設計也非常精致 , 采用了標志性的蜂窩狀散熱設計 , 不僅看起來科技感十足 , 更是為了保證進風效率 。
接下來 , 把 ThinkStation PGX 連上顯示器 , 通電開機 , 先來看看基本信息 。
在終端輸入 nvidia-smi , 可以看到顯卡型號是 NVIDIA GB10 , CUDA 版本為 13.0 。 但這里有一個有趣的細節:在 Memory-Usage 一欄 , 它顯示的是 Not Supported 。
為什么不支持?其實 , 這反而是最大的利好 。
在傳統的獨立顯卡(如 RTX 4090)上 , 顯存是獨立的 , 所以會顯示具體 MiB 數值 。 這里的「Not Supported」以及下面進程列表里能顯示顯存占用(如 Firefox 用了 230MiB) , 直接證明了它是統一內存(Unified Memory)架構 。
是的 , PGX 的 GPU 沒有自己封閉的小顯存墻 , 而是直接訪問系統的大內存池 。
接下來我們將通過一個真實的微調場景來檢驗這臺機器的能力 。
首先 , 我們選擇的模型是完整版的 Qwen3-VL-30B-A3B-Instruct 。
糟糕的網速下等待 1 個多小時 , 下載完成 。 而為了微調模型 , 我們還需要一個數據集 , 這里我們選擇是的 lyan62 發布的 FoodieQA 數據集 。 據介紹 , FoodieQA 是一個用于細粒度理解中國飲食文化的多模態數據集 , 其中包含多圖像、單圖像視覺問答(VQA)以及關于中國地方美食的文本問答問題 。 該數據集基于 350 種獨特美食條目對應的 389 張獨特美食圖像構建而成 。 它要求模型不僅能看圖 , 還要懂中國味 。
接下來 , 我們先是自己嘗試了編寫微調腳本 , 但效果并不佳 。 于是我們決定直接讓 AI 全程接管 , 來一次 vibe fine-tuning(氛圍微調)!
給 PGX 裝上 Claude Code , 并配置好 MiniMax-M2.1 。 然后下達一小段指令:
你是一位出色的 AI 模型微調專家 , 你現在需要在一臺擁有 128GB 統一內存的聯想 ThinkStation PGX 上微調一個 30B 大小的 MoE 模型 。 在這里 , models/Qwen3-VL-30B 文件夾中是已下載的 Qwen3-VL-30B-A3B-Instruct 模型 , FoodieQA 文件夾中是 lyan62/FoodieQA 數據集 。 請使用 FoodieQA 數據集完成對 Qwen3-VL-30B-A3B-Instruct 模型的進一步微調 。
接下來就是等待 。 兩三個小時后 , 訓練方案終于確定下來 。 以下是訓練穩定后 nvtop 監視畫面 。
可以看到 , 對于該任務 , GPU 使用率大體在 23% 左右 , 顯存(統一內存)的占用接近 60GB 。
要知道 , 這 60GB 的顯存占用 , 如果是消費級顯卡早就炸了三次了 , 但在 ThinkStation PGX 上 , 顯存條只吃了一半 , 它甚至游刃有余 。 更令人印象深刻的是溫控 。 得益于出色的散熱設計 , 在開了暖氣的房間里 , ThinkStation PGX 的 GPU 最高溫度也僅達到了 40℃ 。
一夜之后 , 微調完成 。 在驗證集上的損失從 4.03 成功降到了 1.06 , 下降了 74% 。
來一張我們自己拍攝的食物照片來簡單試試 。
結果大體正確 , 這個微調過的 Qwen3-VL-30B-A3B-Instruct 正確識別了中間的陽春面 , 并正確地指出了其屬于淮揚菜 , 不過它也忽略了旁邊的蟹黃(確實有點難以辨認) 。
整體體驗下來 , 聯想 ThinkStation PGX 展現出了幾個讓開發者無法拒絕的優勢:
從容加載:128GB 內存意味著我們可以不需要任何量化 , 甚至可以直接加載 FP16/BF16 精度的原始模型 。 大膽訓練:可以直接開啟較大的 Batch Size , 不用擔心 OOM , 訓練效率成倍提升 。 英偉達原生體驗:基于 Linux+CUDA , 可以直接 clone 官方的微調代碼庫 , 配置好環境 , 一行命令 bash finetune.sh 直接開跑 , 沒有適配的痛苦 。結論很明顯:聯想 ThinkStation PGX 是目前桌面上唯一能讓 30B 多模態模型「跑得舒服」的設備 。
事實上 , 微調模型絕非 PGX 的唯一用途 。 打開想象力 , 我們能發現很多適合它的大顯存 AI 場景 , 比如:
算法工程師的本地沙盒:用于金融或醫療等數據敏感行業 。 工程師可以在本地完整加載 70B+ 模型驗證想法 , 無需申請云端資源 , 數據絕不出域 。 野外科研的離線算力站:對于珍稀動物監測或地質勘探 , 野外往往沒有高速網絡 。 PGX 可塞進背包 , 離線處理海量紅外監控影像 。 長視頻生成的無限畫布:視頻生成模型對顯存需求隨時間線性增長 。 PGX 的大內存能支持生成更長時間的連貫視頻素材 。 具身智能的數字孿生:在桌面運行高保真的 Isaac Sim 仿真環境 , 訓練完成后直接部署到架構同源的 Jetson 模塊 , 零遷移成本 。 數字藝術家的私有風格庫:長期累積創作者自己的 Style Checkpoint , 本地運行風格遷移 , 不用擔心獨家畫風泄露 。為什么選擇聯想 ThinkStation PGX?
既然核心芯片和架構與英偉達的參考設計(DGX Spark)一致 , 為什么我們更推薦聯想的 PGX?
答案在于兩個詞:工程與服務 。
馴服 240W 功耗的蜂窩美學
GB10 是一顆性能強悍的超級芯片 , 但其滿載功耗高達 170W , 整機功耗更達到 240W 。 在一個 1 升的極小空間內壓制這種熱量 , 如果設計不當 , 很容易導致積熱降頻 , 甚至變成桌面燙手寶 。
聯想沒有簡單照搬公版設計 , 而是沿用了 ThinkStation 家族標志性的「蜂窩狀」散熱設計 。 這種源自空氣動力學的設計理念(靈感源于阿斯頓?馬丁的進氣格柵) , 最大化了機箱前后的進出風效率 。
實測表明 , 相比于初期公版參考設計可能存在的積熱問題 , PGX 表現得更加「冷靜」 。 對于需要連續跑幾天幾夜微調任務的開發者來說 , 這種基于 Top 1 工作站大廠的工程穩定性 , 意味著你不用半夜起來擔心訓練因過熱而中斷 。
數據保險
對于購買 PGX 的企業和科研用戶來說 , 最值錢的往往不是機器本身 , 而是硬盤里的數據:那些私有的行業數據集、微調后的模型權重、以及核心算法代碼 。
作為中國市場份額第一的專業工作站品牌 , 聯想給 PGX 配備了中國區獨享的頂格服務:
3 年上門保修:相比于海淘水貨或部分競品可能僅提供的 1 年質保 , 這是面向生產力用戶更合理、也更負責任的保障方案 。 硬盤數據恢復服務:這是最打動企業用戶的痛點 。 萬一硬盤發生物理損壞 , 聯想提供專業的數據恢復服務 。 對于科研實驗室等數據至關重要的機構來說 , 這項服務的價值遠超機器價格本身 。 售后技術支持:聯想工作站在全國擁有超過 1 萬名認證工程師 , 2300 多個專業服務站 , 100% 覆蓋 1-6 線城市 , 能保證 7x24 小時在線支持 。升級空間:雙機 NVLink
如果你覺得 128 GB 依然不夠用 , PGX 還預留了升級空間 。
借助內置的 NVIDIA ConnectX-7 網絡技術 , 你可以將兩臺 ThinkStation PGX 通過高速互聯 。 在 NVLink 的加持下 , 兩臺機器瞬間化身為一個擁有 256 GB 統一內存的超級怪獸 。
這時 , 你的桌面算力上限將被進一步打破:你甚至可以嘗試挑戰上千億參數量級別的超大模型推理 。 從 1 升小盒子到雙機并行 , 這給了開發者極大的靈活性 。
算力普及的「最后一公里」
回顧這幾天的體驗 , 聯想 ThinkStation PGX 給我們留下的最深印象 , 并不是某個具體的跑分數字 , 而是它帶來的「確定性」 。
【不上云、不租卡,如何優雅地在本地微調Qwen-VL-30B?】在過去 , 想要在本地搞定 30B 級別以上的多模態模型微調 , 總是充滿了不確定性:顯存會不會爆?量化會不會掉點?算子能不能跑通?
而 ThinkStation PGX 用 128 GB 的海量內存和原生的 CUDA 生態 , 把這些不確定性變成了一條平滑的直線 。 它填補了消費級顯卡(顯存太?。 ┖凸ひ導斗衿鰨ǘ蔡螅┲淠歉鼉藪蟮惱嬋盞卮?。
至于大家都關心的價格 , 在擁有 128GB 統一內存和原生 CUDA 生態的前提下 , ThinkStation PGX 1TB 版本售價為 31999 元 , 4TB 版本售價為 36999 元 。 這僅僅相當于一塊高端專業顯卡的價格 , 卻可以換來一臺完整的、開箱即用的桌面 AI 超算 。
如果要我以編輯的身份給一個購買建議 , 我的答案是:對于深陷顯存焦慮的專業開發者而言 , 聯想 ThinkStation PGX 不僅值得買 , 甚至可能是目前 4 萬元以內唯一的最優解 。
不妨算一筆賬:在市面上 , 要獲得同等規模(128GB)的顯存容量 , 你通常需要購買昂貴的專業級計算卡 , 或者租用按小時計費且數據需上傳云端的 A100 實例 。 而 ThinkStation PGX 以不到 3.7 萬元的頂配價格 , 提供了一個擁有海量統一內存、原生 CUDA 生態且數據完全私有的桌面級方案 。
如果你只是偶爾跑跑 7B 小模型 , 它或許略顯奢侈;但對于那些受夠了環境配置錯誤的算法工程師、對數據安全有極高要求的科研團隊 , 以及希望快速驗證 idea 的初創公司來說 , PGX 買到的不僅僅是硬件 , 更是「不折騰」的權利:讓你不必再為顯存溢出修改代碼 , 也不必再為跨平臺移植浪費時間 。 這種讓開發者回歸創造力本身的價值 , 遠超機器售價本身 。
這或許才是 AI 基礎設施普及過程中 , 最動人的「最后一公里」 。
如果你也受夠了在 OOM 的邊緣試探 , ThinkStation PGX 值得成為你桌面上的下一臺設備 。
推薦閱讀
- 浩瀚發布Eyepic分體云臺相機:做當前大家真正需要的,簡單易用的產品
- 復旦微電:2026將提升FPGA、PSoC、FPAI等新產品的供應能力
- 念稿不卡殼、眼神不飄移,百視悅T5自媒體人的鏡頭自信神器
- 性能賽道再起風云,“游戲手機”還有存在的必要嗎?
- 分體、全景、機械臂!六大玩家CES交卷:影像賽道打法變了
- 字節、阿里、美團首次在具身智能“同框”,十億級融資背后,自變量到底憑什么?
- 中國鐵塔光纜集采結果出爐:奧星光通信、通鼎互聯、西古光通入選
- 2026年,大模型訓練的下半場屬于「強化學習云」
- 三強爭霸2026!榮耀、OPPO、vivo超大杯齊聚,影像天花板再突破
- 榮耀X80曝光:萬級電池手機、千元檔位
