Intel至強6:AI江湖的幕后大佬、NVIDIA的唯一伙伴

Intel至強6:AI江湖的幕后大佬、NVIDIA的唯一伙伴

文章圖片

Intel至強6:AI江湖的幕后大佬、NVIDIA的唯一伙伴

文章圖片

Intel至強6:AI江湖的幕后大佬、NVIDIA的唯一伙伴

文章圖片

隨著生成式AI、預測式AI的浪潮一波高過一波 , 工作負載的類型越來越豐富、復雜度越來越高 , 對于AI服務器性能、能效的需求也是水漲船高 。
每每說到AI服務器、AI工作站、AI一體機等裝備 , 很多人的第一反應就是高算力的AI GPU加速器 。
它確實是整個AI系統的主角 , 承擔著最繁重的使命 , 但是別忘了 , 只有GPU加速器是無法獨自支撐整個系統的 , 而任何計算系統都離不開CPU處理器的坐鎮 。

CPU處理器作為任何計算系統的中樞和大腦 , 在AI系統中也起著不可替代的作用 , 只是一貫比較低調罷了 。
如果說GPU加速器是AI系統中在臺前炫技的耀眼明星 , CPU處理器就是隱藏幕后、默默風險的大管家 , 協調著整個系統的高效運行 , 尤其是保障GPU加速器的各項需求可以得到全面滿足 , 強大的算力可以高效釋放 。
因此 , 這個時候的CPU處理器 , 我們一般稱之為“主控CPU” 。
采用最合適、匹配的主控CPU搭檔AI加速器 , 組成高效的AI加速系統 , 可以在工作負載性能、總體擁有成本(TCO)之間 , 達到理想的平衡 。

在AI加速系統中 , 主控CPU負責通過提供高效的任務管理 , 以及出色的預處理性能 , 來優化處理性能和資源利用率 , 這對于確保AI模型訓練流程中的數據高效供給、維持AI處理器的理想運行狀態 , 都是至關重要的 。
主控CPU作為AI加速系統的“中樞神經” , 可以執行管理、優化、預處理、處理、卸載等各種任務 , 從而提高系統性能和能效 。
Intel的至強系列處理器 , 尤其是最新一代至強經系列 , 無論是根據各種AI基準測試 , 還是根據全球客戶的實際部署經驗 , 都可以說是強大、高效AI加速系統的主控CPU的理想之選 。
NVIDIA最新、最強的DGX B300系統 , 就選擇了Intel新款至強6776P來作為主控CPU , 而去年的MGX系統曾使用至強6767——Intel也是NVIDIA唯一的主控CPU合作伙伴 。

至強6為何如此之強?
我們可以從六個不通過方向 , 逐一看看AI加速系統對主控CPU的需求 , 以及至強6系列是如何滿足的 。
1、AI加速系統需要非常強大、靈活的IO性能 。
至強6系列可以支持多達96條PCIe 5.0通道 , 比上代增加了20% , 雙路系統就是192條 , 因此帶寬超高、數量管夠 , 可以靈活分配給不同的加速器、擴展卡 。
2、AI加速系統需要盡可能高的單線程性能 。
至強6系列不但擁有最多128個性能核心、504MB海量三級緩存 , 還具備強大的單線程性能 , 并支持不同的睿頻加速技術 。
比如PCT(優先核心睿頻) , 可以把少部分核心加速到更高的頻率來服務相應的GPU , 最多支持8個核心 。
比如SST , 可以針對不同的核心配置分配不同的頻率 , 使其擁有不同的性能 。
3、AI加速系統需要盡可能高的內存容量與帶寬 。
至強6系列不但支持更高頻率的DDR5-6400 , 還獨家率先支持MRDIMM內存 , 頻率可高達8800MHz , 帶寬進一步提升30% , 對比上代領先2.3倍 , 對于內存敏感性AI負載尤其有利 。
再加上多達12個內存通道 , 至強6系列可提供無與倫比的內存帶寬與容量 , 單路系統最高支持3TB 。
NVIDIA DGX B300系統 , 就選擇了每通道兩條DIMM(2LDPC)、5200MHz頻率的方案 , 主要是為了實現更大的內存容量 。
另外 , 至強6系列還支持CXL , 可保持CPU內存空間與AI加速器內存之間的一致性 , 實現高性能資源共享 , 降低整體系統成本 。
4、AI加速系統需要CPU做好數據預處理和卸載 。
至強6系列支持AMX(高級矩陣擴展)指令 , 新增支持FP16數據格式 , 非常適合這項工作 , 尤其是隨著MoE、MLP模型的出現和流行 , 在CPU上卸載部分工作越來越流行 。
5、AI加速系統需要強大的RAS 。
【Intel至強6:AI江湖的幕后大佬、NVIDIA的唯一伙伴】RAS指的是可靠性、可用性、可維護性 , 對于工作站、服務器、數據中心硬件是必不可少的屬性 , 至強6當然也少不了 , 有了它就可以大大減少大規模停機時間 , 避免高額損失 。
RAS技術支持多項高級管理功能 , 包括遙測、平臺監控、共享資源控制、實時固件更新等 , 匯聚了平臺合作伙伴、ISV獨立軟件開發商、解決方案集成商的豐富專業知識與經驗 。
6、AI加速系統需要靈活的形態 。
至強6系列支持DC-MHS全球標準 , 無論是NVIDIA MGX還是DGX , 雙方都有合作 , 最新的就是DGX B300 , 由雙方共同打造 , 開展了大量的技術驗證工作 。

至強6系列家族中 , 有三款特殊型號是專門用于主控CPU的 。
它們均基于P核即性能核的設計 , 目前的主控CPU均是如此 , 未來是否會有E核即能效核設計 , 還要觀察市場需求的變化 。
其中 , NVIDIA DGX B300采用的是至強6776P , 并且是雙路配置 。
至強6776P配置了64個核心(128線程) , 基準頻率2.3GHz , 全核睿頻3.6GHz , 最大睿頻3.9GHz , PCT睿頻可以在最多8個核心上跑到4.6GHz , 比傳統SKU再次提高了多達700MHz 。
另外 , 它配備336MB緩存 , 支持八通道DDR5-6400、MRDIMM-8000內存 , 可提供88條PCIe 5.0通道 , 熱設計功耗350W 。
這里解釋一下幾種不同的睿頻頻率:
全核睿頻即All Core Turbo , 是指所有核心處于活躍狀態時 , 所能運行的最高頻率 , 適合作為虛擬機等場景 , 此時需要每一個核心跑在盡可能高的性能上 。
最大睿頻即Max Turbo , 是在傳統SKU中能夠達到最高的睿頻 , 它假設一半核心活躍、另一半核心休眠 , 活躍核心就能夠運行在更高的頻率 , 也就是Max Turbo對應的頻率 。
優先核心睿頻即Priority Core Tubo , 是指只開啟更少量的核心 , 一般2-8個 , 讓它們進一步加速到更高的頻率 , 從而以更高的性能 , 滿足AI加速系統中GPU、I/O等的苛刻需求 , 避免出現系統瓶頸 。
至于使用哪些核心進行加速 , 可以在啟動前使用BIOS設定 , 也可以在運行中通過SST-TF工具實時設定 。
更低端的至強6774P也是64核心 , 除了基準頻率提高到2.5GHz , 與至強6776P最大的不同就是僅支持單路但可提供多達136個IO通道 , 擴展經更加強悍 。
更高端的至強6962P擁有72核心144線程、432MB緩存 , 基準頻率就有2.7GHz , 全核睿頻也是3.6GHz , 最大睿頻也是3.9GHz , PCT睿頻則是4.4GHz 。
它還支持12通道內存 , 可提供96個PCIe通道 , 熱設計功耗來到了500W 。
以上三款都是面向所有客戶的開放產品 , 屬于產品規劃和路線圖的一部分 , 未來不排除根據市場需求或者客戶定制化需求 , 推出更多產品 。

剛才多次提高到NVIDIA DGX B300 AI加速系統 , 這就是它的總覽圖 , 屬于高端的DGX , 專為AI訓練等應用而生 。
它配備了雙路至強6776P主控CPU處理器 , 彼此通過UPI高速總線互連 , 每路都是最多8個PCT睿頻核心 , 客戶在使用的時候可以根據需要定制選擇8個、6個、4個或2個核心用于PCT睿頻 。
每一路至強6776P之下 , 通過兩個NIC高速網卡 , 連接四塊AI GPU , 整個系統就是八塊AI GPU , 彼此通過NVLink高速總線互連 。
這套系統在選擇主控CPU時采取了比較平衡的設計 , 但性能依然是業界領先的 , I/O性能、RAS性能等等也都很均衡 , 無疑是個理想的選擇 。

當然 , 我們知道 , NVIDIA AI加速系統中已經普遍使用自行研發的Grace CPU處理器 , 來搭配AI GPU加速器 。
事實上 , 目前市場上 , 許多AI系統提供商都在使用自研主控CPU來配合AI GPU 。
從Intel的角度來看 , 其服務方向是為客戶提供更多選擇 , 而且作為開放系統 , 始終秉持開放態度 , 為主控CPU提供最佳選擇 , 以滿足客戶的多樣化需求 。
NVIDIA DGX B300產品選擇了Intel至強6作為主控CPU , 而且這并非測試或者試驗產品 , 而是一款商業化的成熟產品 , 無疑是對Intel至強產品性能和兼容性的有力認可 。

    推薦閱讀