專訪|戴爾科技:解耦架構賦予企業IT進化主動權

專訪|戴爾科技:解耦架構賦予企業IT進化主動權

文章圖片


古希臘哲學家普魯塔克提出過一個著名的思想實驗:如果忒修斯之船上的木板被一塊塊替換 , 直到沒有任何一塊仍是原物 , 這艘船是否還能被視為原來的那一艘?這一問題之所以能夠被反復引用 , 在于其觸及了事物更替的本質:當一個系統的組成部分被持續更換 , 身份與連續性應當由什么來定義?所以 , 只要這種“漸進替換”的過程存在 , 悖論就會在不同形態中反復出現 。

時間來到2026年 , 這個抽象問題開始在企業級IT基礎設施中獲得現實的對應 。 現在 , 數據中心正經歷的是一場長期、分階段的重構 。 盡管現代化應用持續演進 , 但并未促使企業將舊有基礎設施體系完全遷移到全新的計算體系 , 相反 , 絕大多數基礎設施的調整都發生在業務持續運行的前提下——系統一邊運行 , 一邊被改造 。
在實現路徑上 , 這種演進表現為一系列局部的替換 , 企業首先引入新的現代化加速器 , 以承載推理等復雜負載;隨后調整CPU架構 , 以匹配不斷變化的計算密度;內存與存儲層級被重新組合 , 網絡拓撲和數據流向也隨之被重構 。 單次調整看似有限 , 但在數年持續疊加之后 , 系統在物理構成和運行邏輯上 , 已經與最初部署時截然不同 。
正是在這一過程中 , “忒修斯之船”的思想開始變成企業級IT的具體痛點——“企業在推進數據湖倉和應對現代化負載時遭遇的瓶頸 , 表面上表現為性能或規模不足 , 本質卻是基礎架構缺乏演進能力 。 ”這是戴爾科技集團大中華區信息基礎架構解決方案事業部資深總監席與琛給出的判斷 。 當計算、存儲與加速能力被固化在一次性設計中 , 每一次新需求 , 都會被放大為系統級重構 , 成本和風險也隨之累積 。

戴爾科技集團大中華區信息基礎架構解決方案事業部資深總監 席與琛
正是在這樣的背景下 , 戴爾科技提出“解耦架構”(Disaggregated Architecture) , 直面“忒修斯之船”的現實拷問 。 其核心目標是在硬件持續替換的過程中 , 讓平臺在邏輯層面保持一致 , 使業務始終運行在同一套系統之上 , 而不必反復遷移 。
換個角度說 , 現在企業應該關心的 , 并不是服務器是否還是“原來的那臺機器” , 而是在不斷演進的硬件之上 , 核心業務是否仍然可以被視為同一個系統、同一條生產線 。
01 架構之變 , 終結“叉車式升級”
在過去二十年里 , x86服務器的演進基本遵循同一種模式 , 每隔3~5年 , 隨著CPU的迭代更新 , 企業需要對服務器進行整體更換 。 這種更新方式通常被稱為“叉車式升級”(Forklift Upgrade) 。
所謂“叉車式升級” , 指的是為了獲得新一代處理器的性能 , 企業須淘汰整臺服務器 , 包括機箱、電源、散熱組件以及I/O擴展卡等仍然可以繼續使用的部件 。 這種做法 , 本質上源于服務器內部各類資源 , 在設計階段就被緊密綁定在同一生命周期內 。 在以通用計算為主的時代 , 這種緊耦合架構尚能被接受 , 但隨著現代化工作負載成為主流 , 這一模式開始暴露出明顯問題 。
其一 , 是算力需求節奏的不一致 。 有數據顯示 , 現代化應用對GPU或NPU的需求變化很快 , 更新周期往往只有6個月左右 , 網絡帶寬的演進速度也在加快 , 從400G提升到800G通常只需要一年時間 。 相比之下 , 通用CPU的性能提升節奏明顯放緩 。 如果企業因為引入新的部件而被迫整體更換服務器 , 或者僅僅為了升級GPU/NPU , 就必須淘汰仍具價值的CPU、智能網卡和網絡設施 , 整體擁有成本(TCO)將迅速上升 。
其二 , 是業務系統之間的集成問題 。 席與琛指出 , 企業往往同時運行兩類負載 。 一類是基于上一代硬件和虛擬化架構的傳統ERP、CRM系統;另一類是基于容器和微服務架構的現代化應用 。 由于兩類系統在基礎設施層面缺乏統一設計 , 新舊架構之間容易形成集成斷層 , 增加系統整合和運維的復雜度 。 在這一情況下 , 企業并不希望頻繁進行整體基礎設施更換 , 而是希望擁有一種架構 , 既能夠穩定承載傳統業務 , 又能夠靈活支持新型現代化負載 , 同時避免每一次升級都推倒重來 。
針對上述問題 , 戴爾科技的解決思路 , 是構建一個能夠彌合所有斷層的統一平臺 , 即引入“解耦架構” , 對硬件資源的組織方式進行重構 。 其中 , 作為負責計算的服務器設備 , 新一代Dell PowerEdge憑借OCP DC-MHS R1標準的模塊化架構設計 , 為“解耦架構”思路提供核心技術基礎 。 OCP DC-MHS R1標準的目標 , 是將服務器從一體化設備 , 拆分為多個可獨立演進的模塊 。 在DC-MHS R1的架構下 , 服務器主板不再承擔所有功能 , CPU和內存也被整合為獨立的計算模組 , 通過標準接口與底座連接;機箱、電源、散熱系統以及I/O組件同樣模塊化 , 接口標準統一 , 可跨代升級 , 也可作為長期使用的基礎設施保留下來 。
這種設計使得企業在升級基礎設施時 , 只需要更換計算模組或特定組件 , 而無需整體更換服務器 , 從而延長了硬件資產的使用周期 。
解耦架構的另一個關鍵點是“向前兼容性” 。 這是席與琛反復強調的關鍵詞 , 也是解耦架構帶來的巨大紅利 。 服務器在設計階段即為未來預留升級空間 , 使不同類型的資源可以按照各自的節奏進行更新 。 例如 , 當現代化應用的微調或推理任務需求增加時 , 企業可以優先升級計算模組;當數據規模擴大時 , 則可以集中擴展存儲和I/O資源 。 計算、存儲和網絡不再被綁定在同一升級周期內 , 有助于降低整體投資成本 。
通過DC-MHS R1的模塊化設計 , 服務器底座實現了統一化 。 在同一物理架構下 , 企業可以根據實際需求 , 部署不同廠商的處理器平臺 。 這種方式縮短了新技術的上線時間 , 也降低了對單一硬件廠商的依賴 , 為數據中心提供了更大的技術選擇空間 。
02  透視算力黑盒 , 運維從“響應”走向“預判”
如果說架構問題主要考驗企業的投入能力 , 那么運維問題更多考驗的是企業的組織和人力體系 。 如今 , 企業基礎設施的邊界正在被不斷拉長 。 一方面 , 核心數據中心內服務器規模動輒上萬臺;另一方面 , 越來越多算力被部署到無人值守的邊緣場景 。
席與琛指出 , 當服務器數量達到萬臺量級時 , 傳統依賴人工經驗的運維流程會迅速失去效率 。 “上萬臺服務器需要部署、維護和運維 , 工序本身就會成為瓶頸 。 ”
具體而言 , 在這一規模下 , 傳統運維體系暴露出三類系統性問題 。
第一 , 是可見性不足 。 運維人員往往無法準確判斷哪些服務器處于空轉狀態 , 哪些已經接近過載 。 依賴傳統SNMP的輪詢機制 , 數據刷新周期以分鐘計 , 難以捕捉短時間內的負載波動和性能異常 。
第二 , 是系統復雜度失控 。 服務器的真實運行狀態分散在硬件、固件、操作系統和虛擬化層等多個技術棧中 , 運維人員只能看到結果指標 , 卻難以追溯問題源頭 。
第三 , 是人力資源無法覆蓋邊緣場景 。 在大量邊緣節點中 , 往往缺乏常駐IT運維人員 。 同時 , 即便是固件升級或系統重裝這類基礎操作 , 一旦需要人工現場支持 , 成本就會被迅速放大 。
針對運維層面的“不可見”和“不可控” , 戴爾科技的核心思路是提升硬件自身的可觀測性 , 并將數據直接交由系統分析 , 而不是單純依賴人工經驗判斷 。 在新一代PowerEdge服務器中 , 戴爾科技的集成式遠程訪問控制器iDRAC(Integrated Dell Remote Access Controller)已演進至第10代 , 其角色也不再局限于以往的遠程管理接口 。 席與琛表示 , iDRAC 10強化了遙測流式傳輸(Telemetry Streaming)機制 , 覆蓋服務器內部180余項硬件指標的數據 , 可通過遙測流式傳輸 , 將數據實時發送至分析平臺 , 取代傳統的輪詢采集方式;此外 , 最新iDRAC 10支持24種不同的組件遙測映射 , 還提供自定義遙測報告功能 。 更重要的是 , iDRAC的監控顆粒度進一步下沉 , 目前監控范圍已經覆蓋到CPU級別 。 這一層級的可見性 , 為性能瓶頸分析和資源調度提供了極大助力 。
硬件數據是基礎 , 真正降低運維復雜度的關鍵在于分析能力 。
基于云的監測和管理解決方案Dell AIOps是定位明確的輕量化應用 。 系統會基于歷史數據 , 評估不同時間段的正常負載、功耗和溫度特征 。 服務器運行狀態出現異常偏離時 , 即使尚未觸發傳統告警閾值 , AIOps Infrastructure Observability也可以提前識別潛在風險 。 例如 , 在負載較低的時間段 , 服務器能耗突然異常上升 , 系統可能將其標記為惡意程序入侵或散熱性能退化的早期信號 。 “這種方式 , 使運維從‘故障響應’轉向‘風險預判’ 。 ”席與琛說 。
在邊緣計算場景中 , 自動化水平直接決定運維是否具備現實可行性 。 面對無人值守節點的部署難題 , 戴爾科技在PowerEdge體系中引入了零接觸部署(Zero Touch Deployment)機制 。 實測數據顯示 , 采用虛擬化就緒服務器后 , 單臺設備的部署時間可縮短至少40分鐘 , 同時減少約67%的安裝步驟 。
在戴爾科技的運維體系中 , AIOps負責“看清正在發生什么” , 零接觸部署負責“把服務器正確地放上生產線” , 而ProDeploy Infrastructure Suite則是將部署能力規?;?、標準化的交付工具 。 通過ProDeploy Infrastructure Suite與iDRAC的協同 , 服務器在通電并接入網絡后 , 即可自動使用服務器配置文件來進行硬件設置、固件更新 , 以及操作系統安裝 , 整個過程無需人工介入 。
這一機制 , 使PowerEdge服務器在邊緣計算場景下具備真正的“即插即用”能力 , 也顯著降低了分布式算力部署對現場運維人員的依賴 。
03  “軟硬協同” , 擊穿能耗天花板
在所有基礎設施挑戰中 , 最難被“繞過”的 , 是物理規律本身 。
近年來 , 能耗已經成為算力部署中最嚴峻的挑戰 。 隨著CPU核心數持續攀升、高性能GPU成為標配 , 服務器的功耗結構正在發生根本變化 , 計算單元成為主要的耗能來源 。 目前 , 單臺服務器功耗突破10kW已不再罕見 , 在部分高密度配置下 , 甚至出現一個機柜只部署一臺服務器的極端情況 。
這一變化 , 使傳統數據中心同時面臨兩重壓力 。 一方面 , 是傳統散熱能力的失效 。 在超高熱密度條件下 , 依賴氣流交換的傳統風冷方案逐漸逼近極限 , 冷空氣難以有效抵達真正的熱源位置 。 另一方面 , 是供能能力的不足 。 不少數據中心在建設之初更重視空間規模 , 而非單位機柜供電能力 , 然而在面對新一代算力平臺時 , 電力基礎設施則難以支撐持續增長的負載需求 。
針對熱密度與能耗的雙重挑戰 , 戴爾科技在PowerEdge平臺上采取的策略 , 是覆蓋風冷、液冷與軟件調度的系統性協同方案 。 席與琛將其概括為“軟硬協同” 。 具體來說分為四個步驟 。
1.Smart Flow:先解決“氣怎么走”
在風冷仍占據主流的部署場景中 , 戴爾科技首先從機箱內部結構入手 , 對氣流路徑進行重構 。 通過將電源模塊重新布局至1U/2U機箱兩側 , 并在內部劃分更清晰的冷、熱通道 , Smart Flow設計降低了氣流阻力 , 使冷空氣能夠更直接地抵達CPU、內存和存儲等關鍵發熱區域 , 從而提升整體散熱效率 。
2.多矢量散熱:再解決“往哪吹、吹多少”
在結構優化之外 , PowerEdge進一步引入多矢量散熱(Multi-Vector Cooling)機制 , 對散熱過程進行精細化控制 。 PowerEdge服務器內部部署了約50~70個高精度傳感器 , 實時監測電源、I/O模塊、計算單元等不同部位的熱量變化 。 系統結合智能冷卻算法 , 動態調節風量和風扇轉速 。
席與琛解釋稱 , 采用這一方式的目標 , 是為了在保證組件可靠性的前提下 , 盡可能降低風扇和系統整體功耗 。 例如 , 當局部I/O模塊溫度升高時 , 系統只針對該區域增強氣流 , 而不會整體拉高風扇轉速 。
3.冷板式液冷:突破風冷上限
在運行大功耗的現代化負載時 , 算力密度繼續提升 , 風冷不可避免地觸及天花板 。 液冷已經成為現實選擇 。 戴爾科技的智能冷卻解決方案也已支持冷板式液冷 , 讓冷卻液直接流經CPU和GPU表面的冷板 , 高效帶走核心熱量 。 這一方案有效緩解散熱壓力的同時 , 也使高密度型號的服務器能夠在不犧牲性能的情況下 , 顯著提升機柜部署密度 。
4.軟件定義的能源管理
在硬件散熱之外 , 戴爾科技同時將能源管理納入軟件層調度 。 利用OpenManage Enterprise Power Manager , 管理員可以為服務器設置功耗上限 , 并根據業務優先級分配電力資源 。 結合Dell AIOps , 系統還能對負載進行整合優化 , 識別季節性異常 , 并對能耗趨勢進行長期預測 , 從而提升整體能源使用效率 。
04  在硅片深處植入“信任錨點” , 給服務器貼上“數字封條”
硬件散熱和能源管理得到保障之后 , 下一步的挑戰便是 , 如何在分布式、無邊界的環境下 , 重建設備與系統的可信基礎 。
隨著計算資源廣泛分布在數據中心、邊緣節點和多云環境中 , 物理邊界不復存在 , 服務器安全面臨新的挑戰 。 從生產到運輸 , 固件或關鍵組件都有可能被篡改 , 傳統黑客可利用物流漏洞植入惡意模塊 , 破壞系統完整性 。 其次是物理攻擊風險 , 邊緣設備缺乏現場保護 , 容易遭非法接入或篡改 。 再者是傳統網絡邊界的失效 , 在設備分散、邊界模糊的場景下 , 依賴防火墻和局域網絡的安全策略已難以奏效 。
席與琛指出:“在無邊界、全分布的環境中 , 傳統的安全手段已經行不通了 , 企業必須從源頭、從設備底層開始重新建立信任 。 ”事實上 , 戴爾科技的安全理念就是自底而上 , 從源頭保障信任 , 覆蓋了硬件和軟件全鏈路 , 在無邊界、分布式的環境中 , 這一理念尤其關鍵 。
一方面是建立硅片級信任根(Silicon Root of Trust) 。 PowerEdge服務器在開機時 , BIOS和固件啟動鏈會通過硅片信任根校驗完整性 , 如果固件被篡改 , 校驗將失敗 , 服務器就會拒絕啟動 。 整個啟動鏈全程受保護 , 確保系統從開機即可信 , 這正是企業構建零信任體系的第一道防線 。
另一方面是SCV安全組件驗證(Secured Component Verification) , 這可理解為服務器的“數字封條” 。 在生產、運輸和交付環節 , 服務器組件可能被篡改 。 SCV功能通過加密證書 , 讓企業驗證各部件是否與原始配置一致 。 這就像給服務器貼上一張撕毀即失效的電子封條 , 讓運輸過程中的安全威脅無所遁形 。
在此基礎上 , 戴爾科技還構建了覆蓋軟件和虛擬化層的多層零信任體系 。 iDRAC 10支持TLS 1.2、SELinux , 以及SHA-384/512高強度加密 , 并集成安全密鑰管理(SEKM);此外 , 新一代PowerEdge亦可結合SGX/TDX技術進行內存隔離 , 強化虛擬化環境的邊界安全;同時 , 通過Cyber Recovery數據避風港 , 隔離保護備份數據 , 即便生產環境遭受攻擊 , 也能快速恢復業務 , 抵御勒索和破壞 。
整體來看 , 這套安全策略 , 形成了從底層硅片到整體硬件 , 再至軟件的全鏈條防護 , 讓企業在邊緣和多云環境中自由部署服務器 , 也為業務連續性提供堅實保障 。
05 形態追隨負載 , 服務器“殊途同歸”
解耦架構落地之后 , 服務器產品的分化開始加速 。 在以前 , 企業更關注“這一代服務器比上一代強多少” 。 而在算力、存儲和網絡可以獨立演進的前提下 , 問題變成了 , 不同負載 , 是否需要不同形態的服務器 。
席與琛的判斷很明確 , 新一代Dell PowerEdge服務器圍繞典型工作負載進行角色化設計 , 直接體現在產品形態的分化上 。
在面向現代化應用與HPC的場景中 , PowerEdge R7725與PowerEdge R6725的優先級較高 。 這兩款服務器均搭載AMD EPYC第五代處理器 , 分別采用2U與1U雙路設計 , 核心目標是在有限機架空間內 , 最大化釋放并行算力與I/O能力 。 兩款服務器可作為高密度算力節點存在 , 適合深度學習和高性能計算等重負載場景 。 在解耦架構下 , 這類服務器更像是“算力模塊”的物理載體 , 強調可快速部署、可快速擴展 。
從極致算力轉向成本結構時 , 產品邏輯隨之發生變化 。 PowerEdge R7715與PowerEdge R570對應的是虛擬化和軟件定義存儲的場景 。 PowerEdge R7715采用2U單路架構 , 充分利用處理器的多核優勢 , 在保持I/O與存儲擴展能力的同時 , 用單路形態替代傳統雙路服務器 , 從而顯著降低虛擬化環境中的單位算力成本 。 PowerEdge R570則為企業部署軟件定義存儲節點提供了高性價比選擇 , 強調性能、容量與成本之間的平衡 , 為大規模虛擬化和SDS部署提供穩定、可控的基礎能力 。
當企業的采購取向回到“穩態優先”時 , PowerEdge R770成為更合適的選擇 。 該機型搭載英特爾至強6處理器 , 主要面向ERP、CRM等核心業務系統 。 這類負載并不追求極限算力 , 而是更依賴平臺成熟度、運行穩定性 , 以及長期能耗表現 。 PowerEdge R770的定位 , 正是在解耦架構體系中為這些關鍵系統提供持續、可靠的計算底座 , 充當支撐業務長期運行的“錨點” 。
當計算進一步向云原生場景延伸 , 企業對服務器的選擇 , 就需要衡量空間、密度與部署效率 。 PowerEdge R470采用的1U單路設計 , 主要應用于端Web應用和微服務架構 , 兼顧存儲容量與配置靈活性;PowerEdge R670則是1U雙路高密度機型 , 針對大數據和高并發場景 , 可在有限機房資源內實現更高的算力密度 , 支持算力池的快速擴展 。 此外 , PowerEdge R6715 , 作為1U單路服務器 , 面向多核工作負載進行了針對性優化 , 適合對性能與空間同時敏感的數據中心環境 。
06 寫在最后:戴爾科技正幫助企業級IT掌握“進化的主動權”
透過PowerEdge的技術參數 , 會發現戴爾科技新一輪基礎設施更新 , 是在幫助企業級IT重新掌握“算力的定義權”與“進化的主動權” 。
在過去很長一段時間里 , 企業IT面臨著“被動式”的增長焦慮 , 為了迎合日新月異的現代化應用 , 被迫接受硬件設施的整體快速折舊 。 但戴爾科技通過解耦架構、全棧智能與內生安全的重構 , 正在向業界展示“可持續的現代化”路徑 。 這是企業級計算底座從“消耗品”向“戰略資產”的屬性躍遷 。
具體來說:第一 , 資產管理的“顆粒度”從粗放走向精準 。 戴爾科技引入OCP DC-MHS標準并推行解耦架構 , 其價值在于實現了IT資產管理的“顆粒度”細化 。 在傳統模式下 , 企業的投資是以“整機”為單位的粗放式投入 。 而在解耦架構模式下 , 企業獲得了對算力、存儲、網絡進行“微分級投資”機會 。 這對于CFO和CIO而言 , 意味著CAPEX(資本支出)效率的質變 , 資金不再被捆綁在那些不需要升級的機箱和電源上 , 而是可以精準地投向最能產生業務價值的計算模塊上 。
這種設計不僅賦予了服務器“彈性” , 對企業來說更是“財務的彈性” , 讓基礎設施的更新節奏 , 能夠完美匹配業務創新的步伐 , 讓IT預算的每一分錢都變成了業務增長的助推器 。
第二 , 算力設施的“超大規?;?。 Dell PowerEdge的此次進化 , 實際上是將互聯網巨頭享有的“超大規模(Hyperscale)”技術紅利 , 進行了“下放” 。 通過將模塊化設計、液冷技術 , 以及遙測流式傳輸引入通用企業市場 , 戴爾科技幫助傳統企業抹平與科技巨頭之間的基礎設施代差 。 這意味著 , 一家傳統制造企業 , 也能在自家的私有數據中心里 , 構建起一套像公有云一樣靈活、高效且具備高密度計算承載能力的架構 。
第三 , 運維角色從“保運轉”到“優算力” 。 當監控顆粒度持續下沉 , 當管理手段從被動響應轉向預測性維護 , IT運維團隊的價值就轉型為“算力效能的精算師” 。 在10kW+高密度機柜與邊緣計算并存的復雜環境下 , IT團隊利用戴爾科技提供的智能化工具鏈 , 精確地優化工作負載的能效比(Performance per Watt) , 在物理極限內最大化業務產出 。 這種“基于數據的算力運營能力” , 是現代化轉型深水區企業的核心競爭力之一 。
第四 , 自下而上的“確定性” 。 最后 , 從硅片信任根到服務器“數字封條” , 戴爾科技提供了對企業而言最稀缺的資源——確定性 。 在算力無邊界延伸的今天 , 企業需要將業務拓展到邊緣、多云等不可控環境 , 通過戴爾科技自底向上的全鏈路防御體系 , 為企業構建了“可移動的安全錨點” 。 這本質上消除了企業在物理和邏輯邊界上的顧慮 , 讓業務創新可以無后顧之憂地延伸到任何有數據產生的地方 。
這一輪升級之下 , 戴爾科技傳遞出一個理念——好的計算底座 , 不是最昂貴的 , 而是最靈活的 , 其能隨業務生長而生長 , 隨技術迭代而迭代 , 隨環境變化而適應 。
所以 , 戴爾科技將靈活性(Agility)、效率(Efficiency)與信任(Trust)統一在一套架構之中 , 為企業贏得了在現代化變革之下長跑的底氣 。
【專訪|戴爾科技:解耦架構賦予企業IT進化主動權】畢竟 , 在技術日新月異的今天 , 唯有能夠適應變化的架構 , 才能在變化中保持不變的競爭力 。

    推薦閱讀