智算浪潮下的專有云操作系統安全：范式躍遷與信任鏈重塑_軟件|芯片|阿里巴巴|網絡安全

文章圖片

作者 | 付秋偉
過去十年，云計算的快速發展為企業帶來了前所未有的便利，越來越多行業開始深度擁抱云技術。但與此同時，數據泄露、權限濫用、供應鏈攻擊等安全事件頻發，也讓不少企業，尤其是數據安全敏感度型企業，在選擇云模式時多了一層顧慮。在這樣的背景下，專有云憑借物理隔離、自主可控、本地化部署等特性，成為許多企業平衡云便利與安全需求的重要選擇。
然而，近兩年 AI 技術的爆發，又給專有云固有的安全范式帶來了新的沖擊，比如大模型訓練需要海量數據的跨域流動、數據軌跡難追溯、生成式 AI 攻擊的黑箱特性等等。 AI 時代，專有云的安全信任基石究竟該如何重構？
「AI 進化論：智算時代 OS 的破局之路」第二期直播，聚焦「專有云操作系統安全」，邀請了三位阿里云的技術專家：阿里云專有云系統安全技術專家姜迎、阿里云技術專家孫維東、阿里云技術專家 / 龍蜥社區軟件供應鏈安全架構師鄭耿，共探 AI 時代專有云操作系統的安全之道。
以下為經編輯整理的專家訪談實錄。
Part 1：行業趨勢與核心挑戰
Q1：在專有云場景下，物理隔離一直被視為安全的終極手段，但隨著新技術的突破和業務場景復雜度的提升，其局限性也開始顯現。如何看待物理隔離對專有云場景的價值？AI 時代對專有云的安全又提出了哪些新挑戰？
姜迎：物理隔離仍是防御外部入侵的終極手段，也是合規層面的剛性需求 —— 例如政務網絡要求物理切斷連接以滿足數據主權要求，但它無法抵御內部威脅。 AI 時代的到來，讓攻擊路徑更具自適應性、攻擊手段更高級：攻擊者能自動感知環境與設備信息，更容易發現內部漏洞并實現橫向滲透。除此之外，專有云除了自用也會存在轉售模式，并且業務也需要向混合云模式發展，還是需要透過連接公網進一步發展業務。這要求我們通過機密計算、零信任、抗量子技術等升級技術范式，以抵御這些高級威脅。
孫維東：物理隔離是專有云安全的基石，能防御各類外部攻擊，如同 “最堅固的外殼” ，但它無法覆蓋所有攻擊向量 —— 比如內部威脅，以及 AI 時代更復雜、智能化、隨機化的攻擊。物理隔離雖堅固但靈活性不足，在新攻擊范式下，需要通過機密計算、零信任、軟件供應鏈安全提升、國產操作系統與自主芯片協同等技術進行補充，讓整個系統更安全。并非物理隔離本身過時，而是需要更靈活的技術組合。
鄭耿：安全的核心始終是服務于業務。 AI 時代的計算范式和業務架構發生了巨大變化，對海量數據和計算資源的需求顯著提升。物理隔離從安全角度看是 “堡壘” ，但會限制資源的按需調配與復用，對業務發展存在一定約束。
Q2：傳統安全架構比較依賴 “邊界防護” 和 “補丁管理” ，但面對高級持續性威脅（APT）時往往力不從心。近年來 “零信任”“機密計算” 等理念興起，這些技術正在如何重塑專有云的安全邏輯？從技術演進角度看，這種范式轉換有何關鍵特征？
姜迎：AI 時代的攻防對抗不斷升級，攻擊模式更趨高級化 —— 例如能自適應調整攻擊路徑、通過深度偽造技術模擬聲紋或視頻等。這推動了機密計算、零信任、抗量子技術等的興起，安全范式也從 “邊界防護” 升級為 “端到端全鏈路保護” 。

機密計算：偏向數據流防護，實現數據全生命周期加密保護 —— 數據進入可信執行空間時加密處理，出空間需經過加密審批，僅在空間內解密并運行計算。
零信任：偏向控制流管控，遵循最小權限原則，用動態身份認證（如短期訪問憑據）替代傳統固定密鑰，強化權限管控力度。
后量子技術：應對量子計算對非對稱加密算法的解密威脅。

未來安全將向機密計算、零信任、后量子技術及 AI 智能化方向演進。
孫維東：零信任和機密計算在專有云場景的應用越來越廣泛。專有云雖相對隔離，但 AI 時代不同業務單元間的數據協作、流動需求顯著增加。機密計算解決 “數據可用不可見” 的問題，零信任則強化動態權限管控，二者共同重塑了 “不依賴固定邊界、聚焦數據和權限本身” 的安全邏輯。
Q3：國產操作系統與自主芯片的協同發展是當前行業熱點，但安全能力的提升不能僅靠 “替換” ，更需 “重構” 。當前，在國產 OS 與自主芯片的協同中，安全信任鏈構建面臨哪些核心挑戰？
孫維東：可控是構建安全生態的重要基礎，但可控不意味著絕對安全。當前自主芯片生態呈現 “百花齊放” 的特點，涌現出眾多新的安全架構、設計理念與技術方案，迭代速度顯著加快 —— 這為安全特性的發展提供了支撐，但也帶來兩大挑戰：

生態不統一：操作系統是連接硬件與應用的橋梁，需銜接不同芯片的安全特性、AI 加速能力等，但芯片生態較為分散，如何平衡性能、穩定性，同時提供統一的使用方法以避免增加開發者負擔，是一大難題。
安全特性抽象難：需要將不同芯片的安全特性進行統一抽象，讓開發者、企業、芯片廠商、學界等能輕松參與生態開發，目前實現難度較大。

Q4：軟件供應鏈攻擊已成為增長最快的安全威脅之一，一直以來行業通用的應對之法是什么？2025 年供應鏈攻擊呈現出哪些新態勢，帶來了哪些新挑戰？
鄭耿：軟件供應鏈安全是保障系統研發全環節（從開源軟件包引入、編碼、測試、發布到使用全流程）的安全性。由于開源的普及，主流開發范式變成基于開源組件的二次開發，如果研發中引入的開源組件若存在安全問題，這些問題會隨著軟件供應鏈傳導至最終的產品，引發安全風險。
傳統應對思路以 “掃描 + 修復” 為主：對源碼、二進制制品進行安全掃描、依賴掃描等，識別安全風險后，通過工單推動業務修復。這種方式偏被動且滯后。如今則更強調 “安全左移”—— 在需求分析、架構設計、編碼等階段提前安全工程師介入，開展安全分析和組件評估，介入越早，修復成本越低。
【智算浪潮下的專有云操作系統安全：范式躍遷與信任鏈重塑】2025 年的新態勢主要有三個：

攻擊智能化：攻擊者借助 AI 發起攻擊， AI 的隨機性和創造性讓攻擊更難預測，傳統防護策略容易失效。
AI 自身供應鏈風險：AI 研發流程（從數據、模型訓練、微調到部署）存在多個攻擊點，已成為業界關注的熱點。
云上攻擊增多：AI 對數據、計算、存儲資源的需求激增，企業上云比例上升，云的攻擊價值提升，針對云的攻擊也隨之增加。

Part 2：技術突破與實踐路徑
Q5：從技術實踐的角度來看，國產 OS 如何實現從硬件啟動到應用運行的全棧可信驗證？TPM（可信平臺模塊）與 TEE（硬件級可信執行環境）的協同在其中能發揮哪些關鍵作用？
孫維東：全棧可信驗證的核心是保障運行環境的完整性 —— 只有完整性得到保證，機密性防護才有意義。驗證過程需實現 “可度量、可驗證”：

基于 TPM 的可信計算階段：從硬件開始，逐級度量固件、操作系統內核、系統軟件、應用軟件（包括虛擬化、云原生組件），最終生成硬件簽名報告。通過驗證報告，可確認系統運行在合法硬件上，且所有軟件未被篡改。
TEE（機密計算）階段：在完整性基礎上增加機密性保護，例如機密虛擬機（Confidential VM）會對內存加密，即使是宿主機管理員等擁有高級權限的攻擊者，也無法獲取明文數據。

TPM 與 TEE 的協同有兩種主流模式：

機密虛擬機運行在裸金屬服務器時， TEE 保護虛擬機內的機密性和完整性， TPM 保護宿主機軟件棧的完整性，從外到內覆蓋全環境。
采用 VTPM（虛擬 TPM）技術，將 VTPM 運行在機密虛擬機內，既保護 VTPM 自身安全，又能為其他虛擬機提供類物理 TPM 的安全能力。

Q6：機密計算作為突破物理隔離局限、重塑安全邏輯的關鍵方案，其核心技術 TEE（硬件級可信執行環境）在專有云場景落地時，經常面臨性能損耗、兼容性適配等問題。如何通過技術優化解決這些難題？
姜迎：性能損耗方面，機密計算的性能已遠超同態加密、聯邦學習等技術。國外芯片數據顯示， CPU 和內存性能損耗約 2-3% ，內存密集型或 AI 業務約 3-4%；IO 損耗相對較高（7-20%），但 Trust IO 等技術已能將 IO 損耗優化至接近無損水平。國內芯片也在通過硬件卸載、加速引擎、指令集優化等提升性能；軟件層面，內存異步回收、內存子系統改造、緩存文件系統等技術也能降低損耗。性能優化需要業務、系統、硬件的垂直協同設計，單一層面的優化效果有限。
兼容性方面，國外機密計算技術發展較早，開源社區已有適配主流芯片的組件；國內因芯片 “百花齊放” 且發展較晚，兼容性仍是挑戰，需要通過生態標準（如抽象層）實現統一適配。此外，安全、性能、兼容性之間需要平衡，可能存在為了安全和性能犧牲部分兼容性的情況，這往往需要通過芯片定制化實現安全與性能的雙重保障。
Q7：國密算法的實踐落地，不僅是出于合規性要求，更是技術發展的必然演進。 OS 原生集成國密算法時，在密鑰管理、合規適配方面有哪些技術難點？阿里云在這方面有哪些創新實踐？
鄭耿：技術難點主要有四點：

基礎軟件支持體系尚不完善：國密算法需覆蓋操作系統內核、工具鏈、中間件、應用層全鏈路，但目前基礎軟件適配不足，需大量適配工作才能降低上層用戶的接入成本。
生態呈現碎片化特征：純軟件實現國密算法的性能損耗較大，通常需要硬件與軟件協同（如硬件密碼加速算子），但國內硬件生態分散，適配標準不統一，增加了開發者的使用成本。
性能問題突出：這是安全領域的共性挑戰，國密算法的實現（尤其是純軟件實現）往往存在較明顯的性能損耗，影響業務運行效率。
密鑰管理復雜：全鏈路加密涉及多環節密鑰，如何實現統一管理是一大難題。

阿里云的實踐包括：

投入基礎軟件生態建設，在 Linux 內核、OpenSSL、libgcrypt、gnulib、nettle 等從內核到應用的全鏈路完成國密適配，并將能力貢獻給上游開源社區，共建生態。
聯合銅鎖社區推動國密算法標準化，例如銅鎖社區的 8998 RFC 標準將國密算法實現在國際社區發布，為在 TLS v1.3 協議中使用完整的商密套件提供依據。
在龍蜥社區安全聯盟發起硬件安全合作計劃，構建國產化的安全硬件基礎設施和軟件生態。
布局后量子密碼，聯合銅鎖社區在 Tongsuo 項目中實現了部分后量子密碼，應對量子計算對傳統密碼的沖擊。

Q8：面對軟件供應鏈攻擊的新態勢，從技術架構的角度來看，我們應該如何構建可驗證、可追溯的軟件鏡像發布體系？背后需要怎樣的核心技術能力去支撐？
鄭耿：構建可驗證、可追溯的軟件鏡像發布體系，需要覆蓋研發全鏈路，每個環節都需保障安全：

源碼管理：通過安全掃描、結合大模型開展源碼安全分析，確保源碼和構建腳本的安全性。
構建環境：加強權限管理、隔離與可信性保障，例如采用 TEE 技術構建可信構建環境，防范構建環境被攻擊。
下游信任傳遞：通過軟件物料清單（SBOM）記錄研發核心信息，包括源碼依賴、構建工具依賴、構建三方包依賴、發布信息等，讓下游用戶清晰了解交付內容，解決 “黑盒” 信任問題。
制品倉管理：制品倉是供應鏈攻擊的高頻目標，需加強安全管控，通過權限管控、制品簽名等方式，防范惡意軟件上傳。

核心技術支撐包括：安全掃描工具、大模型安全分析能力、TEE 可信環境技術、SBOM 生成與管理工具、制品倉安全管控機制等。
Part 3：阿里云方案與行業啟示
Q9：阿里云推出的 ACK-TEE 機密計算平臺，在金融、醫療等敏感行業已有成功案例。能否從技術架構層面解析它是如何實現 “計算在云端，數據不出域” 的？這種模式對行業有何借鑒價值？
姜迎：ACK-TEE 本質上是基于 Kubernetes 調度的容器集群，核心是將數據計算置于 TEE 可信執行環境中，從而實現 “計算在云端，數據不出域” ，主要有三種模式：

機密虛擬機模式：將容器部署在機密虛擬機內，容器調度集群的數據面部署在機密云服務器上，控制端與數據端實現隔離。數據進入 TEE 前會經過預處理與加密（覆蓋存儲和傳輸環節），計算結果出域前需加密并經過審批，全鏈路保障數據不泄露。
物理機機密容器模式：直接在物理機上部署基于輕量虛擬化的機密容器（如開源項目 compositional containers），由 Kubernetes 調度，依賴芯片級內存加密和隔離技術保護數據。
安全容器 + APP TEE 模式：在安全容器（基于 Cgroup、NameSpace 等實現系統級隔離）上，采用英特爾 SGX 等技術實現進程級機密保護。即使安全容器被攻破， APP TEE 仍能保障數據安全（即 “破殼不破芯”）。

借鑒價值在于：企業可根據自身部署形態（如存量云服務器、容器等）選擇適配模式，降低業務遷移成本。例如，存量業務若運行在云服務器上，可基于云服務器構建垂直機密能力；若業務已采用容器，可改造為機密容器，在安全與業務連續性之間實現平衡。
Q10：國產 OS 與自主芯片的協同需要生態各方共同努力。阿里云在龍蜥社區中，是如何推動國產 OS 與自主芯片的深度適配？
孫維東：龍蜥社區是阿里云深度參與的開源生態，推動國產 OS 與自主芯片適配主要依靠三點：

上游優先原則：阿里云將在機密計算、軟件供應鏈、國密算法等領域的安全技術，以及性能、兼容性、穩定性優化等特性，毫無保留地貢獻給龍蜥社區，推動軟硬件生態繁榮，形成自主芯片與國產 OS 的正向循環。
SIG 小組聚焦：社區設有機密計算、軟硬件、國密等專項小組（SIG），以特定領域或課題為核心，組織芯片廠商、開發者等協同開發，讓討論與落地更聚焦高效。
生態開放性：通過開源活動吸納學界、友商等參與，同時向國際社區（如 Coco 社區）貢獻國產芯片適配代碼，推動國產生態納入國際標準，提升國際認可度。

Q11：未來三年， AI、量子計算等技術將如何重塑專有云安全？企業需重點關注哪些戰略控制點？
姜迎：AI 時代的攻擊將更具自主性 —— 會自適應調整路徑、直擊目標，甚至通過深度偽造實施攻擊，這將驅動攻防對抗持續升級。防御層面則需強化 AI 智能化預測能力（例如部署 AI 哨兵系統），實現攻防的智能化升級。數據安全方面，需融合機密計算、多方計算、區塊鏈等技術，并結合抗量子技術，從多學科角度保障數據安全。量子計算可能解密現有加密數據，因此需升級密碼體系，布局量子密鑰分發和后量子技術。
孫維東：從需求角度看， AI（尤其是大語言模型）的影響力讓全行業意識到數據安全的重要性，對安全的要求也更高，但當前安全技術、生態與標準的迭代速度，仍難以跟上 AI 的發展節奏，這是行業普遍面臨的現狀。攻擊的隨機性和靈活性遠超防御能力，即使借助 AI 進行防御，也受限于大模型的可解釋性和精確性短板。量子計算的威脅則更明確 —— 它瞄準現代密碼學的基石，一旦突破，現有安全技術將面臨失效風險。企業需重點關注安全技術與 AI、量子計算的協同，以及生態和標準的完善。
鄭耿：量子計算的破壞性具有可預見性，對基于整數分解問題和離散對數問題等的密碼機制威脅最大，傳統對稱密碼可通過加長密鑰應對，或采用基于格等方式的新算法。 AI 對安全領域的沖擊更顯著：傳統安全防御是被動防御（基于歷史攻擊數據總結規律），在 AI 驅動的不可預測攻擊面前防護效果將大打折扣，需轉向 “安全韌性（Resilience）”—— 即強調主動防御和系統被攻破后的自動恢復能力。企業需要探索借助 AI 構建新的防御范式，以此提升安全韌性。
欄目介紹：
在 AI 重塑產業格局與國產化替代加速推進的雙重浪潮下，《AI 進化論：智算時代 OS 的破局之路》以云、AI、安全等技術與服務器操作系統如何融合演進為主線，聚焦服務器操作系統在智算時代的進化之路，特邀學術權威、行業專家、客戶代表圍繞原生智能、原生安全、軟硬協同等熱點議題展開深度對話，并以阿里巴巴服務器操作系統為例，系統性解析其技術架構、演進之路及場景應用價值，以期給行業帶來啟示與借鑒。