
文章圖片
作者 | 付秋偉
過去十年 , 云計算的快速發展為企業帶來了前所未有的便利 , 越來越多行業開始深度擁抱云技術 。 但與此同時 , 數據泄露、權限濫用、供應鏈攻擊等安全事件頻發 , 也讓不少企業 , 尤其是數據安全敏感度型企業 , 在選擇云模式時多了一層顧慮 。 在這樣的背景下 , 專有云憑借物理隔離、自主可控、本地化部署等特性 , 成為許多企業平衡云便利與安全需求的重要選擇 。
然而 , 近兩年 AI 技術的爆發 , 又給專有云固有的安全范式帶來了新的沖擊 , 比如大模型訓練需要海量數據的跨域流動、數據軌跡難追溯、生成式 AI 攻擊的黑箱特性等等 。 AI 時代 , 專有云的安全信任基石究竟該如何重構?
「AI 進化論:智算時代 OS 的破局之路」第二期直播 , 聚焦「專有云操作系統安全」 , 邀請了三位阿里云的技術專家:阿里云專有云系統安全技術專家 姜迎、阿里云技術專家 孫維東、阿里云技術專家 / 龍蜥社區軟件供應鏈安全架構師 鄭耿 , 共探 AI 時代專有云操作系統的安全之道 。
以下為經編輯整理的專家訪談實錄 。
Part 1:行業趨勢與核心挑戰
Q1:在專有云場景下 , 物理隔離一直被視為安全的終極手段 , 但隨著新技術的突破和業務場景復雜度的提升 , 其局限性也開始顯現 。 如何看待物理隔離對專有云場景的價值?AI 時代對專有云的安全又提出了哪些新挑戰?
姜迎:物理隔離仍是防御外部入侵的終極手段 , 也是合規層面的剛性需求 —— 例如政務網絡要求物理切斷連接以滿足數據主權要求 , 但它無法抵御內部威脅 。 AI 時代的到來 , 讓攻擊路徑更具自適應性、攻擊手段更高級:攻擊者能自動感知環境與設備信息 , 更容易發現內部漏洞并實現橫向滲透 。 除此之外 , 專有云除了自用也會存在轉售模式 , 并且業務也需要向混合云模式發展 , 還是需要透過連接公網進一步發展業務 。 這要求我們通過機密計算、零信任、抗量子技術等升級技術范式 , 以抵御這些高級威脅 。
孫維東:物理隔離是專有云安全的基石 , 能防御各類外部攻擊 , 如同 “最堅固的外殼” , 但它無法覆蓋所有攻擊向量 —— 比如內部威脅 , 以及 AI 時代更復雜、智能化、隨機化的攻擊 。 物理隔離雖堅固但靈活性不足 , 在新攻擊范式下 , 需要通過機密計算、零信任、軟件供應鏈安全提升、國產操作系統與自主芯片協同等技術進行補充 , 讓整個系統更安全 。 并非物理隔離本身過時 , 而是需要更靈活的技術組合 。
鄭耿:安全的核心始終是服務于業務 。 AI 時代的計算范式和業務架構發生了巨大變化 , 對海量數據和計算資源的需求顯著提升 。 物理隔離從安全角度看是 “堡壘” , 但會限制資源的按需調配與復用 , 對業務發展存在一定約束 。
Q2:傳統安全架構比較依賴 “邊界防護” 和 “補丁管理” , 但面對高級持續性威脅(APT)時往往力不從心 。 近年來 “零信任”“機密計算” 等理念興起 , 這些技術正在如何重塑專有云的安全邏輯?從技術演進角度看 , 這種范式轉換有何關鍵特征?
姜迎:AI 時代的攻防對抗不斷升級 , 攻擊模式更趨高級化 —— 例如能自適應調整攻擊路徑、通過深度偽造技術模擬聲紋或視頻等 。 這推動了機密計算、零信任、抗量子技術等的興起 , 安全范式也從 “邊界防護” 升級為 “端到端全鏈路保護” 。
- 機密計算:偏向數據流防護 , 實現數據全生命周期加密保護 —— 數據進入可信執行空間時加密處理 , 出空間需經過加密審批 , 僅在空間內解密并運行計算 。
- 零信任:偏向控制流管控 , 遵循最小權限原則 , 用動態身份認證(如短期訪問憑據)替代傳統固定密鑰 , 強化權限管控力度 。
- 后量子技術:應對量子計算對非對稱加密算法的解密威脅 。
孫維東:零信任和機密計算在專有云場景的應用越來越廣泛 。 專有云雖相對隔離 , 但 AI 時代不同業務單元間的數據協作、流動需求顯著增加 。 機密計算解決 “數據可用不可見” 的問題 , 零信任則強化動態權限管控 , 二者共同重塑了 “不依賴固定邊界、聚焦數據和權限本身” 的安全邏輯 。
Q3:國產操作系統與自主芯片的協同發展是當前行業熱點 , 但安全能力的提升不能僅靠 “替換” , 更需 “重構” 。 當前 , 在國產 OS 與自主芯片的協同中 , 安全信任鏈構建面臨哪些核心挑戰?
孫維東:可控是構建安全生態的重要基礎 , 但可控不意味著絕對安全 。 當前自主芯片生態呈現 “百花齊放” 的特點 , 涌現出眾多新的安全架構、設計理念與技術方案 , 迭代速度顯著加快 —— 這為安全特性的發展提供了支撐 , 但也帶來兩大挑戰:
- 生態不統一:操作系統是連接硬件與應用的橋梁 , 需銜接不同芯片的安全特性、AI 加速能力等 , 但芯片生態較為分散 , 如何平衡性能、穩定性 , 同時提供統一的使用方法以避免增加開發者負擔 , 是一大難題 。
- 安全特性抽象難:需要將不同芯片的安全特性進行統一抽象 , 讓開發者、企業、芯片廠商、學界等能輕松參與生態開發 , 目前實現難度較大 。
鄭耿:軟件供應鏈安全是保障系統研發全環節(從開源軟件包引入、編碼、測試、發布到使用全流程)的安全性 。 由于開源的普及 , 主流開發范式變成基于開源組件的二次開發 , 如果研發中引入的開源組件若存在安全問題 , 這些問題會隨著軟件供應鏈傳導至最終的產品 , 引發安全風險 。
傳統應對思路以 “掃描 + 修復” 為主:對源碼、二進制制品進行安全掃描、依賴掃描等 , 識別安全風險后 , 通過工單推動業務修復 。 這種方式偏被動且滯后 。 如今則更強調 “安全左移”—— 在需求分析、架構設計、編碼等階段提前安全工程師介入 , 開展安全分析和組件評估 , 介入越早 , 修復成本越低 。
【智算浪潮下的專有云操作系統安全:范式躍遷與信任鏈重塑】2025 年的新態勢主要有三個:
- 攻擊智能化:攻擊者借助 AI 發起攻擊 , AI 的隨機性和創造性讓攻擊更難預測 , 傳統防護策略容易失效 。
- AI 自身供應鏈風險:AI 研發流程(從數據、模型訓練、微調到部署)存在多個攻擊點 , 已成為業界關注的熱點 。
- 云上攻擊增多:AI 對數據、計算、存儲資源的需求激增 , 企業上云比例上升 , 云的攻擊價值提升 , 針對云的攻擊也隨之增加 。
Q5:從技術實踐的角度來看 , 國產 OS 如何實現從硬件啟動到應用運行的全棧可信驗證?TPM(可信平臺模塊)與 TEE(硬件級可信執行環境)的協同在其中能發揮哪些關鍵作用?
孫維東:全棧可信驗證的核心是保障運行環境的完整性 —— 只有完整性得到保證 , 機密性防護才有意義 。 驗證過程需實現 “可度量、可驗證”:
- 基于 TPM 的可信計算階段:從硬件開始 , 逐級度量固件、操作系統內核、系統軟件、應用軟件(包括虛擬化、云原生組件) , 最終生成硬件簽名報告 。 通過驗證報告 , 可確認系統運行在合法硬件上 , 且所有軟件未被篡改 。
- TEE(機密計算)階段:在完整性基礎上增加機密性保護 , 例如機密虛擬機(Confidential VM)會對內存加密 , 即使是宿主機管理員等擁有高級權限的攻擊者 , 也無法獲取明文數據 。
- 機密虛擬機運行在裸金屬服務器時 , TEE 保護虛擬機內的機密性和完整性 , TPM 保護宿主機軟件棧的完整性 , 從外到內覆蓋全環境 。
- 采用 VTPM(虛擬 TPM)技術 , 將 VTPM 運行在機密虛擬機內 , 既保護 VTPM 自身安全 , 又能為其他虛擬機提供類物理 TPM 的安全能力 。
姜迎:性能損耗方面 , 機密計算的性能已遠超同態加密、聯邦學習等技術 。 國外芯片數據顯示 , CPU 和內存性能損耗約 2-3% , 內存密集型或 AI 業務約 3-4%;IO 損耗相對較高(7-20%) , 但 Trust IO 等技術已能將 IO 損耗優化至接近無損水平 。 國內芯片也在通過硬件卸載、加速引擎、指令集優化等提升性能;軟件層面 , 內存異步回收、內存子系統改造、緩存文件系統等技術也能降低損耗 。 性能優化需要業務、系統、硬件的垂直協同設計 , 單一層面的優化效果有限 。
兼容性方面 , 國外機密計算技術發展較早 , 開源社區已有適配主流芯片的組件;國內因芯片 “百花齊放” 且發展較晚 , 兼容性仍是挑戰 , 需要通過生態標準(如抽象層)實現統一適配 。 此外 , 安全、性能、兼容性之間需要平衡 , 可能存在為了安全和性能犧牲部分兼容性的情況 , 這往往需要通過芯片定制化實現安全與性能的雙重保障 。
Q7:國密算法的實踐落地 , 不僅是出于合規性要求 , 更是技術發展的必然演進 。 OS 原生集成國密算法時 , 在密鑰管理、合規適配方面有哪些技術難點?阿里云在這方面有哪些創新實踐?
鄭耿:技術難點主要有四點:
- 基礎軟件支持體系尚不完善:國密算法需覆蓋操作系統內核、工具鏈、中間件、應用層全鏈路 , 但目前基礎軟件適配不足 , 需大量適配工作才能降低上層用戶的接入成本 。
- 生態呈現碎片化特征:純軟件實現國密算法的性能損耗較大 , 通常需要硬件與軟件協同(如硬件密碼加速算子) , 但國內硬件生態分散 , 適配標準不統一 , 增加了開發者的使用成本 。
- 性能問題突出:這是安全領域的共性挑戰 , 國密算法的實現(尤其是純軟件實現)往往存在較明顯的性能損耗 , 影響業務運行效率 。
- 密鑰管理復雜:全鏈路加密涉及多環節密鑰 , 如何實現統一管理是一大難題 。
- 投入基礎軟件生態建設 , 在 Linux 內核、OpenSSL、libgcrypt、gnulib、nettle 等從內核到應用的全鏈路完成國密適配 , 并將能力貢獻給上游開源社區 , 共建生態 。
- 聯合銅鎖社區推動國密算法標準化 , 例如銅鎖社區的 8998 RFC 標準將國密算法實現在國際社區發布 , 為在 TLS v1.3 協議中使用完整的商密套件提供依據 。
- 在龍蜥社區安全聯盟發起硬件安全合作計劃 , 構建國產化的安全硬件基礎設施和軟件生態 。
- 布局后量子密碼 , 聯合銅鎖社區在 Tongsuo 項目中實現了部分后量子密碼 , 應對量子計算對傳統密碼的沖擊 。
鄭耿:構建可驗證、可追溯的軟件鏡像發布體系 , 需要覆蓋研發全鏈路 , 每個環節都需保障安全:
- 源碼管理:通過安全掃描、結合大模型開展源碼安全分析 , 確保源碼和構建腳本的安全性 。
- 構建環境:加強權限管理、隔離與可信性保障 , 例如采用 TEE 技術構建可信構建環境 , 防范構建環境被攻擊 。
- 下游信任傳遞:通過軟件物料清單(SBOM)記錄研發核心信息 , 包括源碼依賴、構建工具依賴、構建三方包依賴、發布信息等 , 讓下游用戶清晰了解交付內容 , 解決 “黑盒” 信任問題 。
- 制品倉管理:制品倉是供應鏈攻擊的高頻目標 , 需加強安全管控 , 通過權限管控、制品簽名等方式 , 防范惡意軟件上傳 。
Part 3:阿里云方案與行業啟示
Q9:阿里云推出的 ACK-TEE 機密計算平臺 , 在金融、醫療等敏感行業已有成功案例 。 能否從技術架構層面解析它是如何實現 “計算在云端 , 數據不出域” 的?這種模式對行業有何借鑒價值?
姜迎:ACK-TEE 本質上是基于 Kubernetes 調度的容器集群 , 核心是將數據計算置于 TEE 可信執行環境中 , 從而實現 “計算在云端 , 數據不出域” , 主要有三種模式:
- 機密虛擬機模式:將容器部署在機密虛擬機內 , 容器調度集群的數據面部署在機密云服務器上 , 控制端與數據端實現隔離 。 數據進入 TEE 前會經過預處理與加密(覆蓋存儲和傳輸環節) , 計算結果出域前需加密并經過審批 , 全鏈路保障數據不泄露 。
- 物理機機密容器模式:直接在物理機上部署基于輕量虛擬化的機密容器(如開源項目 compositional containers) , 由 Kubernetes 調度 , 依賴芯片級內存加密和隔離技術保護數據 。
- 安全容器 + APP TEE 模式:在安全容器(基于 Cgroup、NameSpace 等實現系統級隔離)上 , 采用英特爾 SGX 等技術實現進程級機密保護 。 即使安全容器被攻破 , APP TEE 仍能保障數據安全(即 “破殼不破芯”) 。
Q10:國產 OS 與自主芯片的協同需要生態各方共同努力 。 阿里云在龍蜥社區中 , 是如何推動國產 OS 與自主芯片的深度適配?
孫維東:龍蜥社區是阿里云深度參與的開源生態 , 推動國產 OS 與自主芯片適配主要依靠三點:
- 上游優先原則:阿里云將在機密計算、軟件供應鏈、國密算法等領域的安全技術 , 以及性能、兼容性、穩定性優化等特性 , 毫無保留地貢獻給龍蜥社區 , 推動軟硬件生態繁榮 , 形成自主芯片與國產 OS 的正向循環 。
- SIG 小組聚焦:社區設有機密計算、軟硬件、國密等專項小組(SIG) , 以特定領域或課題為核心 , 組織芯片廠商、開發者等協同開發 , 讓討論與落地更聚焦高效 。
- 生態開放性:通過開源活動吸納學界、友商等參與 , 同時向國際社區(如 Coco 社區)貢獻國產芯片適配代碼 , 推動國產生態納入國際標準 , 提升國際認可度 。
姜迎:AI 時代的攻擊將更具自主性 —— 會自適應調整路徑、直擊目標 , 甚至通過深度偽造實施攻擊 , 這將驅動攻防對抗持續升級 。 防御層面則需強化 AI 智能化預測能力(例如部署 AI 哨兵系統) , 實現攻防的智能化升級 。 數據安全方面 , 需融合機密計算、多方計算、區塊鏈等技術 , 并結合抗量子技術 , 從多學科角度保障數據安全 。 量子計算可能解密現有加密數據 , 因此需升級密碼體系 , 布局量子密鑰分發和后量子技術 。
孫維東:從需求角度看 , AI(尤其是大語言模型)的影響力讓全行業意識到數據安全的重要性 , 對安全的要求也更高 , 但當前安全技術、生態與標準的迭代速度 , 仍難以跟上 AI 的發展節奏 , 這是行業普遍面臨的現狀 。 攻擊的隨機性和靈活性遠超防御能力 , 即使借助 AI 進行防御 , 也受限于大模型的可解釋性和精確性短板 。 量子計算的威脅則更明確 —— 它瞄準現代密碼學的基石 , 一旦突破 , 現有安全技術將面臨失效風險 。 企業需重點關注安全技術與 AI、量子計算的協同 , 以及生態和標準的完善 。
鄭耿:量子計算的破壞性具有可預見性 , 對基于整數分解問題和離散對數問題等的密碼機制威脅最大 , 傳統對稱密碼可通過加長密鑰應對 , 或采用基于格等方式的新算法 。 AI 對安全領域的沖擊更顯著:傳統安全防御是被動防御(基于歷史攻擊數據總結規律) , 在 AI 驅動的不可預測攻擊面前防護效果將大打折扣 , 需轉向 “安全韌性(Resilience)”—— 即強調主動防御和系統被攻破后的自動恢復能力 。 企業需要探索借助 AI 構建新的防御范式 , 以此提升安全韌性 。
欄目介紹:
在 AI 重塑產業格局與國產化替代加速推進的雙重浪潮下 , 《AI 進化論:智算時代 OS 的破局之路》以云、AI、安全等技術與服務器操作系統如何融合演進為主線 , 聚焦服務器操作系統在智算時代的進化之路 , 特邀學術權威、行業專家、客戶代表圍繞原生智能、原生安全、軟硬協同等熱點議題展開深度對話 , 并以阿里巴巴服務器操作系統為例 , 系統性解析其技術架構、演進之路及場景應用價值 , 以期給行業帶來啟示與借鑒 。
推薦閱讀
- 紅米Note15系列線下上手反饋:三款版本,哪款更值得選擇?
- 下一個晶圓需求的拐點在哪里?
- vivo新機官宣:8月22日起,線下體驗
- 究竟會花落誰家?DeepSeek最新大模型瞄準了下一代國產AI芯片
- 趕超格力拿下國內第二,小米空調贏了
- 魅族22長焦實拍樣張曝光:旗下首款潛望長焦旗艦!
- 華為史上哪代 Nova 手機最經典——對標藍綠廠而生的線下新星進化史
- 字節突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄
- 取代三星?vivo X200 Ultra拿下演唱會設備租賃第一名!
- 紅米Note15 Pro+下狠手:衛星通信+IP69K防水,中端機有旗艦功能
