
文章圖片
作者 | 付秋偉
當前 , AI 浪潮正以前所未有的力量重塑產業格局 , 國產化替代的加速推進 , 也讓基礎設施領域的技術創新成為了焦點 。 服務器操作系統作為算力底座的核心 , 正在經歷著從 “適配” 到 “AI 原生驅動” 的關鍵變革 。
由阿里云聯合 InfoQ 打造的《AI 進化論:智算時代操作系統的破局之路》欄目首期 , 邀請北京大學計算機學院教授、副院長 , 中國計算機學會開源發展委員會副主任 周明輝 , 阿里云智能集團研發副總裁、龍蜥社區理事長馬濤 , 圍繞 AI 對操作系統的影響、技術演進、安全挑戰、國產化機遇及生態構建等核心命題展開深度對話 , 解構智算時代操作系統的破局邏輯與實踐路徑 。
以下為經編輯整理后的內容精粹 。
1 AI 時代操作系統的重構與考驗
操作系統的本質 , 始終是 “向下管理硬件資源 , 向上為用戶和應用提供開發與運行保障” 。 周明輝教授在直播中強調 , 這一核心定位從未改變 , 但隨著應用場景與硬件資源的迭代 , 其承載的功能與面臨的挑戰已發生根本性變化 。 從早期物理服務器時代的硬件資源管理 , 到云計算時代的虛擬化與多租戶隔離 , 每一次技術革命都推動著操作系統的能力邊界不斷拓展 。 而 AI 時代的到來 , 尤其是大語言模型的訓練與推理場景 , 正給這一經典系統帶來前所未有的沖擊 。
“大語言模型的訓練和推理 , 其核心特點是計算密集、數據量大、參數眾多 , 這使得算力、存儲、數據、模型必須實現一體化協同管理 。 ” 周明輝指出 , 這種協同需求對傳統的資源管理模式構成了 “革命性挑戰”—— 傳統操作系統的進程調度、內存分配、文件管理邏輯 , 已難以滿足 AI 場景下的高效協同要求 。
馬濤結合近 20 年的產業實踐 , 進一步拆解了 AI 場景的具體挑戰 。 他以 GPU 為例:“現在一臺 GPU 一體機成本高達幾百萬 , 讓它高效運行 10 分鐘 , 操作系統需要做好大量底層工作 。 ” 在訓練場景中 , 數據量的爆發式增長要求操作系統重新設計存儲策略 ——AI 訓練的中間數據多存儲于對象存儲或高性能文件存儲中 , 如何將數據高效搬運至 GPU 顯存、如何在顯存不足時實現與內存的動態置換 , 都成為全新課題 。 而在推理場景中 , 多步驟計算對 CPU、GPU、存儲、網絡的差異化需求 , 更要求操作系統具備動態適配能力 。
這種變化的背后 , 是計算核心的遷移 。 “過去數據中心以 CPU 為核心 , 調度算法圍繞 CPU 設計;現在則轉向以 GPU 為核心 , CPU 更像‘保姆’—— 需要提前完成數據處理、內存準備等工作 , 讓 GPU 專注于計算 。 ” 馬濤解釋道 , 這種轉變不僅涉及計算邏輯的重構 , 更引發了網絡棧的連鎖變革:在多機多卡協同場景下 , 數據如何跨設備高效傳輸、如何診斷機器間的故障、如何優化 shuffle 與 reduce 等操作 , 都需要操作系統在網絡層進行深度革新 。 阿里云的 HPN7.0 技術在 SIGCOMM 上獲得 best paper , 正是這種優化的典型成果 。
從實踐來看 , AI 驅動的變革已體現在操作系統的每一個細節中 。 馬濤透露:“我們在阿里云通過持續優化計算、存儲、網絡等模塊 , 將改進逐步開源到社區 。 每個小優化疊加后 , 操作系統會慢慢變得‘不一樣’—— 比如針對 GPU 的調度算法、針對大模型的內存管理策略 , 這些積累最終會形成適配 AI 場景的新系統 。 ”
【AI 時代操作系統的三重敘事:技術重構、國產化突圍與生態共建】據介紹 , 最新發布的阿里云服務器操作系統 4.0 , 便是上述優化的集大成者 , 它深度整合了 AI 訓練與推理場景的底層能力 , 比如針對 GPU 顯存與內存的智能置換算法、多機多卡協同的低延遲網絡調度等 , 都是從千萬級 AI 任務中沉淀出的技術結晶 。
2 技術演進與安全攻堅:在改良與突破中尋找平衡
面對 AI 帶來的挑戰 , 操作系統的演進呈現出兩條清晰路徑 。 周明輝將其概括為 “改良與革命并存”:一條是基于傳統架構進行 AI 適配優化 , 另一條是重構全新架構 , 讓 AI 成為操作系統的核心 。
“傳統操作系統的架構已發展數十年 , 承載了無數應用 , 面向 AI 做改進是必須走的路 , 但這條道路充滿挑戰 。 ” 周明輝坦言 , 傳統技術路線的復雜性使得滿足 AI 場景的大數據量、高計算密度、快存儲響應等需求極為困難 。 以內存管理為例 , 大模型的參數規模動輒數十億甚至上百億 , 傳統的分頁機制與緩存策略已難以應對 , 必須重新設計內存分配與回收邏輯 。
馬濤從產業視角印證了這一判斷:“工業界目前更側重第一條路徑 , 因為要兼顧現有用戶的 legacy 系統與業務連續性 。 ” 他以阿里云為例 , 操作系統團隊通過 “小步快跑” 的方式持續迭代 —— 針對 AI 訓練場景優化存儲 I/O、針對推理場景優化任務調度、針對多卡協同優化網絡傳輸 , 這些改進并非顛覆性創新 , 但積累到一定程度后 , 系統會呈現出全新的適配能力 。 “我們把這些工作開源到社區 , 一方面接受社區驗證 , 另一方面也能匯聚更多開發者的智慧 , 從量變積累到質變 。 阿里云服務器操作系統 4.0 版本就是這種迭代模式的階段性成果:它既兼容傳統業務的運行需求 , 又能通過‘AI 加速引擎’模塊為大模型訓練提供專屬優化 , 實現了‘legacy 系統平穩過渡’與‘AI 場景高效支撐’的雙重目標 。 ”
對于第二條路徑 , 即 “AI 即操作系統” 的架構革新 , 兩位嘉賓均認為其是未來方向 , 但需長期探索 。 “傳統操作系統模型確實不適合 AI 場景 , 未來可能基于 GPU 核心重構體系 , 甚至用 Rust 語言重寫內核 。 ” 馬濤指出 , 企業當下難以全身心投入 , 因為要平衡客戶需求與技術革新 —— 這也是新型創業公司的機會所在 , “它們沒有歷史包袱 , 可以輕裝上陣 , 嘗試全新架構” 。 周明輝補充道:“學術界也在關注這一方向 , 比如探索如何讓大語言模型直接承擔部分操作系統功能 , 未來用戶可能‘用自然語言操作電腦’ , 這會徹底改變人機交互模式 。 ”
技術演進的同時 , 安全與供應鏈風險成為不可忽視的挑戰 。 周明輝從學術研究出發 , 提出兩大核心解決方向:一是通過 Rust 語言重寫內核解決內存安全問題 , “比如北大國家實驗室與螞蟻集團合作的‘星綻操作系統內核’ , 利用 Rust 的內存安全特性構建‘寬內核’ , 在保障安全的同時兼顧性能”;二是通過形式化驗證確保內核功能正確性 , “形式化驗證能發現傳統測試無法察覺的數值溢出、條件競爭等問題 , 為自動駕駛、工業控制等安全攸關場景提供確定性保障” 。
AI 場景的特殊性還加劇了供應鏈風險 。 周明輝強調:“軟件供應鏈是全球命運共同體 , 只要互聯網存在 , 所有參與者都無法獨善其身 。 AI 供應鏈的風險更具獨特性 —— 訓練數據可能被投毒 , 海量參數中潛藏后門 , 從硬件芯片到 AI 框架的全鏈條都可能出現漏洞 。 ” 他特別提到 XZ Utils 供應鏈投毒事件暴露出的社會工程學攻擊 , 以及國內生態處于全球下游面臨的 “斷供風險” , “這些問題不是中國特有 , 而是全球性挑戰 , 需要學界與產業界共同應對” 。
針對上述安全方面的挑戰 , 馬濤從產業角度提出了 “體系化、平臺化、智能化” 的應對策略 。 “體系化即覆蓋代碼拉取、編譯環境、發布渠道等全環節 , 確保每個節點可控 —— 比如上游代碼的溯源、編譯機器的安全加固、發布包的簽名驗證 。 ” 他解釋道 , “平臺化是將所有信息透明化 , 讓用戶知曉軟件包的來源、漏洞與升級路徑 , 龍蜥社區已經實現了這一點 , 所有包的評分、更新記錄、安全漏洞都公開可查 。 ” 而智能化則是利用大模型提升安全水位 , “比如讓 AI 模擬攻擊者進行滲透測試 , 或者自動分析代碼中的潛在漏洞 , 這能大幅提升安全檢測效率” 。
在運行時安全方面 , 阿里云正在研發 “龍盾” 功能 , 通過全棧防護機制隔離風險 。 “即使攻擊者突破防線 , 也無法獲取其他用戶數據 , 以此將安全損失降到最低 。 ” 馬濤坦言 , 對于大模型的數據污染風險 , 目前行業仍在探索 , “我們在嘗試通過數據標注與溯源技術提前識別風險 , 但無法做到零風險 , 只能盡力降低” 。
3 國產化突圍與生態共建:從 “跟跑” 到 “生態位躍升”
除了 AI 浪潮 , “國產化”則是操作系統演進過程中的又一重要趨勢 。 2020 年的 CentOS 停服事件 , 成為了國產服務器操作系統發展的 “轉折點” 。 周明輝回憶:“當時全中國服務器中十之八九使用 CentOS , 停服消息如同地震 , 這暴露了我們在全球軟件生態位的低端 —— 過度依賴上游 , 一旦上游‘斷水’ , 下游便陷入困境 。 ” 但他同時強調 , 國產化絕非簡單的 “替代” , 而是 “立足全球化 , 向生態位高位攀升” 。
“軟件是全球化市場 , 國產化不能關起門來做 。 ” 周明輝的觀點鮮明 , “我們的目標是吸引全球智力與市場 , 讓國產操作系統不僅服務國內用戶 , 更能進入國際市場 。 比如開源項目 , 就應該利用全球的開發者資源 , 解決全球性問題 。 ”
馬濤將國產化路徑總結為 “腳踏實地 + 仰望星空” 。 他表示:“‘腳踏實地’是指通過社區的延保計劃 , 幫助用戶平穩過渡 —— 很多企業的業務系統基于 CentOS 構建 , 開發者可能都已離職 , 讓他們重新適配新系統不現實 。 我們通過兼容接口、提供 CVE 更新 , 讓用戶能‘無痛遷移’ , 如同為舊橋梁鋪設新的橋面 , 確保通行不受影響 。 ” 而 “仰望星空” 則是積極參與國際上游生態 , “在 Linux Kernel 等關鍵子系統中貢獻代碼 , 在 RISC-V、虛擬化等標準制定中爭取話語權 , 如同從參與游戲到逐步制定游戲規則” 。
他以龍蜥社區的實踐為例:“我們聯合歐拉、OpenCloudOS 達成生態協議 , 對 200 多個核心包(如 Kernel、GCC、GLIBC)統一版本與維護策略 。 這些包是操作系統的‘基石’ , 統一標準能減少重復勞動 , 讓各方集中精力做差異化創新 , 如同大家共同建設地基 , 再各自加蓋特色建筑 。 阿里云服務器操作系統 4.0 正是這一生態協同的產物 , 它基于龍蜥社區的技術底座 , 嚴格遵循核心包的統一標準 , 同時針對云與 AI 場景做了深度優化 —— 比如針對國產芯片的原生支持 , 能夠實現‘一次適配 , 多平臺運行’ , 這也是阿里云‘差異化競爭力’的具體體現 。”
當然 , 核心組件的協同只是生態共建的起點 , 要實現真正的國產化突圍 , 還需要構建一個多方共贏的生態系統 —— 這既是應對全球競爭的必然選擇 , 也是技術持續迭代的核心支撐 。 周明輝指出:“生態的核心在于兩個維度 —— 一是軟件依賴網絡中的生態位 , 即有多少下游軟件、用戶與市場依賴;二是社區參與度 , 包括開發者、企業、機構的貢獻度 , 各方圍繞價值訴求形成共生體系 , 如同一個熱帶雨林 , 不同物種相互依存、共同繁榮 。 ” 他特別強調吸引年輕學子的重要性 , “操作系統的未來在于年輕人 , 要通過開源大賽、課程合作等方式 , 讓他們參與到社區建設中 , 如同培育樹苗 , 為森林的未來儲備力量” 。
在這樣的生態體系中 , 企業的參與并非單純的 “慈善” , 而是基于自身利益的理性選擇 , 唯有形成利益共生的閉環 , 生態才能持續運轉 。 馬濤從產業視角補充了生態構建的關鍵:“技術決定生態的下限 , 而生態決定社區的上限 。 ” 在他看來 , 健康的生態需要滿足三個條件:一是開發者生態 , 吸引學生與愛好者 “為愛發電”——“我當年進入操作系統領域 , 就是因為興趣 , 這種動力是持久的 , 如同藝術家對創作的熱愛”;二是企業參與需找到利益回流點 , “我們需要確保的是生態圈里的各方利益不沖突 , 形成 1+1>2 的效應 , 如同在一條產業鏈上 , 每個環節都發揮優勢 , 共同提升整體價值”;三是清晰的定位與分工 , “上游社區做好核心組件維護 , 中游發行版做好場景適配 , 下游企業提供服務與銷售 , 形成良性鏈條 , 如同河流的上游、中游、下游各司其職 , 最終滋養整片土地” 。
這種生態協同已初見成效 。 馬濤透露:“龍蜥社區的包管理體系會對每個軟件包打分 , 根據活躍度、更新頻率、漏洞修復速度等指標推薦最優選擇 。 這不僅降低了用戶的使用門檻 , 也讓上游開發者更重視包的質量 —— 形成正向循環 , 如同一個優質市場 , 買家與賣家相互促進 , 共同提升商品品質 。 ”
4 未來展望:在產學研協同中定義下一代操作系統
對于下一代操作系統的形態 , 兩位嘉賓一致認為 AI 將成為核心驅動力 。 周明輝預測:“傳統架構的重構與全新架構的探索將長期并存 。 隨著大語言模型能力的提升 , 未來可能實現‘用人話操作操作系統’—— 用戶無需調用 API , 只需自然語言指令 , 系統就能自動完成部署、調度等操作 。 ”
馬濤則從產業視角分享了阿里云服務器操作系統接下來的三大方向:一是持續優化核心組件 , 適配快速迭代的 AI 模型 , “去年還是稠密模型 , 今年就變成 MOE(混合專家模型) , 參數規模從百億級躍升到千億級 , 操作系統必須緊跟這種變化 , 這也是我們在 Alinux 4.0 版本基礎上規劃下一代迭代的核心方向”;二是做好國產化算力的協同管理 , “國內的 GPU、TPU 等異構芯片越來越多 , 操作系統要抽象硬件差異 , 讓用戶‘用起來一樣方便’”;三是推動操作系統的智能化 , “通過 AI 優化安全檢測、運維調度、文件系統等模塊 , 最終實現‘System for AI’與‘AI for System’的融合” 。
產學研協同將加速這一進程 。 周明輝認為:“學術界可聚焦基礎問題 , 比如新的調度算法、存儲模型 , 通過‘小切口’突破;企業則擅長工程化落地 , 將學術成果轉化為產品能力 。 ” 他以形式化驗證為例:“比如高校團隊花數年時間攻克理論難題 , 然后企業則將其應用到內核開發中 , 只有這種協同才能真正解決問題 。 ”
馬濤補充道:“阿里與高校的合作模式有三種 —— 聯合實驗室聚焦長期方向 , 定向項目解決具體問題 , 開源合作吸引師生參與 。 比如在 AI for Security 領域 , 我們與高校合作訓練大模型檢測漏洞 , 既推動了學術研究 , 也解決了產業痛點 。 ”
正如兩位嘉賓所言 , 智算時代的操作系統正站在歷史轉折點上 。 無論是改良與革命并行的技術路線 , 還是 “立足全球化” 的國產化策略 , 亦或是 “價值共生” 的生態理念 , 其核心都是讓操作系統真正成為 AI 時代的算力底座 。 在這條破局之路上 , 產學研的協同、企業的持續投入與開源生態的繁榮 , 將共同推動操作系統實現從 “適配 AI” 到 “原生驅動 AI” 的跨越 , 進而為全球智算產業發展注入中國力量 。
欄目介紹:
在 AI 重塑產業格局與國產化替代加速推進的雙重浪潮下 , 《AI 進化論:智算時代 OS 的破局之路》以云、AI、安全等技術與服務器操作系統如何融合演進為主線 , 聚焦服務器操作系統在智算時代的進化之路 , 特邀學術權威、行業專家、客戶代表圍繞原生智能、原生安全、軟硬協同等熱點議題展開深度對話 , 并以阿里巴巴服務器操作系統為例 , 系統性解析其技術架構、演進之路及場景應用價值 , 以期給行業帶來啟示與借鑒 。
推薦閱讀
- 越可靠的AI就越人機,牛津大學:高情商模型錯誤率顯著增加
- 電廠 | 高德地圖全面AI化:每個人,都有專屬的出行助手
- iPhone18比17更值?
- 萬字長談王小川:不再迎合他人做學霸,我要解自己的命題
- 三模客制化 雷柏V700DIY-75評測:7層填充造就的無線客制化新標桿
- 量子芯片研發的“中國刻刀” 全國首臺國產商業電子束光刻機在杭“出爐”
- 驍龍8Elite手機怎么選?一文解析旗艦芯的核心競爭力
- 剛過保修就罷工?揭秘家電那些 “催你換新” 的小心機
- 京東、阿里、美團的外賣大戰,最終誰會贏?
- 10億國民App絲滑升級AI應用!高德攜手通義重構的底層架構曝光
