龐若鳴交班陳智峰,蘋果發布2025基礎模型技術報告

龐若鳴交班陳智峰,蘋果發布2025基礎模型技術報告

文章圖片

龐若鳴交班陳智峰,蘋果發布2025基礎模型技術報告

文章圖片

龐若鳴交班陳智峰,蘋果發布2025基礎模型技術報告

文章圖片

龐若鳴交班陳智峰,蘋果發布2025基礎模型技術報告
機器之心報道
編輯:澤南

Apple Intelligence 進入新的一章 。


近日 , 蘋果發布了 2025 年 Apple Intelligence 基礎語言模型技術報告 。


剛剛加入 Meta 的前蘋果 AI 負責人龐若鳴(Ruoming Pang)發出多條推文進行了介紹 。





在報告中 , 蘋果詳細介紹了訓練新一代模型所用的數據、模型架構、訓練方案、優化推理技術手段 , 以及與同類模型對比的評估結果 。 文中重點展示了蘋果如何在提升用戶價值的同時實現功能擴展與質量優化 , 并大幅提高設備端和私有云計算的運行效率 。





報告鏈接:https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025


這次蘋果介紹了兩種多語言、多模態基礎語言模型 , 可為蘋果設備和服務中的 Apple Intelligence 功能提供支持 。 其中包括:


1)通過 KV 緩存共享和 2 位量化感知訓練等架構創新 , 針對蘋果自有芯片進行了優化的 3B 參數設備模型;2)一種可擴展的云端模型 , 它結合了新型并行軌道混合專家 (PT-MoE) Transformer 和交錯的全局 - 局部注意力 , 以便在蘋果的私有云計算平臺上進行有效推理 。


這兩款模型均通過負責任的網絡爬取、授權語料庫和高質量合成數據集進行大規模多語言、多模態訓練 , 并在新的異步平臺上通過監督微調和強化學習進一步優化 。 最終模型不僅支持多種新增語言 , 還能理解圖像并執行工具調用 。



PT-MoE 架構示意圖 。 每個軌跡 track 由多個軌跡塊組成 , 每個軌跡塊包含固定數量的 Transformer/MoE 層 。 假設總層數為 L 層且軌跡塊深度為 D , 則同步開銷可從 2L(張量并行)降低至 L/D(軌跡并行) 。 例如當 D = 4 時 , PT 架構可將同步開銷減少 87.5% 。


PT Transformer 是蘋果研究人員提出的一種新型架構 。 與僅包含單一順序層堆棧的標準解碼器式 Transformer 不同 , 該架構將模型劃分為多個小型 Transformer 模塊 , 稱為軌道 。 每個軌道由多個堆疊的軌道塊組成 , 每個軌道塊本身都是一個 Transformer 層堆棧 。 這些軌道塊獨立處理標記數據 , 僅在軌道塊的輸入輸出邊界進行跨軌道同步 。 這種隔離設計不僅實現了軌道間的直接并行執行 , 還有效降低了傳統 Transformer 解碼器(如采用張量并行技術的模型)中常見的同步開銷 。 這種方法被稱為軌跡并行 , 改進了訓練和推理的延遲 , 而不會影響模型的質量 。


為實現服務器端模型的進一步擴展 , 蘋果在每個軌道塊內部引入了專家混合層(MoE) , 從而構建出 PT-MoE 架構 。 由于各 MoE 層中的專家模塊僅在對應軌道內運行 , 通信開銷可與計算過程有效重疊 , 從而提升訓練效率 。 結合軌道并行性帶來的軌道級獨立性優勢 , 這種設計使模型在保持低延遲的同時實現高效擴展 —— 得益于稀疏度的提升 , 模型運行更加輕量化 。


另外為了實現現視覺理解能力 , 蘋果引入了一個可以從輸入圖像中提取視覺特征的視覺編碼器 , 在大量圖像數據上進行了預訓練 , 以提高其性能 。 視覺編碼器包含兩個關鍵組件:一個視覺主干 , 用于從輸入圖像中提取豐富的視覺表征;以及一個視覺語言適應模塊 , 用于壓縮視覺表征并將這些視覺特征與模型的標記表征進行對齊 。


在視覺主干網絡中 , 蘋果采用了標準的視覺 Transformer(ViT-g) , 服務器模型為 10 億參數;以及更高效的 ViTDet-L 主干網絡 , 設備端模型為 3 億參數 。


設備端視覺主干網絡采用了 ViTDet 架構 , 該架構在大多數視覺 Transformer 層中使用窗口注意力機制 , 僅包含三個跨窗口全局注意力層 。 為更有效地捕捉并整合細粒度局部細節與宏觀全局上下文信息 , 蘋果在標準 ViTDet 基礎上創新性地引入了注冊窗口(RW)機制 。 該機制通過讓全局注冊表(或類別)標記在參與整體全局上下文聚合前 , 先與圖像中的不同局部窗口進行交互 , 從而實現對全局特征的編碼 。


蘋果認為 , 端側和云端模型配合可以滿足廣泛的性能和部署需求 。 設備端模型經過優化 , 能夠以最低資源消耗實現低延遲推理;而服務器端模型則專為復雜任務設計 , 提供了高精度和可擴展性 。


在人工評估基準中 , 蘋果的模型在跨語言、文本和視覺模式上都具有不錯的競爭力 , 甚至優于同等規模的最佳開源模型 。








在技術報告中 , 蘋果還介紹了全新推出的 Swift 核心的基礎模型框架 , 其中集成了引導式生成、約束式工具調用和 LoRA 適配器微調三大功能模塊 , 開發者僅需幾行代碼即可輕松實現這些功能的集成 。


該框架讓開發者能夠借助約 30 億參數的設備端語言模型 , 著手打造可靠且具備量產級品質的生成式 AI 功能 。 作為 Apple Intelligence 的核心 , 它在摘要、實體提取、文本理解、優化、簡短對話、創意內容生成等多樣化文本任務中表現卓越 。 不過蘋果表示 , 雖然已針對設備端模型進行了專門優化 , 但它并非為通用知識問答而設計 。 蘋果鼓勵應用開發者利用該框架為 APP 定制實用功能 。


蘋果表示 , Apple Intelligence 模型的最新進展始終遵循「負責任的人工智能」的理念 , 通過內容過濾、地區定制評估等安全防護措施 , 并依托私有云計算等創新技術 , 切實保障用戶隱私安全 。


【龐若鳴交班陳智峰,蘋果發布2025基礎模型技術報告】在技術報告發布之后 , 龐若鳴不忘感謝了所有貢獻者 , 其中包括模型、后訓練、多模態、框架 / API、項目管理人員 , 同時把接力棒交給了蘋果 AI 的下一任負責人 Zhifeng Chen 和 Mengyu Li 。





此前據媒體報道 , 龐若鳴加入 Meta 后 , 蘋果大模型團隊將由陳智峰(Zhifeng Chen)負責 , 不過團隊的管理架構將更加分散 。


陳智峰 2000 年本科畢業于復旦大學 , 后于普林斯頓大學、伊利諾伊大學香檳分校獲得碩士、博士學位 。 在加入蘋果之前 , 陳智峰曾在谷歌長期工作 , 參與過 TensorFlow、Gemini、神經機器翻譯系統、Palm 2 等重要研究 。 他和龐若鳴、吳永輝均是 Google Brain 早期的重要成員 。





參考內容:
https://www.bloomberg.com/news/articles/2025-07-07/apple-loses-its-top-ai-models-executive-to-meta-s-hiring-spree

    推薦閱讀