AI定義瀏覽器,蘋果偏不這么干

AI定義瀏覽器,蘋果偏不這么干

文章圖片

AI定義瀏覽器,蘋果偏不這么干

文章圖片



打贏Chrome保衛戰之后 , 谷歌宣布Chrome瀏覽器進行了自2008年發布以來最大的一次升級 。
這次升級的核心是深度集成了Gemini AI功能 , 讓Chrome從一個單純的網頁瀏覽工具徹底轉變為一個智能化的信息獲取和處理平臺 。 用戶現在可以直接在地址欄中進行自然語言對話 , Chrome會智能理解用戶意圖并提供相應的搜索結果、網頁摘要或直接回答問題 。 這標志著瀏覽器行業正式進入了AI時代 , 幾乎所有主流瀏覽器廠商都在競相推出類似功能 。
Chrome于2008年9月2日正式發布 , 而蘋果的Safari瀏覽器首次亮相是在2003年1月7日的Macworld Conference & Expo上 , 隨后在同年6月23日正式發布 , 兩者可以說是幾乎同一時期的產品 。 然而十七年過去了 , 當Chrome已經完成了向AI瀏覽器的華麗轉身時 , Safari卻似乎被蘋果完全遺忘在了AI革命的浪潮之外 。
目前Safari與AI唯一能夠扯上關系的功能 , 就是用戶可以通過Siri語音指令來打開Safari中的特定網頁或進行搜索操作 。 這種交互方式類似于蘋果在2024年WWDC上展示的MCP(Model Context Protocol)技術的簡化版本 , 允許不同應用程序之間進行有限的數據交換和功能調用 。
但這種集成程度相比Chrome內置的Gemini AI功能來說 , 簡直是小巫見大巫 。 用戶仍然需要先喚醒Siri , 然后說出具體的指令 , Siri再調用Safari來執行相應操作 , 整個流程不僅繁瑣 , 而且缺乏真正的智能化體驗 。
整個瀏覽器行業正在經歷一場前所未有的AI化浪潮 。 微軟的Edge瀏覽器早在2023年就集成了基于GPT-4的Copilot功能 , 用戶可以直接在側邊欄中與AI助手對話 , 獲取網頁內容摘要、翻譯服務或進行深度問答 。 Mozilla也在Firefox中推出了AI驅動的翻譯和內容推薦功能 。 甚至一些新興的瀏覽器如Arc、Brave等都在積極探索AI集成的可能性 。
在中國也是如此 , 阿里是直接做了一個涵蓋網盤、深度搜索、生文生圖的夸克瀏覽器;騰訊并則是將智能體QBot結合到QQ瀏覽器里 , 以通過智能體實現用戶的各種需求;360一改往日 , 做了一個只有對話框的納米瀏覽器 , 用戶只需要輸入文字指令 , AI就能完成操作 。
整個行業的共識是 , 未來的瀏覽器不再只是一個網頁顯示工具 , 而應該成為用戶與互聯網信息交互的智能中介 。
然而蘋果卻選擇了一條截然不同的道路 。
A
蘋果正在內部開發一項名為“世界知識答案”(World Knowledge Answers)的AI搜索服務 。 這項服務的目標是提供類似于Google搜索但更加智能化的信息檢索和問答功能 , 能夠理解復雜的自然語言查詢并提供準確、相關的答案 。 但令人意外的是 , 這項服務將不會首先賦能于Safari瀏覽器 , 而是被深度集成到Siri語音助手之中 。
蘋果的世界知識答案系統建立在一個全新的三層技術框架之上 。
第一層是規劃組件(Planner) , 負責解析和理解用戶的語音或文本指令 , 這一組件基于蘋果自研的Foundation Models框架構建 。 蘋果在其機器學習研究報告中披露 , 他們開發了一個約30億參數的設備端基礎模型 , 專門針對iPhone、iPad和Mac的硬件特性進行了深度優化 。 這個模型采用了transformer架構的變體 , 但在注意力機制和前饋網絡結構上進行了創新性改進 , 使其能夠在移動設備有限的計算資源下實現接近GPT-3.5的理解能力 。
第二層是搜索組件(Search) , 這是世界知識答案系統的核心技術創新所在 。 與傳統搜索引擎不同 , 這個組件不僅能夠掃描互聯網信息 , 還能夠深度整合用戶的個人數據 , 包括郵件、短信、日歷、照片等私人信息 。
蘋果為此開發了一套名為私有云計算(Private Cloud Compute)的技術架構 , 以對數據進行端到端加密 , 讓用戶數據在傳輸和處理過程中始終保持加密狀態 , 服務器無法獲取用戶的明文信息 。
第三層是摘要組件(Summarizer) , 負責將搜索到的信息整合為用戶可理解的自然語言回答 。 這一組件的技術實現尤為復雜 , 需要處理多模態信息的融合 , 包括文本、圖片、視頻以及本地興趣點信息 。 蘋果為此訓練了專門的視覺模型 , 設備端版本擁有3億參數 , 云端版本達到10億參數 , 能夠理解和描述圖像內容 , 并將其與文本信息進行語義對齊 。
為了提高體驗 , 蘋果還開發了一套名為自適應推理的技術 , 能夠根據查詢的復雜程度動態選擇使用設備端模型還是云端模型 。 它可以讓簡單的查詢如天氣、日程安排等直接在設備上處理 , 復雜的知識性問題則調用云端的大型模型 。 這種混合推理架構不僅提升了響應速度 , 還有效控制了云端計算成本 。
不止如此 , 蘋果的世界知識答案系統也能處理多模態數據 , 可以同時理解和處理文本、語音、圖像和視頻內容 。 比如 , 你拍了一張餐廳菜單的照片 , 然后詢問這家餐廳的招牌菜營養價值如何 , 系統能夠識別圖片中的菜品信息 , 結合網絡搜索到的營養數據 , 提供綜合性的回答 。
自2011年Siri首次亮相以來 , 這個語音助手一直被用戶詬病功能有限、理解能力差、只能處理一些簡單的日程安排、天氣查詢或基礎的設備控制指令 。 相比之下 , Google Assistant、Amazon Alexa甚至后來者如ChatGPT的語音功能都展現出了更強的智能化水平 。 蘋果顯然意識到了這一差距 , 并決定通過世界知識答案服務來徹底改變Siri的定位 。
蘋果的目標很明確 , 就是要把Siri從一個偶爾應付簡單指令的語音助手 , 徹底改造成為一個類似ChatGPT的全能信息與服務中心 。 這意味著未來的Siri不僅能夠回答復雜的知識性問題 , 還能夠進行多輪對話、理解上下文、執行復雜的任務鏈 , 甚至可能具備一定的推理和創造能力 。

用戶將能夠通過自然語言與Siri進行深度交互 , 獲取信息、完成工作、娛樂休閑 , 而不需要再依賴傳統的應用程序界面 。 這種戰略選擇反映了蘋果對未來人機交互模式的獨特理解 。 在蘋果看來 , 傳統的圖形用戶界面雖然直觀易用 , 但在AI時代可能會成為效率的瓶頸 。
用戶需要打開瀏覽器、輸入搜索詞、瀏覽結果頁面、點擊鏈接、閱讀內容 , 這整個流程雖然我們已經習以為常 , 但實際上包含了大量的冗余操作 。 而語音交互則可以大幅簡化這一過程 , 用戶只需要說出自己的需求 , AI助手就能直接提供答案或完成任務 。
B
然而 , 蘋果要實現這一宏大愿景 , 硬件是關鍵 。 AI模型的運行需要大量的計算資源 , 特別是大型語言模型往往需要數十GB甚至上百GB的內存空間 , 以及強大的并行計算能力 。 雖然蘋果可以依靠云端服務來處理部分計算任務 , 但為了保護用戶隱私和提供流暢的交互體驗 , 大部分AI功能都需要在設備本地運行 。
這就對iPhone的芯片性能提出了極高的要求 。 iPhone 16系列搭載的A18 Pro芯片雖然在性能上已經相當強勁 , 但要支撐蘋果Apple Intelligence的完整愿景仍然存在一定差距 。
就拿最基本的內存和帶寬來說 , iPhone 16 Pro系列配備8GB LPDDR5內存 。 對于運行大型語言模型來說 , 這樣的配置顯然是不夠的 。 一個參數量在30億左右的蘋果Foundation Models , 僅模型權重就需要占用約6GB的內存空間 , 更不用說運行時的中間計算結果和系統開銷 。
因此iPhone 17 Pro系列將全系標配12GB運行內存 , 徹底告別前代Pro系列8GB的配置 , 而iPhone 17基礎版則維持8GB內存配置 。
蘋果在芯片設計方面還面臨著功耗控制的挑戰 。 AI計算通常是高強度的并行運算 , 會產生大量熱量并快速消耗電池電量 。 雖然先進制程工藝能夠在一定程度上改善能效比 , 但要在智能手機這樣的小型設備中實現持續的高性能AI計算 , 仍然需要在芯片架構設計上進行創新 。
iPhone 17 Pro系列將首次配備VC均熱板散熱技術 , 進一步提升A19 Pro芯片的性能表現 , 憑借全新芯片和升級的散熱設計 , A19 Pro的CPU和GPU的持續性能比iPhone 16機型中的A18 Pro最高提升40% 。

除了硬件 , 蘋果在9月初已與谷歌達成正式協議 , 將評估并測試谷歌開發的Gemini模型來增強Siri的功能 。 根據爆料 , 谷歌將會為蘋果提供一個基于Gemini模型而開發的摘要器 , 以凝練用戶數據 , 減少數據處理部分的壓力 , 該模型將運行在蘋果自有的私有云計算服務器上 。
谷歌已向蘋果交付了該技術 , 雙方正在合作進行微調與測試 。 但蘋果將繼續使用自研的蘋果基礎模型來處理用戶本地數據搜索 。
C
從市場競爭的角度來看 , 蘋果的這一戰略選擇既有機遇也有風險 。 機遇在于 , 如果蘋果能夠成功將Siri打造成真正智能的AI助手 , 將會為其生態系統帶來巨大的競爭優勢 。 用戶一旦習慣了通過語音與設備進行自然交互 , 就很難再回到傳統的觸屏操作模式 。 這種用戶粘性將進一步鞏固蘋果在高端智能手機市場的地位 。
但風險同樣不容忽視 。 在蘋果專注于Siri開發的同時 , Google Chrome、Microsoft Edge等瀏覽器正在快速演進 , 它們的AI功能可能會吸引更多用戶 , 特別是那些重度依賴網絡瀏覽的用戶群體 。 如果Safari在AI功能上長期落后 , 可能會影響蘋果設備在企業和專業用戶中的競爭力 。
從用戶體驗的角度來看 , 蘋果的選擇體現了其對簡潔性和易用性的一貫追求 。 相比于在瀏覽器中集成復雜的AI功能 , 通過語音助手提供智能服務確實更符合蘋果讓技術變得簡單的設計理念 。 用戶不需要學習新的操作方式 , 只需要像與人對話一樣與設備交流即可 。 這種自然的交互方式特別適合那些對技術不太熟悉的用戶群體 , 有助于擴大AI技術的普及范圍 。

【AI定義瀏覽器,蘋果偏不這么干】然而 , 語音交互也有其局限性 。 在嘈雜的環境中 , 語音識別的準確率會顯著下降 。 在需要保持安靜的場合 , 用戶可能不方便使用語音功能 。 此外 , 對于一些復雜的任務 , 比如編輯文檔、處理圖片或進行精確的數據分析 , 語音指令往往不如直接操作來得高效 。
蘋果需要考慮如何在保持語音交互優勢的同時 , 為用戶提供必要的圖形界面支持 。 從生態系統的角度來看 , 蘋果的戰略選擇可能會對整個應用開發生態產生深遠影響 。 如果Siri真的成為用戶獲取信息和服務的主要入口 , 那么傳統的應用程序可能需要重新設計其交互模式 。 開發者需要考慮如何讓自己的應用更好地與Siri集成 , 提供語音友好的功能接口 。 這可能會催生出一批新的開發工具和框架 , 同時也會淘汰一些不適應新交互模式的應用 。

    推薦閱讀