終于發布的Gemini 3,什么是它真正的王牌?

終于發布的Gemini 3,什么是它真正的王牌?

文章圖片

終于發布的Gemini 3,什么是它真正的王牌?

文章圖片

終于發布的Gemini 3,什么是它真正的王牌?

文章圖片

終于發布的Gemini 3,什么是它真正的王牌?

文章圖片

終于發布的Gemini 3,什么是它真正的王牌?

文章圖片


Gemini 3 Pro 預覽版上線那一刻 , 很多人心里的第一反應可能是:終于來了 。
遛了將近一個月 , 這里暗示那里路透:參數更強一點、推理更聰明一點、出圖更花一點 , 大家已經看得心癢癢了 。 再加上 OpenAI、Gork 輪番出來狙擊 , 更加是證實了 Gemini 3 將是超級大放送 。
這次 Gemini 3 的主打賣點也很熟悉:更強的推理、更自然的對話、更原生的多模態理解 。 官方號稱 , 在一堆學術基準上全面超越了 Gemini 2.5 。
但如果只盯著這些數字 , 很容易忽略一個更關鍵的變化:
Gemini 3 不太像一次模型升級 , 更像一次圍繞它的 Google 全家桶「系統更新」 。

模型升級這一塊的 , Google 已經把話說得很滿了先快速把「硬指標」過一遍 , 免得大家心里沒數:
-推理能力:官方強調 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高難度推理和數學基準上 , 全部刷出了新高分 , 定位就是「博士級推理模型」 。
-多模態理解:不僅看圖、看 PDF , 甚至還能在長視頻、多模態考試(MMMU-Pro、Video-MMMU)上拿到行業領先成績 , 說看圖說話、看視頻講重點的能力 , 提升了一檔 。
-Deep Think 模式: ARC-AGI 這類測試證明:打開 Deep Think 后 , 它在解決新類型問題上的表現會有可見提升 。
從這些層面看 , 很容易把 Gemini 3 歸類為:「比 2.5 更聰明的一代通用模型」 。 但如果只是這樣 , 它也就只是排行榜上的新名字 。 連 Josh Woodward 出來接受采訪都說 , 這些硬指標只能是作為參考 。
換句話說 , 「跑了多少分」只是一種相對直觀的表現手法 , 真正有意思的地方在于 Google 把它塞進了哪些地方 , 以及打算用它把什么東西連起來 。 在這一個版本的更新中 , 「原生多模態」顯然是重中之重 。 在這一次的大更新中 , 「原生多模態」顯然是重中之重 。
如果要為當下的大模型找一個分水嶺 , 那就是:它究竟只是「支持多模態」 , 還是從一開始就被設計成「原生多模態」 。
這是 Google 在 2023 年 , 即 Gemini 1 時期就提出來的概念 , 也是一直以來他們的策略核心:在預訓練數據里一開始就混合了文本、代碼、圖片、音頻、視頻等多種模態 , 而不是先訓一個文本大模型 , 再外掛視覺、語音子模型 。
【終于發布的Gemini 3,什么是它真正的王牌?】后者的做法 , 是過去很多模型在面對多模態時的策略 , 本質還是「管線式」的:語音要先丟進 ASR , 再把轉好的文本丟給語言模型;看圖要先走一個獨立的視覺編碼器 , 再把特征接到語言模型上 。
Gemini 3 則試圖把這條流水線折疊起來:同一套大型 Transformer , 在預訓練階段就同時看到文本、圖像、音頻乃至視頻切片 , 讓它在同一個表征空間里學習這些信號的共性和差異 。
少一條流水線 , 就少一層信息損耗 。 對模型來說 , 原生多模態不僅僅是「多學幾種輸入格式」 , 這背后的意義是 , 少走幾道工序 。 少掉那幾道工序 , 意味著更完整的語氣、更密集的畫面細節、更準確的時間順序可以被保留下來 。更重要的是 , 這對應用層有了革命性的影響:當一個模型從一開始就假定「世界就是多模態的」 , 它做出來的產品 , 與單純的問答機器人相比 , 更像是一種新的交互形式 。

從 Search 到 Antigravity , 新總線誕生這次 Gemini 3 上線 , Google 同步在搜索欄的 AI Mode 更新了 , 在這個模式下 , 你看到的不再是一排藍色鏈接 , 而是一整塊由 Gemini 3 生成的動態內容區——上面可以有摘要、結構化卡片、時間軸 , 雖然是有條件觸發 , 但是模型發布的同時就直接讓搜索跟上 , 屬實少見 。
更特別的是 , AI 模式支持使用 Gemini 3 來實現新的生成式 UI 體驗 , 例如沉浸式視覺布局、交互式工具和模擬——這些都是根據查詢內容即時生成的 。
這個思路將一系列 Google 系產品中發揚光大 , 官方的說法是更像「思考伙伴」 , 給出的回答更直接 , 更少套話 , 更有「自己看法」 , 更能「自己行動」 。
配合多模態能力 , 你可以讓它看一段打球視頻 , 幫你挑出動作問題、生成訓練計劃;聽一段講座音頻 , 順手出一份帶小測題的學習卡片;把幾份手寫筆記、PDF、網頁混在一起 , 集中整理成一個圖文并茂的摘要 。
這部分更多是「超級個人助理」的敘事:Gemini 3 塞進 App 之后 , 試圖覆蓋學習、生活、輕辦公的日常用例 , 風格是「你少操點心 , 我多干點活」 。
而在 API 側 , Gemini 3 Pro 被官方明確掛在「最適合 agentic coding 和 vibe coding」這一檔上:也就是既能寫前端、搭交互 , 又能在復雜任務里調工具、按步驟實現開發任務 。
這一次最令人驚艷的也是 Gemini 在「整裝式」生成應用工具的能力上 。
這也就來到了這次發布的新 IDE 產品:Antigravity 。 在官方的設想中 , 這是一個「以 AI 為主角」的開發環境 。 具體實現起來的方式包括:
-多個 AI agent 可以直接訪問編輯器、終端、瀏覽器;
-它們會分工:有人寫代碼 , 有人查文檔 , 有人跑測試;
-所有操作會被記錄成 Artifacts:任務列表、執行計劃、網頁截圖、瀏覽器錄屏……方便人類事后檢查「你到底干了啥」 。
在一個油管博主連線 Gemini 產品負責人的測試中 , 任務是設計一個招聘網站 , 而命令簡單到只是復制、復制、全部復制 , 什么都不修改 , 直接粘貼 。
最終 Gemini 獨立完成對混亂文本的分析 , 真的做了一個完整的網站出來 , 前前后后所有的素材配置、部署 , 都是它自己解決的 。
從這個角度看 , Gemini 3 不只是一個「更聰明的模型」 , 而是 Google 想用來粘住 Search、App、Workspace、開發者工具的那條新總線 。
回到最直覺的感受上:Gemini 3 和上一代相比 , 最明顯的差別其實是——它更愿意、也更擅長「幫你一起協作」 。 這也是 Google 對它賦予的期待 。

壓力給到各方跳出 Google 自身 , Gemini 3 的 Preview 版本實際上給整個大模型行業 , 打開了一局新游戲:多模態能力應用的爆發勢在必行 。
在此之前 , 多模態(能看能聽)是加分項;在此之后 , “原生多模態”將基本配置——還不能是瞎糊弄的那種 。 Gemini 3 這種端到端的視聽理解能力 , 將迫使 OpenAI、Anthropic(Claude)以及開源社區加速淘汰舊范式 。 對于那些還在依賴「截圖+OCR」來理解畫面的模型廠商來說 , 技術倒計時已經開始 。
「套殼」與中間層也會感到壓力山大 , Gemini 3 展現出的強大 Agent 規劃能力 , 是對當前市場上大量 Agentic Workflow(智能體工作流) 創業公司的直接擠壓 。 當基礎模型本身就能完美處理「意圖拆解-工具調用-結果反饋」的閉環時 , 「模型即應用」的現實就又靠近了一點 。
另外 , 手機廠商可能也能感到一絲風向的變化 , Gemini 3 的輕量化和響應速度反映的是 Google 正在為端側模型蓄力 , 結合之前蘋果和幾家不同的模型大廠建立合作 , 可以猜測行業競爭將從單純比拼云端參數的「算力戰」 , 轉向比拼手機、眼鏡、汽車等終端落地能力的“體驗戰” 。

誰最強已經沒那么重要了 , 誰「始終在手邊」才重要在大模型競爭的上半場 , 大家還在問:「誰的模型更強?」 , 參數、分數、排行榜 , 爭的是「天賦」 。 到了 Gemini 3 這一代 , 問題慢慢變成:「誰的能力真正長在產品上、長在用戶身上?」
Google 這次給出的答案 , 是一條相對清晰的路徑:從底層的 Gemini 3 模型 , 往上接工具調用和 agentic 架構 , 再往上接 Search、Gemini App、Workspace 和 Antigravity 這些具體產品界面 。
你可以把它理解成 Google 用 Gemini 3 將以原生多模態為全新的王牌 , 并且給自己旗下生態中的所有產品 , 焊上一條新的「智能總線」 , 讓同一套能力 , 在各個層面都得以發揮 。
至于它最終能不能改變你每天用搜索、寫東西、寫代碼的方式 , 答案不會寫在發布會里 , 而是寫在接下來幾個月——看有多少人 , 會在不經意間 , 把它留在自己的日常工作流中 。
如果真到了那一步 , 排行榜上誰第一 , 可能就沒那么重要了 。
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
愛范兒|原文鏈接· ·新浪微博

    推薦閱讀