AI讀網頁，這次真不一樣了，谷歌Gemini解鎖「詳解網頁」新技能

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部

谷歌回歸搜索老本行，這一次，它要讓 AI 能像人一樣「看見」網頁。

這是谷歌前不久在 Gemini API 全面上線的 URL Context 功能（5 月 28 日已在 Google AI Studio 中推出），它使 Gemini 模型能夠訪問并處理來自 URL 的內容，包括網頁、PDF 和圖像。

Google 產品負責人 Logan Kilpatrick 表示這是他最喜歡的 Gemini API 工具，并推薦大家把這個工具設置為默認開啟的「無腦選項」。

那么靈魂一問：這和我平時把鏈接扔給 AI 對話框里有什么本質區別？感覺我一直在這么做。

區別在于處理深度和工作方式。你平時扔鏈接， AI 通常會通過一個通用的瀏覽工具或搜索引擎插件來「看」這個網頁， AI 很可能只讀取了網頁的摘要或部分文本。

而 URL Context 則完全不同。它是一個專為開發者設計的編程接口（API），當開發者在他的程序里調用這個功能時，他是明確地指令 Gemini「把這個 URL 里的全部內容（上限高達 34MB）作為你回答下一個問題的唯一、權威的上下文」， Gemini 會進行深度、完整的文檔解析，理解整個文檔的結構、內容和數據。

以下是它的能力清單：

深度解析 PDF：能深刻理解 PDF 中的表格、文本結構甚至腳注。多模態理解：能處理 PNG、JPEG 等圖片，并理解其中的圖表和圖示。支持多種網頁文件：HTML、JSON、CSV 等常見格式均不在話下。
官方 API 文檔提供詳細的配置教程，除此之外，還可以在 Google AI Studio 直接體驗。

Towards Data Science 上的一篇文章詳細介紹了 URL Context Grounding ，作者 Thomas Reid 犀利地將 URL Context Grounding 評價為「RAG 的又一顆棺材釘」。

文章地址：https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/
RAG 是過去幾年中用于提升大語言模型回答準確性、時效性和可靠性的主流技術。由于大模型的知識截止于其訓練數據， RAG 通過一個外部知識庫來為其提供最新的、特定性的信息。

傳統的 RAG 流程相對復雜，通常包括以下步驟：

提取內容：從數據源（如網站、文檔）中抓取文本。分塊：將長文本切分成更小、更易于處理的片段。矢量化：使用嵌入模型（Embedding Model）將文本塊轉換為數字向量，捕捉其語義信息。存儲：將這些向量存儲在專門的向量數據庫中。檢索：當用戶提問時，系統首先在向量數據庫中搜索與問題最相關的文本塊。增強與生成：將檢索到的相關文本塊作為上下文信息，與原始問題一同輸入給大語言模型，從而生成更準確、更具針對性的回答。

RAG 架構。圖源：Mindful Matrix

Thomas Reid 指出，使用 URL Context Grounding「無需提取 URL 文本和內容、分塊、矢量化、存儲等」。對于處理公開網絡內容這個非常普遍的場景，它提供了一個極其簡單的替代方案。

開發者不再需要花費大量時間和精力去搭建和維護一個由多個組件（數據提取、向量數據庫等）組成的復雜管道，只需幾行代碼就能實現更精準的效果。

在 Thomas Reid 提供的示例中， Gemini 僅憑一個指向特斯拉 50 頁財報 PDF 的 URL ，就準確無誤地提取出了位于第 4 頁表格中的「總資產」和「總負債」數據，這是僅靠摘要絕無可能完成的任務。

自特斯拉 SEC 10-Q 申報文件第 4 頁內容。

以下是我們在 Google AI Studio 中的測試結果。

作者接著測試了 URL Context 挑選其他信息的能力。在 PDF 的末尾，有一封寫給即將離開公司的員工的信，概述了他們的遣散條款。

信中提到的退出日期用星號（***）標記，屏蔽退出日期的原因在腳注中給出。

URL Context 準確識別出了腳注中的內容。

根據所提供的文件，員工離職協議中的離職日期被標記為「***」，原因在于某些公司視為隱私或機密的特定非關鍵信息，已在公開文件中被有意略去。

該文件包含一條對此做法的澄清說明：「本文檔中某些已識別的信息已被略去，因為這些信息并非關鍵信息，且屬于公司視為隱私或機密的信息類型，并已用「***」標記以示省略之處。

根據官網介紹， URL Context 采用一個兩步檢索流程，以平衡速度、成本和對最新數據的訪問。

當用戶提供一個 URL 時，該工具首先嘗試從內部索引緩存中獲取內容，以提高速度和成本效益。如果 URL 不在緩存中（比如一個剛剛發布的頁面），它會進行實時抓取。

那它的能力邊界在哪里呢？官方介紹中也有明確說明。

無法翻越「付費墻」：需要登錄或付費才能訪問的內容，它無能為力。專用工具優先：YouTube 視頻、Google Docs 等有專門 API 處理的內容，它不會涉足。有明確的容量限制：單次請求最多處理 20 個 URL ，且單個 URL 內容上限為 34MB 。
價格方面，它的計費方式非常直觀：按處理的內容 Token 數量計費。你提供的 URL 內容越多，被轉換成輸入 Token 的數量就越多，成本也相應增加。這可能會間接引導開發者進行更高效的應用設計，即精確地提供所需的信息源，而非寬泛地投喂大量不相關的 URL ，從而優化成本。

不過話說回來， URL Context Grounding 的出現并非宣告 RAG 的終結，而是對其應用場景的重新劃分。對于處理企業內網的海量私有文檔、需要復雜檢索邏輯和極致安全性的場景，構建一套自主可控的 RAG 系統依然是不可或缺的。

【AI讀網頁，這次真不一樣了，谷歌Gemini解鎖「詳解網頁」新技能】URL Context 揭示了一個行業趨勢：基礎模型正在將越來越多的「外部能力」內置化。過去需要由應用層開發者承擔的復雜數據處理工作，正在被逐步吸收到底層模型的服務中。

AI讀網頁，這次真不一樣了，谷歌Gemini解鎖「詳解網頁」新技能

推薦閱讀

簽合同中的定與訂的區別是什么

黎明跟劉德華演的電影叫什么

早上空腹可以吃香蕉嗎

陜西省計算機二級報名時間2021 陜西省計算機二級考試報名時間2023

怎么設置兩個微信號可以同時在線

什么叫光學聲子聲學聲子

翔宇的寓意

面試 2022年上半年河南省中小學教師資格考試防疫須知

soho是什么性質的房子

發抖音可以用的句子

分享在華為Mate20中開啟一鍵省電的方法。

狗子發燒會自己好嗎

變圓的胖妞……更可愛啦又胖又萌又可愛的圖片

提高顧客滿意度的途徑

秋雨綿綿思萬千秋雨綿綿的唯美句子

天津南開電話區號多少，天津的電話區號是多少