被迫開放搜索數據,谷歌的渡劫宣告失敗

被迫開放搜索數據,谷歌的渡劫宣告失敗

文章圖片

被迫開放搜索數據,谷歌的渡劫宣告失敗

美國司法部與硅谷巨頭谷歌的反壟斷案 , 現在已經變成了一出超長的連續劇 , 隨著美國聯邦法院做出最新裁定 , 谷歌放下的心又懸了起來 。 日前有消息顯示 , 美國聯邦法院裁定 , 谷歌方面必須向競爭對手開放部分核心搜索數據 。



經過長達五年時間的拉鋸 , 如今看來谷歌只是收獲了一場慘勝 。 盡管無需剝離Chrome瀏覽器和Android操作系統 , 讓谷歌逃脫了被拆分的命運 , 現有商業體系不至于被徹底重構 , 可開放核心搜索數據給競爭對手 , 真的有可能會動搖谷歌的根基 。
這一次 , 谷歌必須向競爭對手交付的搜索數據包括搜索索引和用戶交互數據 , 幾乎等于是讓他們親手培育自己的競爭對手 。 為什么谷歌搜索引擎的江湖地位一直固若金湯 , DuckDuckGo等后繼者從未對他們造成實質上的威脅?其中的奧妙就在搜索索引、用戶交互數據等核心數據上 。
作為幾乎是最成熟的互聯網業務 , 搜索引擎的產品形態從誕生開始就基本固定 , 都是依靠爬蟲從網絡上提取各網站的信息 , 然后將其保存在自己的數據庫中、并建立索引 。 當用戶發起搜索請求后 , 系統檢索與用戶查詢條件匹配的相關記錄 , 再按特定排列順序將結果呈現給用戶 。
在上世紀90年代的互聯網技術革命中 , 百度和谷歌的崛起就是技術制勝的結果 。 盡管早期的搜索引擎多如牛毛 , AltaVista、Infoseek、WebCrawler等基于布爾搜索的搜索引擎比“黃頁”強得有限 , 它們往往直接抓取網頁 , 然后通過“全文搜索”技術 , 將包含有用戶查詢關鍵詞的網頁鏈接返回 。 然而這類初級“搜索引擎”有一個致命缺陷 , 那就是它們并不知道哪個網頁更好 。
這時候百度依托于超鏈分析技術 , 通過分析網頁鏈接的數量和質量來評估內容的權威性 , 就顯著提升了搜索結果的相關性和準確性 。 而谷歌的PageRank算法也是通過分析網頁之間的鏈接關系 , 來實現評估網頁的效果 , 在技術層面上降維打擊其他搜索引擎 , 這就是谷歌和百度崛起的關鍵 。
隨著谷歌、百度的壯大 , 通過算法分析鏈接之間的引用關系本身 , 就變成了人盡皆知的“大白菜” 。 比如雅虎推出的“自建搜尋服務”(Build Your Own Search service) , 可以讓任何一個人從0開始搭建可用的搜索引擎 。 但問題在于 , 用戶并不關心搜索引擎的原理 , 更關注的是“如何更好地獲取信息” , 這就不僅僅涉及算法 , 更需要常年對用戶搜索數據的積累 。



進入新世紀的第二個十年 , 在數據共享和存儲趨向于服務端的情況下 , 信息的獲取和流動已經不是主要問題 , 但如何針對具體問題在海量的數據中找到相關性最高的信息 , 則是一個比較難的問題 , 而這也是一個水滴石穿的工作 。
這也是為什么字節跳動當初為了搭建搜索業務 , 挖走了百度大搜索部門的許多工程師 , 可后續推出的“悟空搜索”表現一言難盡 。 這是因為即便工程師可以被挖 , 他們腦海里的算法也能帶走 , 但用戶數據可是帶不走的 。 只有百度和谷歌在過去二十年來收集了無數用戶的查詢 , 才能投入資源去優化高頻和長尾場景 。
簡而言之 , 同樣是搜索一個關鍵詞 , 谷歌總是能討用戶歡心 , 是因為他們的索引數據庫龐大到難以想象 。 相比《大英百科全書》 , 谷歌的索引數據庫才是包羅萬象的百科全書 。 海量用戶的搜索行為數據(如點擊偏好、停留時間、地域分布) , 得以讓谷歌的算法能夠持續優化 , 形成 “數據越大—算法越好—用戶越多—數據更大” 的飛輪效應 。



盡管同樣都是搜索引擎 , 可谷歌每一次提供的結果總是最符合你的心意 , DuckDuckGo則老是差點意思的情況下 。 久而久之 , 除了真正關心個人隱私的用戶會盯著效果不佳這個缺陷 , 繼續使用DuckDuckGo , 更側重效率的普羅大眾就必然會投入谷歌的懷抱 。
【被迫開放搜索數據,谷歌的渡劫宣告失敗】現在法院要求谷歌交出“用戶意圖判斷數據”、“匿名化的搜索結果排序邏輯數據” , 乃至索引數據庫 , 就意味著友商也能獲得谷歌的這些“秘籍” 。 當“武林絕學”人人都能練的時候 , 谷歌搜索的危機自然也就真正到來了 。

    推薦閱讀