被迫開放搜索數據，谷歌的渡劫宣告失敗_搜索引擎|算法|百度

文章圖片

美國司法部與硅谷巨頭谷歌的反壟斷案，現在已經變成了一出超長的連續劇，隨著美國聯邦法院做出最新裁定，谷歌放下的心又懸了起來。日前有消息顯示，美國聯邦法院裁定，谷歌方面必須向競爭對手開放部分核心搜索數據。

經過長達五年時間的拉鋸，如今看來谷歌只是收獲了一場慘勝。盡管無需剝離Chrome瀏覽器和Android操作系統，讓谷歌逃脫了被拆分的命運，現有商業體系不至于被徹底重構，可開放核心搜索數據給競爭對手，真的有可能會動搖谷歌的根基。
這一次，谷歌必須向競爭對手交付的搜索數據包括搜索索引和用戶交互數據，幾乎等于是讓他們親手培育自己的競爭對手。為什么谷歌搜索引擎的江湖地位一直固若金湯， DuckDuckGo等后繼者從未對他們造成實質上的威脅？其中的奧妙就在搜索索引、用戶交互數據等核心數據上。
作為幾乎是最成熟的互聯網業務，搜索引擎的產品形態從誕生開始就基本固定，都是依靠爬蟲從網絡上提取各網站的信息，然后將其保存在自己的數據庫中、并建立索引。當用戶發起搜索請求后，系統檢索與用戶查詢條件匹配的相關記錄，再按特定排列順序將結果呈現給用戶。
在上世紀90年代的互聯網技術革命中，百度和谷歌的崛起就是技術制勝的結果。盡管早期的搜索引擎多如牛毛， AltaVista、Infoseek、WebCrawler等基于布爾搜索的搜索引擎比“黃頁”強得有限，它們往往直接抓取網頁，然后通過“全文搜索”技術，將包含有用戶查詢關鍵詞的網頁鏈接返回。然而這類初級“搜索引擎”有一個致命缺陷，那就是它們并不知道哪個網頁更好。
這時候百度依托于超鏈分析技術，通過分析網頁鏈接的數量和質量來評估內容的權威性，就顯著提升了搜索結果的相關性和準確性。而谷歌的PageRank算法也是通過分析網頁之間的鏈接關系，來實現評估網頁的效果，在技術層面上降維打擊其他搜索引擎，這就是谷歌和百度崛起的關鍵。
隨著谷歌、百度的壯大，通過算法分析鏈接之間的引用關系本身，就變成了人盡皆知的“大白菜” 。比如雅虎推出的“自建搜尋服務”（Build Your Own Search service），可以讓任何一個人從0開始搭建可用的搜索引擎。但問題在于，用戶并不關心搜索引擎的原理，更關注的是“如何更好地獲取信息” ，這就不僅僅涉及算法，更需要常年對用戶搜索數據的積累。

進入新世紀的第二個十年，在數據共享和存儲趨向于服務端的情況下，信息的獲取和流動已經不是主要問題，但如何針對具體問題在海量的數據中找到相關性最高的信息，則是一個比較難的問題，而這也是一個水滴石穿的工作。
這也是為什么字節跳動當初為了搭建搜索業務，挖走了百度大搜索部門的許多工程師，可后續推出的“悟空搜索”表現一言難盡。這是因為即便工程師可以被挖，他們腦海里的算法也能帶走，但用戶數據可是帶不走的。只有百度和谷歌在過去二十年來收集了無數用戶的查詢，才能投入資源去優化高頻和長尾場景。
簡而言之，同樣是搜索一個關鍵詞，谷歌總是能討用戶歡心，是因為他們的索引數據庫龐大到難以想象。相比《大英百科全書》，谷歌的索引數據庫才是包羅萬象的百科全書。海量用戶的搜索行為數據（如點擊偏好、停留時間、地域分布），得以讓谷歌的算法能夠持續優化，形成 “數據越大—算法越好—用戶越多—數據更大” 的飛輪效應。

盡管同樣都是搜索引擎，可谷歌每一次提供的結果總是最符合你的心意， DuckDuckGo則老是差點意思的情況下。久而久之，除了真正關心個人隱私的用戶會盯著效果不佳這個缺陷，繼續使用DuckDuckGo ，更側重效率的普羅大眾就必然會投入谷歌的懷抱。
【被迫開放搜索數據，谷歌的渡劫宣告失敗】現在法院要求谷歌交出“用戶意圖判斷數據”、“匿名化的搜索結果排序邏輯數據” ，乃至索引數據庫，就意味著友商也能獲得谷歌的這些“秘籍” 。當“武林絕學”人人都能練的時候，谷歌搜索的危機自然也就真正到來了。

被迫開放搜索數據，谷歌的渡劫宣告失敗

推薦閱讀

阿膠吃多了會怎樣阿膠雖好不宜過量服用

柳州人才補貼多久到賬

草龜應該怎么養

世界上有沒有恐龍

珍珠蠔和生蠔的區別

包裝盒回收利用有哪些方法？

不思議迷宮12月29日密令不思議迷宮12月29日每日密令分享

自動擋車沒電了能推著火嗎自動擋的車沒電了能推著火嗎

特斯拉的露營模式什么意思呀特斯拉的露營模式什么意思

龍血樹耐寒嗎冬天龍血樹耐寒嗎

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢

建成房屋如何挖地下室

我買了堅果手機，感覺系統好像沒有過度動畫

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

麥昆小白鞋黃斑怎么去

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別