欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

如何避免大量重復URL被百度收錄


如何避免大量重復URL被百度收錄

文章插圖
很多同學會有這樣的疑惑, 索引量工具顯示索引量數值很高但流量總也上不去, 也沒有發現我們站內有低質內容, 百度這是要鬧哪樣?6月中旬, 藝龍SEO負責人劉明給我推薦了他寫的文章《如何避免大量URL重復收錄》, 找到了索引量高流量低的一個原因并給出的解決方案 。 另外, 如果各位同學還有工作經驗等內容想分享、或者對已有內容持相反意見者, 歡迎給站長學院投稿 。
首先聲明, 我們只談論有檢索意義的URL, 也就是用戶會從搜索引擎查找的頁面 。 其他頁面按照常用的方法做屏蔽就好了 。 鑒于很多站長都愛討論整體的收錄量, 我必須潑一下冷水, 也許你的有效收錄是1/10 。
URL參數
也叫URL query, 是一個最復雜, 最容易被忽視, 最容易被妥協的問題 。 他是網站運營中必不可少的元素, 如果簡單的去除, 其他部門就無法工作了 。 靜態化是的話題, URL參數經常被用于以下幾方面:
同一個實體的不同狀態展示, 比如同一個酒店, 在不同時間點會有不同的房間庫存:http://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10
為了統計不同渠道的流量:http://www.a.com/?tracking=website_a
為了統計不同渠道, 具體模塊的點擊量:http://www.a.com/?tracking=website_a&click_spot=zone_abc
調試:http://www.a.com/product/item123/?debug=true
【如何避免大量重復URL被百度收錄】 全世界最奇葩的是亞馬遜, 居然把統計參數放到了路徑中http://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1
出現這種問題的壞處有幾點:
1. 浪費搜索引擎對你網站的各項配額, 從而影響其他正常的頁面 。
2. 丟失很多本應拿到的鏈接加分, 站外渠道的鏈接往往是最優質的 。 同一個URL的分值可能分散成幾十份 。
3. SEO的流量被統計到別的渠道(因為tracking字段寫的是別的渠道, 而且被收錄被點擊)
4. 往往形成一種局面, 產品用一套URL, SEO用另一套URL, 甚至不同渠道用不同的URL, 后期開發和維護的成本極高 。
為了解決這個問題, 首先要弄清URL的定義 。 以我的理解, 每一個URL是一個靜態的、獨立不重復的、有意義的實體, 一般也有檢索意義(就是有人會搜) 。 比如一個人、一輛車、一條道路、一個零件 。 而不能混入各種"狀態", 比如這個人生病的時候, 難道就不是他自己了么? 一件商品在促銷的狀態難道是另一件商品了么?
理論上canonical標簽就可以解決這個問題了, 但是從實際測試結果看, 百度對這個標簽的支持優先級非常低, 幾乎可以忽略不計 。 那么我的解決方案是這樣的:
1. 建立好網站的思維導圖和元信息 。 (可參考:SEO健康度 )
2. 所有和SEO元信息相關的參數都放到路徑中去
3. 所有和SEO元信息不相干的參數都放到#后邊, 因為#后邊不影響web服務器返回的內容 。 簡單的說就是用"#"替代"?" 。
4. 每個頁面中都利用js獲取#后邊的參數對, 通過二次請求發回給統計服務器
5. 如果#后邊的參數影響頁面內容, 比如酒店的入住日期 。 那么這部分內容用ajax加載就行, 他是不穩定的, 不屬于頁面內容的一部分 。 (當然還有變通的辦法, 暫不贅述 。 )
6. 原始的#錨點定義肯定會沖突, 定義一個#后邊的變量, 并用js控制屏幕滾動, 來保證原始錨點的作用 。
有人可能會想到, 根據ua判斷, 如果是搜索引擎爬蟲, 就用跳轉的方式去掉URL參數 。 但效率最高的方法必然是從一開始就不展示錯誤URL 。 那么前面的例子優化后就變成了:

相關經驗推薦