小程序開發公司為你講解什么是百度蜘蛛

發布日期：2015/5/26 瀏覽次

小程序開發公司為你講解什么是百度蜘蛛，Baiduspider是百度搜索引擎的一個自動程序，它的作用是訪問互聯網上的網頁，建立索引數據庫，使用戶能在百度搜索引擎中搜索到您網站上的網頁

　　大家好，這里是關于百度蜘蛛的介紹，那么很多人不理解百度蜘蛛有什么好介紹的呢？百度蜘蛛其實不是你想的那么簡單，看看下面吧！

　　1. 什么是Baiduspider

　　Baiduspider是百度搜索引擎的一個自動程序，它的作用是訪問互聯網上的網頁，建立索引數據庫，使用戶能在百度搜索引擎中搜索到您網站上的網頁。

　　2. Baiduspider的user-agent是什么？

　　百度各個產品使用不同的user-agent：

　　產品名稱

　　對應user-agent

　　無線搜索

　　Baiduspider

　　圖片搜索

　　Baiduspider-image

　　視頻搜索

　　Baiduspider-video

　　新聞搜索

　　Baiduspider-news

　　百度搜藏

　　Baiduspider-favo

　　百度聯盟

　　Baiduspider-cpro

　　商務搜索

　　Baiduspider-ads

　　網頁以及其他搜索

　　Baiduspider

　　3. Baiduspider對一個網站服務器造成的訪問壓力如何？

　　為了達到對目標資源較好的檢索效果，Baiduspider需要對您的網站保持一定量的抓取。我們盡量不給網站帶來不合理的負擔，并會根據服務器承受能力，網站質量，網站更新等綜合因素來進行調整。如果您覺得baiduspider的訪問行為有任何不合理的情況，您可以反饋至反饋中心。

　　4. 為什么Baiduspider不停的抓取我的網站？

　　對于您網站上新產生的或者持續更新的頁面，Baiduspider會持續抓取。此外，您也可以檢查網站訪問日志中Baiduspider的訪問是否正常，以防止有人惡意冒充Baiduspider來頻繁抓取您的網站。如果您發現Baiduspider非正常抓取您的網站，請通過反饋中心反饋給我們，并請盡量給出Baiduspider對貴站的訪問日志，以便于我們跟蹤處理。

　　5. 如何判斷是否冒充Baiduspider的抓取？

　　建議您使用DNS反查方式來確定抓取來源的ip是否屬于百度，根據平臺不同驗證方法不同，如linux/windows/os三種平臺下的驗證方法分別如下：

　　5.1 在linux平臺下，您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即為冒充。

　　$ host 123.125.66.120

　　120.66.125.123.in-addr.arpa domain name pointer

　　baiduspider-123-125-66-120.crawl.baidu.com.

　　host 119.63.195.254

　　254.195.63.119.in-addr.arpa domain name pointer

　　BaiduMobaider-119-63-195-254.crawl.baidu.jp.

　　5.2 在windows平臺或者IBM OS/2平臺下，您可以使用nslookup ip命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入nslookup xxx.xxx.xxx.xxx（IP地址）就能解析ip，來判斷是否來自Baiduspider的抓取，Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即為冒充。

　　5.3 在mac os平臺下，您可以使用dig 命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入dig xxx.xxx.xxx.xxx（IP地址）就能解析ip，來判斷是否來自Baiduspider的抓取，Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即為冒充。

　　6. 我不想我的網站被Baiduspider訪問，我該怎么做？

　　Baiduspider遵守互聯網robots協議。您可以利用robots.txt文件完全禁止Baiduspider訪問您的網站，或者禁止 Baiduspider訪問您網站上的部分文件。注意：禁止Baiduspider訪問您的網站，將使您的網站上的網頁，在百度搜索引擎以及所有百度提供搜索引擎服務的搜索引擎中無法被搜索到。關于 robots.txt的寫作方法，請參看我們的介紹：robots.txt寫作方法

　　您可以根據各產品不同的user-agent設置不同的抓取規則，如果您想完全禁止百度所有的產品收錄，可以直接對Baiduspider設置禁止抓取。

　　以下robots實現禁止所有來自百度的抓取：

　　User-agent: Baiduspider

　　Disallow: /

　　以下robots實現禁止所有來自百度的抓取但允許圖片搜索抓取/image/目錄：

　　User-agent: Baiduspider

　　Disallow: /

　　User-agent: Baiduspider-image

　　Allow: /image/

　　請注意：Baiduspider-cpro抓取的網頁并不會建入索引，只是執行與客戶約定的操作，所以不遵守robots協議，如果Baiduspider-cpro給您造成了困擾，請聯系union1@baidu.com。

　　Baiduspider-ads抓取的網頁并不會建入索引，只是執行與客戶約定的操作，所以不遵守robots協議，如果Baiduspider-ads給您造成了困擾，請聯系您的客戶服務專員。

　　7. 為什么我的網站已經加了robots.txt，還能在百度搜索出來？

　　因為搜索引擎索引數據庫的更新需要時間。雖然Baiduspider已經停止訪問您網站上的網頁，但百度搜索引擎數據庫中已經建立的網頁索引信息，可能需要數月時間才會清除。另外也請檢查您的robots配置是否正確。

　　如果您的拒絕被收錄需求非常急迫，也可以通過反饋中心反饋請求處理。

　　8. 我希望我的網站內容被百度索引但不被保存快照，我該怎么做？

　　Baiduspider遵守互聯網meta robots協議。您可以利用網頁meta的設置，使百度顯示只對該網頁建索引，但并不在搜索結果中顯示該網頁的快照。

　　和robots的更新一樣，因為搜索引擎索引數據庫的更新需要時間，所以雖然您已經在網頁中通過meta禁止了百度在搜索結果中顯示該網頁的快照，但百度搜索引擎數據庫中如果已經建立了網頁索引信息，可能需要二至四周才會在線上生效。

　　9. Baiduspider抓取造成的帶寬堵塞？

　　Baiduspider的正常抓取并不會造成您網站的帶寬堵塞，造成此現象可能是由于有人冒充Baiduspider惡意抓取。如果您發現有名為Baiduspider的agent抓取并且造成帶寬堵塞，請盡快和我們聯系。您可以將信息反饋至反饋中心，如果能夠提供您網站該時段的訪問日志將更加有利于我們的分析。

^_^ 美好總是短暫，還想見到你！

上一條：小程序開發的第一件事，是找靠譜網絡開發公司！
下一條：網絡公司如何為客戶做好網站和小程序呢？

營銷小程序

美女被狂揉下部羞羞_久久国产网站_欧美性生交按摩_海贼女帝被吸乳羞羞漫画

小程序開發公司為你講解什么是百度蜘蛛