當(dāng)前部分網(wǎng)站面臨搜索引擎蜘蛛過度抓取導(dǎo)致的流量占用問題,具體表現(xiàn)為服務(wù)器帶寬資源被大量消耗。通過網(wǎng)站訪問日志可觀測(cè)到高頻爬取記錄,其中以百度蜘蛛(BaiDuSpider)尤為突出。值得注意的是,若為正常搜索引擎爬蟲行為,直接禁止訪問可能引發(fā)網(wǎng)站在搜索引擎中的收錄量下降及排名丟失,進(jìn)而導(dǎo)致潛在客戶流失。針對(duì)此類情況,優(yōu)先考慮通過升級(jí)虛擬主機(jī)配置或遷移至云服務(wù)器(不限流量)來擴(kuò)容資源,而非簡(jiǎn)單攔截爬蟲。
搜索引擎普遍遵循robots協(xié)議,該協(xié)議通過網(wǎng)站根目錄下的robots.txt文件實(shí)現(xiàn)爬取權(quán)限控制。以下為典型配置示例:
- 示例1:禁止所有搜索引擎訪問全站
```plaintext
User-agent:
Disallow: /
```
- 示例2:允許所有搜索引擎訪問(或創(chuàng)建空文件)
```plaintext
User-agent:
Allow:
```
- 示例3:禁止百度蜘蛛訪問
```plaintext
User-agent: Baiduspider
Disallow: /
```
- 示例4:允許百度蜘蛛訪問
```plaintext
User-agent: Baiduspider
Allow: /
```
- 示例5:禁止特定目錄被爬取
```plaintext
User-agent:
Disallow: /admin/
Disallow: /install/
```
- 示例6:僅允許百度與谷歌蜘蛛訪問
```plaintext
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent:
Disallow: /
```
- 示例7:禁止百度蜘蛛抓取圖片資源
```plaintext
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: /.gif$
Disallow: /.png$
Disallow: /.bmp$
```
結(jié)合網(wǎng)站日志分析,若發(fā)現(xiàn)百度蜘蛛主要因圖片抓取占用流量,且需屏蔽/admin/、/install/目錄,可配置如下規(guī)則:
```plaintext
User-agent:
Disallow: /admin/
Disallow: /install/
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: /.gif$
Disallow: /.png$
Disallow: /.bmp$
```
需注意,搜索引擎索引庫更新存在延遲,規(guī)則設(shè)置后蜘蛛爬行行為不會(huì)立即終止,需數(shù)月時(shí)間逐步減少直至完全生效。若需加速屏蔽,可通過搜索引擎反饋中心提交申訴。若部分爬蟲不遵守robots協(xié)議,可結(jié)合偽靜態(tài)規(guī)則進(jìn)一步攔截(參考:西部數(shù)碼偽靜態(tài)攔截方案)。
當(dāng)百度蜘蛛抓取頻次過高引發(fā)帶寬堵塞時(shí),可通過百度站長(zhǎng)工具(http://zhanzhang.baidu.com/)進(jìn)行干預(yù):
1. 完成網(wǎng)站驗(yàn)證后,進(jìn)入“網(wǎng)頁抓取-抓取頻次”頁面;
2. 針對(duì)無價(jià)值鏈接,更新robots.txt并使用“robots.txt工具”提交生效;
3. 若影響網(wǎng)站正常訪問,直接在“抓取頻次上限調(diào)整”頁面降低閾值;
4. 若問題持續(xù),通過反饋中心提交工單。
為深入理解爬蟲行為與robots.txt配置,可參考以下標(biāo)準(zhǔn)資料:
- 百度蜘蛛幫助中心:http://www.baidu.com/search/spider.html
- Googlebot幫助中心:http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=182072
- 搜狗蜘蛛幫助中心:http://www.sogou.com/docs/help/webmasters.htm
- Robots.txt協(xié)議詳解:http://baike.baidu.com/view/1280732.htm
- 百度官方robots.txt寫法指南:http://www.baidu.com/search/robots.html
若遇違規(guī)爬蟲,可通過百度投訴平臺(tái)(http://tousu.baidu.com/webmaster/suggest#1)提交處理。
---