下載(zai)日志(zhi),再使用工具editplus打(da)開日志(zhi)
一、查(cha)看有沒有大量重復訪問的IP
一般這種IP都是搜索引(yin)擎(qing)抓(zhua)(zhua)取IP段,比如谷歌(ge)蜘蛛(zhu)抓(zhua)(zhua)取(Googlebot),百度蜘蛛(zhu)抓(zhua)(zhua)取(Baiduspider、Baiduspider-render)。
注意:Baiduspider-render是訪(fang)問(wen)網站的 CSS、Javascript 和圖片信息。
如果查看到這(zhe)個蜘蛛(zhu)出現的次(ci)數很多,而客戶網(wang)站圖片又比較大,則(ze)消耗的流量就會增加(jia),建議把圖片處理小。
IP段:
谷歌蜘(zhi)蛛(Googlebot):
百度蜘(zhi)蛛(Baiduspider):
百度蜘蛛(Baiduspider-render):
針對(dui)以(yi)上的異常蜘蛛抓取,處理(li)方(fang)法如下:
1、在后(hou)臺(tai)robots禁止(zhi)谷歌抓取
User-agent: Googlebot
Disallow: /
參(can)考位置,加在這里:
2、調低百度蜘蛛(zhu)抓取頻率。
登陸百度站長調整。
3、還有個(ge)方法,就是幫屏蔽(bi)這些(xie)抓取IP(僅限客戶(hu)自有服(fu)務器)。
二、移動(dong)端抓(zhua)取(qu)
思途cms系(xi)統,后臺做的(de)robots屏(ping)蔽僅針對PC端,手機端沒做。
但可以把robots屏蔽里面的(de)代碼另存為txt文檔,上傳到服務器手機端(duan)根(gen)目錄下。
主要就是1、2點,屏(ping)蔽搜索引擎的大量抓取,再觀察后續流(liu)量是否降低。
其他處理(針對網站優化)
三、屏蔽列表頁抓取(qu)
為(wei)什(shen)么(me)要(yao)屏蔽搜索引擎抓取列表頁?
原因:列表頁url很長(chang),收錄也(ye)沒(mei)內容,對(dui)于排名沒(mei)作用(yong),還會分散權(quan)重(zhong)
看日志里,搜索引擎訪(fang)問的頁(ye)面(mian)鏈(lian)接地址,分辨列表頁(ye):
以上這些就是(shi)列(lie)表(biao)頁(ye),可以看(kan)到搜索引擎抓取了很多列(lie)表(biao)頁(ye)。
Disallow: /*-*
Disallow: /*?*
用(yong)這段代碼,屏蔽搜索引擎(qing)抓取列表頁(ye)。
可以加在這個位置:
四、處(chu)理(li)404頁面
訪問日志(zhi)中如(ru)看到大量(liang)404頁(ye)面(mian),就要去百度(du)站長提交(jiao)處(chu)理死鏈
在(zai)HTTP/1.1 后(hou)面,是404就表示訪問(wen)的頁面已(yi)經不在(zai)了,死頁面,要處理;
后面顯(xian)示(shi)200,就(jiu)表示(shi)正常抓取,頁面存在
其他要點:
在網址后(hou)面+robots.txt 可以不登(deng)錄后(hou)臺就看到它的(de)robots設置。
會員評論