一(yi)、Robots功能:
用(yong)于約(yue)定允(yun)許,還是(shi)禁(jin)止(zhi)搜索引擎抓(zhua)取網站內容(rong)。
二、概念:
Robots協議(也稱為爬蟲協議、機器人(ren)協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過(guo)Robots協議告訴搜索引擎哪些(xie)頁(ye)面可以抓(zhua)取(qu),哪些(xie)頁(ye)面不能抓(zhua)取(qu)。
三、通常具有以下作(zuo)用:
(1)在robots中提(ti)供SiteMap(網站地圖(tu)),為搜(sou)索(suo)引(yin)(yin)擎指路,方便搜(sou)索(suo)引(yin)(yin)擎抓取網頁內(nei)容;
(2)屏蔽網(wang)站中(zhong)一些(xie)不必要的網(wang)頁(ye),如:搜索結果頁(ye),幫(bang)助內容頁(ye)等;
(3)屏蔽網站比(bi)較(jiao)大的(de)文件(jian),如:視頻、圖(tu)片等,節省服務器帶寬;
(4)屏蔽網(wang)站內的(de)一些(xie)死鏈接,利(li)于搜(sou)升搜(sou)索引擎(qing)排名提(ti)升。
說明(1)
一般網站(zhan)都會提(ti)供網站(zhan)地圖(tu),便于搜索(suo)引擎更(geng)好的理(li)解網站(zhan)的結(jie)構,以及理(li)解網頁的重要性關系,思途系統即提(ti)供了自動(dong)網站(zhan)地圖(tu)功能,自動(dong)存(cun)放在(zai)網站(zhan)根目錄下。
引導搜索引擎前往抓取的語句:
User-agent: *
Allow:
(注:思(si)途(tu)CMS系統提供(gong)sitemap生成工具,位(wei)置:站長工具 > Sitemap)
說明(2)
列表頁(ye),搜索頁(ye),往往是多條件組(zu)合出來(lai)的頁(ye)面,排列組(zu)合下來(lai),數量眾多,重復度高;
網(wang)(wang)站底部的幫(bang)助(zhu)欄目(mu)往往與(yu)網(wang)(wang)站目(mu)標關鍵詞(ci)無(wu)關,從(cong)搜(sou)索算法角度(du)來講,建(jian)議禁止(zhi)抓取為好。
禁止抓取語句示例:
User-Agent: *
Disallow: /*-* (備注:多條件列表頁)
Disallow: /*?* (備注:搜索頁面以及帶?號的所有頁面)
Disallow: /*help* (備注(zhu):底部幫助頁面(mian))
Disallow:/*servers* (備注:底部(bu)導航)
說明(3)
視(shi)頻,圖片等都很(hen)大,搜(sou)(sou)索引擎爬(pa)蟲來(lai)抓取時,就(jiu)會下載這些(xie)(xie)內容(rong),搜(sou)(sou)索引擎數量重多(duo),如:百度(du)、google、360、搜(sou)(sou)狗等等。加上爬(pa)行頻次(ci)高時,一(yi)天會來(lai)很(hen)多(duo)次(ci),這樣就(jiu)會不斷的請求(qiu)下載服(fu)務(wu)器(qi)上的這些(xie)(xie)資(zi)源(yuan),占用服(fu)務(wu)器(qi)流(liu)量。有(you)時會出現(xian)網站沒有(you)真(zhen)實的用戶訪問,但服(fu)務(wu)器(qi)商統計的流(liu)量也會很(hen)高,往往就(jiu)是這些(xie)(xie)原因導致的。
解決(jue)這個問(wen)題的方法,一般包括:
1、使(shi)用(yong)外部圖片、視頻(pin)服務(wu)器(qi)(qi);(思(si)途有提供三方服務(wu)器(qi)(qi)支持)
2、壓(ya)縮(suo)圖(tu)(tu)片(思途(tu)有提(ti)供圖(tu)(tu)片壓(ya)縮(suo)算(suan)法)、視頻(pin)大小;
3、禁止搜索引(yin)擎(qing)抓取。
禁止抓取的語句:
禁止搜索引擎抓(zhua)取以下格式圖片語句:
User-Agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
說明(4)
網(wang)(wang)站(zhan)(zhan)因為(wei)改版,原來(lai)的(de)(de)一些鏈(lian)(lian)(lian)接(jie)訪問不了(le),或者錯(cuo)誤填寫了(le)網(wang)(wang)址(zhi),這些都會(hui)帶來(lai)錯(cuo)誤鏈(lian)(lian)(lian)接(jie),即死鏈(lian)(lian)(lian)接(jie),搜索引(yin)擎(qing)抓(zhua)取到這些頁面,算法會(hui)認為(wei)網(wang)(wang)站(zhan)(zhan)的(de)(de)用戶體驗不好,經營(ying)者不夠用心等,從而可能(neng)降(jiang)低網(wang)(wang)站(zhan)(zhan)的(de)(de)關鍵排(pai)名,因此,利用思途(tu)后臺(tai)死鏈(lian)(lian)(lian)生成功能(neng),獲(huo)取鏈(lian)(lian)(lian)接(jie),通過站(zhan)(zhan)長平(ping)臺(tai)進行死鏈(lian)(lian)(lian)提交,就(jiu)有利于提升(sheng)搜索引(yin)擎(qing)對網(wang)(wang)站(zhan)(zhan)的(de)(de)評價(排(pai)名)
禁止某錯(cuo)誤網址被抓(zhua)取語句:
User-Agent: *
Disallow: ///www.xxx.com/aaa.html
(注:思途CMS系統有提供404Sitemap,死鏈地圖生成工具,位置:站長工具 > 死鏈排查。當死鏈頁面數量比較多時,可以使用百度站長工具,提供的批量404頁面提交功能。百度404頁(ye)面提交(jiao)禁止抓取的方法)
首先點擊生(sheng)(sheng)成死鏈(lian),生(sheng)(sheng)成后點擊復制鏈(lian)接地址(zhi),到(dao)站長平臺進行地址(zhi)提(ti)交(jiao)。
四、設置位置:
后臺(tai)--站長工具--robots設(she)置(zhi)
更多幫助:
更多Robots的編寫方法:
會員評論