了解過搜索引擎爬(pa)蟲抓取(qu)(qu)爬(pa)行的(de)可能(neng)會(hui)有一(yi)個比較(jiao)清晰的(de)答案,是的(de)就是幫助(zhu)爬(pa)蟲盡(jin)可能(neng)的(de)抓取(qu)(qu)頁(ye)面,只有被讀取(qu)(qu)到的(de)頁(ye)面才有可能(neng)被收(shou)錄(lu)。
扁平化的(de)(de)(de)(de)結構(gou)將網(wang)站的(de)(de)(de)(de)頁面盡可(ke)能(neng)的(de)(de)(de)(de)直接展(zhan)示在蜘蛛(zhu)爬蟲面前(qian)或者很(hen)容易被爬蟲發現(xian)(xian),不需要一(yi)個層級一(yi)個層級的(de)(de)(de)(de)深入挖掘,除非知名站點或大型(xing)網(wang)站能(neng)夠(gou)享有這(zhe)種特權。因為整個互聯網(wang)的(de)(de)(de)(de)數據量(liang)是(shi)相(xiang)當(dang)龐大的(de)(de)(de)(de),而每天更新的(de)(de)(de)(de)信息量(liang)現(xian)(xian)有的(de)(de)(de)(de)蜘蛛(zhu)資源都(dou)(dou)很(hen)難去(qu)實現(xian)(xian)完全抓(zhua)(zhua)(zhua)取(qu)(qu),還有些頁面每天會(hui)被蜘蛛(zhu)重復抓(zhua)(zhua)(zhua)取(qu)(qu),所(suo)以這(zhe)就需要蜘蛛(zhu)舍棄一(yi)些,所(suo)以也就出現(xian)(xian)了抓(zhua)(zhua)(zhua)取(qu)(qu)策略,對低質量(liang)的(de)(de)(de)(de)網(wang)站降低抓(zhua)(zhua)(zhua)取(qu)(qu)量(liang),很(hen)難發現(xian)(xian)新頁面的(de)(de)(de)(de)網(wang)站將資源全都(dou)(dou)消耗在頁面的(de)(de)(de)(de)重復抓(zhua)(zhua)(zhua)取(qu)(qu)上(shang)面。
贊
5
有一點幫助
1
沒有幫助