搜索引擎工作的基本之蜘蛛的抓取原理分析
上篇《搜索引擎工作的基本原理-蜘蛛的爬行》中我們詳細(xì)介紹了蜘蛛是如何爬行工作的,現(xiàn)在小編想跟大家聊一下蜘蛛的抓取。
理論上,蜘蛛的爬行可以遍布整個互聯(lián)網(wǎng)的全部頁面,但是實際上,蜘蛛做不到這些,也不需要去做到,因為整個互聯(lián)網(wǎng)每天出現(xiàn)的新頁面是以萬億級計數(shù)的,其中有大量的垃圾內(nèi)容,這里所指的垃圾是指垃圾網(wǎng)站出現(xiàn)大量無關(guān)內(nèi)容,例如相親網(wǎng)上出現(xiàn)賭博六合彩的信息,出現(xiàn)一兩次還可以忍受,出現(xiàn)次數(shù)多了會對搜索引擎用戶體驗造成很大的傷害,嚴(yán)重的影響搜索引擎的盈利。
既然知道了蜘蛛爬行并不會爬行和抓取所有的頁面,我們?yōu)榱烁囗撁姹皇珍?,就要學(xué)著討好蜘蛛,蜘蛛的使命就是盡量抓取重要頁面。我們就在這方面討好它,凡是方便利于蜘蛛爬行和抓取的行為都是好行為。
蜘蛛的抓取一般喜歡以下幾種行為:
蜘蛛喜歡的行為一:網(wǎng)站和頁面的權(quán)重盡可能的高,蜘蛛抓取的過程中首先考慮這種網(wǎng)站,因為在蜘蛛看來,質(zhì)量高、建站時間長的網(wǎng)站才會有比較高的權(quán)重。高權(quán)重的網(wǎng)站甚至可以達(dá)到秒收錄的效果。
蜘蛛喜歡的行為二:頁面更新頻率要高,如果不經(jīng)常更新頁面,蜘蛛也就沒必要經(jīng)常過來抓取頁面內(nèi)容了,只有我們經(jīng)常更新,蜘蛛才會更加頻繁的光顧我們的網(wǎng)站網(wǎng)頁內(nèi)容。所以網(wǎng)站維護(hù)期最好做到每日更新,不僅是原創(chuàng)內(nèi)容,也可以轉(zhuǎn)載一些時效性強(qiáng)的資訊。
蜘蛛喜歡的行為三:高質(zhì)量的內(nèi)外鏈建設(shè),高質(zhì)量的內(nèi)外鏈建設(shè)能使得蜘蛛的爬行深度增加,要被蜘蛛抓取,就必須有導(dǎo)入鏈接進(jìn)頁面,否則蜘蛛根本就爬行不到該頁面,更不要說抓取以及收錄了。這里就是高質(zhì)量內(nèi)外鏈的重要性的體現(xiàn)了,這也是人們常說的“內(nèi)容為王,外鏈為后”這句話的依據(jù)。蜘蛛的爬行時沿著鏈接爬行的,如果有高質(zhì)量的外部鏈接,蜘蛛爬行的深度會加深,很可能多爬幾層,讓我們的頁面更多的被蜘蛛抓取。
蜘蛛喜歡的行為四:距離首頁點(diǎn)擊距離。這里說的距離首頁點(diǎn)擊距離一般是因為首頁的權(quán)重最高,蜘蛛爬行到首頁次數(shù)也最多,每通過一次鏈接叫一次點(diǎn)擊,距離首頁點(diǎn)擊距離越近代表了頁面權(quán)越重高,蜘蛛就喜歡這些短距離高權(quán)重的頁面。頁面權(quán)重還可以通過URL結(jié)構(gòu)來直觀體現(xiàn),URL結(jié)構(gòu)短、層次淺代表的頁面權(quán)重就相對高。
通過了解搜索引擎工作的基本原理-蜘蛛的抓取,就應(yīng)該明白搜索引擎蜘蛛喜歡什么樣的網(wǎng)站,這也就是我們SEO工作人員努力的目標(biāo)。