很多人做網(wǎng)站推廣,知道SEO很重要,就去網(wǎng)上找一份方案,就開始模仿,費(fèi)了半天力卻沒有得到結(jié)果。其實(shí),SEO是一門很復(fù)雜的學(xué)問,想入門就必須先了解搜索引擎是怎么工作的,這樣才能更好的針對(duì)它進(jìn)行優(yōu)化。今天巨推傳媒(CALL:400-606-5558)就為大家簡(jiǎn)單講解下。
搜索引擎的工作原理其實(shí)很簡(jiǎn)單,首先搜索引擎大致分為4個(gè)部分,先進(jìn)個(gè)部分就是蜘蛛爬蟲,第二個(gè)部分就是數(shù)據(jù)分析系統(tǒng),第三個(gè)部分是索引系統(tǒng),第四個(gè)就是查詢系統(tǒng)咯,當(dāng)然這只是基本的4個(gè)部分!下邊我們來講搜索引擎的工作流程:
什么是搜索引擎蜘蛛,什么是爬蟲程序?
搜索引擎蜘蛛程序,其實(shí)就是搜索引擎的一個(gè)自動(dòng)應(yīng)用程序,它的作用是什么呢?其實(shí)很簡(jiǎn)單,就是在互聯(lián)網(wǎng)中瀏覽信息,然后把這些信息都抓取到搜索引擎的服務(wù)器上,然后建立索引庫(kù)等等,我們可以把搜索引擎蜘蛛當(dāng)做一個(gè)用戶,然后這個(gè)用戶來訪問我們的網(wǎng)站,然后在把我們網(wǎng)站的內(nèi)容保存到自己的電腦上!比較好理解。
搜索引擎蜘蛛是怎樣抓取網(wǎng)頁(yè)的呢?
發(fā)現(xiàn)某一個(gè)鏈接 → 下載這一個(gè)網(wǎng)頁(yè) → 加入到臨時(shí)庫(kù) → 提取網(wǎng)頁(yè)中的鏈接 → 在下載網(wǎng)頁(yè) → 循環(huán)
首先搜索引擎的蜘蛛需要去發(fā)現(xiàn)鏈接,至于怎么發(fā)現(xiàn)就簡(jiǎn)單了,就是通過鏈接鏈接鏈接。搜索引擎蜘蛛在發(fā)現(xiàn)了這個(gè)鏈接后會(huì)把這個(gè)網(wǎng)頁(yè)下載下來并且存入到臨時(shí)的庫(kù)中,當(dāng)然在同時(shí),會(huì)提取這個(gè)頁(yè)面所有的鏈接,然后就是循環(huán)。
搜索引擎蜘蛛幾乎是24小時(shí)不休息的(在此為它感到悲劇,沒有假期。哈哈。)那么蜘蛛下載回來的網(wǎng)頁(yè)怎么辦呢?這就需要到了第二個(gè)系統(tǒng),也就是搜索引擎的分析系統(tǒng)。
搜索引擎的蜘蛛抓取網(wǎng)頁(yè)有規(guī)律嗎?
這個(gè)問題問的好,那么搜索引擎蜘蛛抓取網(wǎng)頁(yè)到底有規(guī)律嗎?答案是有!
如果蜘蛛胡亂的去抓取網(wǎng)頁(yè),那么就費(fèi)死勁了,互聯(lián)網(wǎng)上的網(wǎng)頁(yè),每天都增加那么那么那么多,蜘蛛怎么可以抓取的過來呢?所以說,蜘蛛抓取網(wǎng)頁(yè)也是有規(guī)律的!
蜘蛛抓取網(wǎng)頁(yè)策略1:深度優(yōu)先
什么是深度優(yōu)先?簡(jiǎn)單的說,就是搜索引擎蜘蛛在一個(gè)頁(yè)面發(fā)現(xiàn)一個(gè)連接然后順著這個(gè)連接爬下去,然后在下一個(gè)頁(yè)面又發(fā)現(xiàn)一個(gè)連接,然后就又爬下去并且全部抓取,這就是深度優(yōu)先抓取策略。大家看下圖
在上圖中就是深度優(yōu)先的示意圖,我們假如網(wǎng)頁(yè)A在搜索引擎中的權(quán)威度是較高的,假如D網(wǎng)頁(yè)的權(quán)威是最低的,如果說搜索引擎蜘蛛按照深度優(yōu)先的策略來抓取網(wǎng)頁(yè),那么就會(huì)反過來了,就是D網(wǎng)頁(yè)的權(quán)威度變?yōu)檩^高,這就是深度優(yōu)先!
蜘蛛抓取網(wǎng)頁(yè)策略2:寬度優(yōu)先
寬度優(yōu)先比較好理解,就是搜索引擎蜘蛛先把整個(gè)頁(yè)面的鏈接全部抓取一次,然后在抓取下一個(gè)頁(yè)面的全部鏈接。
上圖呢,就是寬度優(yōu)先的示意圖!這其實(shí)也就是大家平時(shí)所說的扁平化結(jié)構(gòu),大家或許在某個(gè)神秘的角落看到一篇文章,告誡大家,網(wǎng)頁(yè)的層度不能太多,如果太多會(huì)導(dǎo)致收錄很難,這就是來對(duì)付搜索引擎蜘蛛的寬度優(yōu)先策略,其實(shí)就是這個(gè)原因。
蜘蛛抓取網(wǎng)頁(yè)策略3:權(quán)重優(yōu)先
如果說寬度優(yōu)先比深度優(yōu)先好,其實(shí)也不是絕對(duì)的,只能說是各有各的好處,現(xiàn)在搜索引擎蜘蛛一般都是兩種抓取策略一起用,也就是深度優(yōu)先+寬度優(yōu)先,并且在使用這兩種策略抓取的時(shí)候,要參照這條連接的權(quán)重,如果說這條連接的權(quán)重還不錯(cuò),那么就采用深度優(yōu)先,如果說這條連接的權(quán)重很低,那么就采用寬度優(yōu)先!
那么搜索引擎蜘蛛怎樣知道這條連接的權(quán)重呢?
這里有2個(gè)因素:1、層次的多與少;2、這個(gè)連接的外鏈多少與質(zhì)量;
那么如果層級(jí)太多的鏈接是不是就不會(huì)被抓取呢?這也不是絕對(duì)的,這里邊要考慮許多因素,我們?cè)诤筮叺倪M(jìn)階中會(huì)降到邏輯策略,到時(shí)候我在詳細(xì)的給大家說!
蜘蛛抓取網(wǎng)頁(yè)策略4:重訪抓取
我想這個(gè)比較好理解,就是比如昨天搜索引擎的蜘蛛來抓取了我們的網(wǎng)頁(yè),而今天我們?cè)谶@個(gè)網(wǎng)頁(yè)又加了新的內(nèi)容,那么搜索引擎蜘蛛今天就又來抓取新的內(nèi)容,這就是重訪抓??!重訪抓取也分為兩個(gè),如下:
1、全部重訪
所謂全部重訪指的是蜘蛛上次抓取的鏈接,然后在這一個(gè)月的某一天,全部重新去訪問抓取一次!
2、單個(gè)重訪
單個(gè)重訪一般都是針對(duì)某個(gè)頁(yè)面更新的頻率比較快比較穩(wěn)定的頁(yè)面,如果說我們有一個(gè)頁(yè)面,1個(gè)月也不更新一次。
那么搜索引擎蜘蛛先進(jìn)天來了你是這個(gè)樣子,第二天,還是這個(gè)樣子,那么第三天搜索引擎蜘蛛就不會(huì)來了,會(huì)隔一段時(shí)間在來一次,比如隔1個(gè)月在來一次,或者等全部重訪的時(shí)候在更新一次。
以上呢,就是搜索引擎蜘蛛抓取網(wǎng)頁(yè)的一些策略!那么我們上邊說過,在搜索引擎蜘蛛把網(wǎng)頁(yè)抓取回來,就開始了第二個(gè)部分,也就是數(shù)據(jù)分析的這個(gè)部分。
數(shù)據(jù)分析系統(tǒng)
數(shù)據(jù)分析系統(tǒng),是處理搜索引擎蜘蛛抓取回來的網(wǎng)頁(yè),那么數(shù)據(jù)分析這一塊又分為了一下幾個(gè):
1、網(wǎng)頁(yè)結(jié)構(gòu)化
簡(jiǎn)單的說,就是把那些html代碼全部刪掉,提取出內(nèi)容。
2、消噪
消噪是什么意思呢?在網(wǎng)頁(yè)結(jié)構(gòu)化中,已經(jīng)刪掉了html代碼,剩下了文字,那么消噪指的就是留下網(wǎng)頁(yè)的主題內(nèi)容,刪掉沒用的內(nèi)容,比如版權(quán)!
3、查重
查重比較好理解,就是搜索引擎查找重復(fù)的網(wǎng)頁(yè)與內(nèi)容,如果找到重復(fù)的頁(yè)面,就刪除。
4、分詞
分詞是神馬東西呢?就是搜索引擎蜘蛛在進(jìn)行了前面的步驟,然后提取出正文的內(nèi)容,然后把我們的內(nèi)容分成N個(gè)詞語(yǔ),然后排列出來,存入索引庫(kù)!同時(shí)也會(huì)計(jì)算這一個(gè)詞在這個(gè)頁(yè)面出現(xiàn)了多少次。
5、鏈接分析
這一個(gè)步驟就是我們平時(shí)所做的做煩躁的工作,搜索引擎會(huì)查詢,這個(gè)頁(yè)面的反向鏈接有多少,導(dǎo)出鏈接有多少以及內(nèi)鏈,然后給這個(gè)頁(yè)面多少的權(quán)重等。
數(shù)據(jù)索引系統(tǒng)
在進(jìn)行了上邊的步驟之后,搜索引擎就會(huì)把這些處理好的信息放到搜索引擎的索引庫(kù)中。那么這個(gè)索引庫(kù)又大致分為以下兩個(gè)系統(tǒng):
正排索引系統(tǒng)
什么是正排索引?簡(jiǎn)單的說,就是搜索引擎把所有URL都加上一個(gè)編號(hào),然后這個(gè)編號(hào)對(duì)應(yīng)的就是這個(gè)URL的內(nèi)容,包括這個(gè)URL的外鏈,關(guān)鍵詞密度等等數(shù)據(jù)。
搜索引擎簡(jiǎn)單的工作原理概況
搜索引擎蜘蛛發(fā)現(xiàn)連接 → 根據(jù)蜘蛛的抓取策略抓取網(wǎng)頁(yè) → 然后交到分析系統(tǒng)的手中 → 分析網(wǎng)頁(yè) → 建立索引庫(kù)
OK,今天只是對(duì)搜索引擎工作的一個(gè)簡(jiǎn)單的講說,因?yàn)樗阉饕娴姆浅?fù)雜的一個(gè)系統(tǒng),不可能幾十分鐘就可以全方位的講道,我們?cè)谶M(jìn)階或者高級(jí)教程中會(huì)慢慢的講到!