看了許多seo參考書總覺得這些書對搜索引擎收錄原理說的太籠統,今天我來說清楚搜索引擎收錄的原理
+ K: d+ K( o o0 m& F2 n8 x 搜索引擎爬蟲,蜘蛛,機器人是什麼?-搜索引擎收錄原理 6 S/ S) e6 f K3 B% K
搜索引擎為了能夠讓自己的數據庫足夠的強大,足夠的全面,不分晝夜的在網絡上尋找新的,更可靠的信息,但是隨著網絡時代到來,網絡信息爆炸式的整張,人工根本不可能完成這樣的任務,因此,搜索引擎擁有者開發出來一套程序,用來不分晝夜的抓去信息,然後整理,分類信息,最後將這些信息索引到自己的數據庫中。
0 E5 ^1 Z& [7 \ 這種不分晝夜抓取網站信息的程序的名字很多,比如:蜘蛛,爬蟲,機器人,探測器。一般搜索引擎可以同時派出N多個爬蟲程序,它們通過URL一個頁面一個頁面的抓去網站的標題,描述,圖片,網站內容等,然後把抓去回來的信息放在專用的倉庫中,等待索引。
2 B, w. x& N/ a& X. f 但是網站的設計者,並不能保證自己設計的網站是天衣無縫的,都會有很多問題:比如說網頁中出現死鏈接,網頁內容過多等,都導致爬蟲程序無法正確的抓取完整個頁面的內容,或許爬蟲只抓去了這個頁面的頭部,在抓去身子的時候發現自己存儲信息的地方不夠了,不得不離開。所以我們在設計網站的時候都應該注意這些問題,建議各位網站設計者能夠把網頁設計的容易讓爬蟲接受。 ! A0 H9 {' x3 |7 W7 f' w$ m4 e
Google的兩個爬蟲程序原理介紹 7 l/ u+ {. b4 ]( s" C) L& K/ j: ~
下面我們以搜索引擎中做的最好的google為例,分析搜索引擎是怎樣抓取信息,怎樣處理信息。
9 x. @- n' X) C1 g; K5 e Google爬蟲程序擁有2種:刷新爬蟲,和深度探測爬蟲,刷新爬蟲部分晝夜的將抓取來的信息放在一個特定的數據庫中,由於刷新爬蟲個和主要索引程序一起提供搜索結果,有的時候您會發現,你的頁面更新突然出現在搜索結果頁面,但是過了一會又突然消失了,這是因為刷新爬蟲在不停的抓去信息,不停的重寫,給我的感覺是刷新爬蟲的存儲機制影響比較像數據結構中的棧,先進後出,後就進先出,消失的這段時間各位seo不要著急,還是那個樣子不停的更新1月後就會慢慢出現在搜索結果中,不過現在可能等待時間沒有那麼長。如果你的頁面已經在搜索引擎的索引中出現,刷新爬蟲一旦發現你的更新,爬蟲程序會很快的將您的更新顯示出來,但是還是不夠穩定,要一直等到深度爬蟲更新主要索引,您的頁面才能夠足夠的穩定。 0 L& W% `. g: k. _
下面我們用簡單的流程介紹下搜索引擎收錄過程: 玩出績效火熱上市,歡迎訂購 http://www.wanchujixiao.com。+ o2 `; ]5 N/ _0 d/ w) E6 n. `3 G/ e
刷新爬蟲程序--------》發現信息----------》抓取信息----------》放在專用數據庫-----------》等待索引整理----------》索引整理(深度爬蟲訪問主要索引)-------》索引完成,某關鍵詞的排名都已經計算好-------》等待用戶搜索--------》奉上結果。 6 b3 g9 X8 n* I! ^4 C* w$ Y
搜索引擎提供的結果有幾種?
2 t6 `& s. c y5 P! f6 j1 c 搜索結果提供的搜索結果有二種,建議各位seoer都應該做上,
) c' r+ |+ G7 z, B8 j 三種搜索結果1內容索引結果2特別索引結果,前者是對網頁的關鍵詞,標題,描述,鏈接源頭文字等文字形式的索引和壓縮。後者包含圖片索引,PDF文件索引等比較特殊的索引,建議各位seoer不要小看第二種搜索結果,這個也是能帶來相當大的流量的; X1 }7 w# P2 {$ Y0 Z9 n Q
更多信息請登錄【奧博建站網 http://www.ob1000.com 本站提供網站建設、網站維護等服務。旗下網站:http://www.offsup.net http://www.huanbohaiwl.com】 |