「抓取錯誤」是 Google網站管理員工具(Webmaster Tools)中最受歡迎的工具之一。它可以幫助你檢查錯誤的鏈接,不僅僅是URL鏈接,還包行DNS解析失敗、服務器鏈接、robots.txt 文件等問題,幾乎所有網站都會出現抓取錯誤。! ?% p, p: m- l# T
w9 z+ j& F4 [( ^% v9 L# m
網站站長工具將錯誤分為兩類:網站錯誤(site errors)和鏈接地址錯誤(URL errors)。如果在一個網站上出現多個抓取錯誤,那麼你的網站信任度會下降,甚至會影響到排名,當然這工具對於百度優化同樣有效。那麼應當如何解決Google網站管理員工具的抓取錯誤呢。& R% _( q0 l* _1 E* b
0 L5 u. s- {+ C$ ^ J+ f: l- F+ |
通過Googlebot抓取的錯誤分類就看知道是什麼導致抓取錯誤的原因了。
& x3 t0 s6 ]. n$ J1 q6 ^1 C4 I/ k9 N9 z0 F, F% j
一、HTTP的錯誤% x' @# V6 r: ^; R
" B j# u N: u* z$ u [
當一個網站上的網頁(例如,當用戶在瀏覽器中訪問您的網頁或Googlebot抓取頁面時)到您的服務器發出請求,服務器返回HTTP狀態碼響應請求。; @ b7 X6 K; I6 M
; ~: Z# h5 `* U4 G+ P5 l& ~( t X
如果出現403狀態,可以不用理睬,這表明是你的主機阻止了Googlebot抓取。對於所有HTTP狀態碼的列表文件,可以參考Google HTTP狀態碼幫助頁面。# \/ @- f' H2 H4 A" q$ o' P V
1 A5 G+ f: t- ~6 @) V
二、Sitemap中的錯誤: {% r/ v+ S" {% Q. U
7 ?# |( \7 m, }" M; F- c Sitemap錯誤往往會造成404錯誤頁面,或在當前地圖返回一個404錯誤頁面,如果出現404錯誤頁面請檢查Sitemap中所有的鏈接,
* [2 _: v3 B5 f# f2 h3 V- D3 F
9 t& S- N, g9 n' x Google會不斷抓取你已經刪除的Sitemap,這點很鬱悶,但也有辦法解決:確保舊的Sitemap已經在管理員工具中被刪除。如果不想被抓取,確保舊Sitemap出現404或者重新定向到新的Sitemap。
8 I+ c* m! X$ h1 p. o
1 l+ z" Z5 I& K/ @ 來自Google員工Susan Moskwa解釋道:
) H) V( Q+ i% B" G- B2 O
- c% t I( k' E; R& b9 U 阻止Googlebot的爬行,最好的辦法是使這些網址(例如舊的sitemaps)出現404,當我們看到一個URL多次出現404後,Googlebot會停止爬行。! E/ [# U _4 @) ]% I$ s, I
+ k% w6 H0 O7 u4 C: r 三、重定向錯誤
) o6 j2 x. z8 ^& L# O3 Y5 Z1 f! Y* a! q1 x
有些錯誤是因為301從定向引起的,執行重定向後要注意什麼:! e9 p& P) {6 E2 q& ?% p& d
8 P& ~. U7 |% ]( W' Y; Q
1:確保他們返回到正確的HTTP狀態碼。
. U" Y: z5 h% k3 V3 _) f; ]" W+ \0 t" S3 p+ b* W! ^2 y
2:確保沒有任何循環重定向。
$ C# R. I1 u! ?4 x$ ?# j. R8 g) ^$ K, D: d/ D
3:確保重定向指向有效的網頁,而不是404頁,或其他錯誤頁,如503(服務器錯誤)或403(禁止抓取)
! H- R7 ]8 e; |% z& K; Q6 z1 K1 M2 Y& z3 Z1 ~/ e0 C) X6 D
4:確保重定向不是指向一個空頁面。; y7 A1 z8 w% o3 i! k a
" u! A$ ?, _( @' v! I' N
四、404錯誤8 H( F3 C' u1 [, d
7 B$ l, P. @2 N/ j- R! |
404錯誤可能會出現在以下幾個方面:+ g/ i+ H- W W: @! H! y
: Z: P3 p7 ]- g+ G c0 o
1:刪除了網站上的網頁;
# @: Q2 o) d3 K: L) U7 g! L* h; i9 l
& _: k, E& B5 V0 ~" f 2:改變了網頁的名稱;8 A7 i0 ^ F* h* @4 T
6 i1 X4 _0 K2 H+ \% x( y
4:鏈接到了一個不存在的頁面;" u6 e3 D9 f& K9 w0 y; c
0 [& x4 W2 n. N) L* K8 u. ? `( e
5:其他網站鏈接到你網站上一個不存在的頁面;* J9 A( Y3 ~0 b* Q
% T: P9 F; U( e* A4 y: t0 d% _
6:網站遷移到一個新的域名不完全匹配的網站。
2 C/ ?! l; K" g2 P) _2 S- F( ~. r8 u. U( R3 F
五、受robots.txt限制( s: o5 S& f1 L* x4 ]4 y$ g+ F
# _( a1 u! q1 A& g& j
還有一個原因是robots.txt文件阻止了Googlebot的抓取,如果出現大量抓取錯誤,第一步應該檢查robots.txt
) [5 K% ?1 i9 _9 l, M3 c5 I6 E. [
7 S+ D) j+ S6 I' D 六、軟404錯誤; `9 W. D" G @. l$ X1 \
' \7 Y- G6 {6 A
通常情況下,當有人請求的頁面不存在,服務器將返回一個404(未找到)錯誤。除了在響應請求的頁面不存在返回404代碼,服務器也將顯示一個404頁。 這可能是一個標準的「未找到文件」的消息,或旨在提供更多信息的用戶,它可能是一個自定義頁面。 頁的內容是由服務器返回的HTTP響應完全無關。僅僅因為一個頁面顯示404文件未找到消息並不意味著它是一個404頁。
/ [' h8 V$ G* ^% s8 k9 } G# |+ v
, w7 b2 ]6 q: K- H! X7 N! v七、超時
( N+ x5 h" l0 r; `- r! G! b9 ?7 v) {& h) T T
網站超時也是出現抓取錯誤的原因之一,如果出現超時現象,Googlebot會停止抓取。超時的錯誤類型有:
7 A/ { W+ z- Y4 t3 a2 W, g! b6 m8 W3 v7 o" a3 k5 v# Q3 U- V% p0 P7 W# h
1:DNS超時,可以使用Nslookup 命令檢測DNS,出現DNS超時最大的因素是域名服務商的DNS服務器不穩定。
9 \* V3 K& n( G" h# C7 E
% A3 d0 V0 ?) f& c7 y 2:網址超時,在某一個特定頁面,而不是整個域的錯誤。4 `2 M. }: k3 j: K! v0 ]% R1 Y8 G% U
4 k# I- j1 P1 ~) \7 B 3:robots.txt超時,如果你網站有robots.txt,但服務器超時,Googlebot會假定該文件不存在。1 v3 ]/ W# X9 v& f1 s) L
& Z8 D- B c0 J( Q2 B; `
4:動態網頁的響應時間過長而造成網頁載入時間過長。 |
|