「抓取錯誤」是 Google網站管理員工具(Webmaster Tools)中最受歡迎的工具之一。它可以幫助你檢查錯誤的鏈接,不僅僅是URL鏈接,還包行DNS解析失敗、服務器鏈接、robots.txt 文件等問題,幾乎所有網站都會出現抓取錯誤。
: v; L2 _9 V4 Z8 o, B1 k0 A: r5 x9 Q6 d3 x8 `
網站站長工具將錯誤分為兩類:網站錯誤(site errors)和鏈接地址錯誤(URL errors)。如果在一個網站上出現多個抓取錯誤,那麼你的網站信任度會下降,甚至會影響到排名,當然這工具對於百度優化同樣有效。那麼應當如何解決Google網站管理員工具的抓取錯誤呢。
' d! M$ p z& G6 w( B5 Z+ e% C# G A" @- f. {( H" C
通過Googlebot抓取的錯誤分類就看知道是什麼導致抓取錯誤的原因了。. Y, w* C4 ~8 {) d" j# P
. ~: \1 G i2 s& n; _. A 一、HTTP的錯誤
# c( q1 k6 O+ j- g8 _* r! a
, R% R; L/ z5 n w# a 當一個網站上的網頁(例如,當用戶在瀏覽器中訪問您的網頁或Googlebot抓取頁面時)到您的服務器發出請求,服務器返回HTTP狀態碼響應請求。
0 N& u8 i6 U! s3 H( e6 [) j; u* l# j* r
如果出現403狀態,可以不用理睬,這表明是你的主機阻止了Googlebot抓取。對於所有HTTP狀態碼的列表文件,可以參考Google HTTP狀態碼幫助頁面。! P9 l' F3 n" n" ~, e$ z
1 T9 E3 H6 f9 O. k1 U- I: `$ D8 } 二、Sitemap中的錯誤
0 P1 V/ H; Q2 `$ {8 _3 }5 N K# p b4 o& W0 z) _
Sitemap錯誤往往會造成404錯誤頁面,或在當前地圖返回一個404錯誤頁面,如果出現404錯誤頁面請檢查Sitemap中所有的鏈接,2 E7 ~' R# m @) H0 y/ A
+ {+ L1 G) m) t( M Google會不斷抓取你已經刪除的Sitemap,這點很鬱悶,但也有辦法解決:確保舊的Sitemap已經在管理員工具中被刪除。如果不想被抓取,確保舊Sitemap出現404或者重新定向到新的Sitemap。9 b' I6 U. c% s0 {
: T2 C9 O- S5 j$ r$ o
來自Google員工Susan Moskwa解釋道:" U& T* f( `9 ^1 ? \8 N
9 f& Z( j& x7 w2 c0 P7 p$ w 阻止Googlebot的爬行,最好的辦法是使這些網址(例如舊的sitemaps)出現404,當我們看到一個URL多次出現404後,Googlebot會停止爬行。8 H; J; J z; ]
1 n+ q. s! d1 X' j3 V
三、重定向錯誤
' a U) p t# a. ?" Q A5 Q4 |& V. ^; Y9 H" c. r
有些錯誤是因為301從定向引起的,執行重定向後要注意什麼:
: o k( [, m1 s% f5 V2 P [
' p( `* D$ e4 G- u' L! v 1:確保他們返回到正確的HTTP狀態碼。; q4 i. h6 Y# B3 r
( c* z! v% L$ Y
2:確保沒有任何循環重定向。
8 v! |& K. }( I p
$ v( Y2 F) }7 Y/ t/ c& `5 h 3:確保重定向指向有效的網頁,而不是404頁,或其他錯誤頁,如503(服務器錯誤)或403(禁止抓取)
, }5 |" g$ P3 A/ B! n
2 g- x+ g) @1 n5 o5 ~ 4:確保重定向不是指向一個空頁面。
& n+ ?( E0 V2 |7 h' G" f! v, G4 n! M( _
四、404錯誤2 |$ Q! Z' S; b! x
; L' b# [$ H+ D# c; A 404錯誤可能會出現在以下幾個方面:
8 Q% O: `5 s& b5 |6 i1 n. k! \' t
4 h7 i2 c8 h+ i1 @! E, j. P4 u 1:刪除了網站上的網頁;
/ H5 w9 ]4 _0 x1 o) g7 `9 w0 L5 e
7 D j, R8 p9 L& f" h: [; f 2:改變了網頁的名稱;
W9 V5 T# ?" l/ Q: W! P* j
2 \0 ], `- N. L7 a0 w3 ` 4:鏈接到了一個不存在的頁面;
' R& V5 y/ T! Q- v2 P
" N5 G- u4 T/ o2 p4 z) p3 D) Q3 j: E 5:其他網站鏈接到你網站上一個不存在的頁面;
9 ]; |6 J5 c$ y# e" q0 G( Z) n* E' U
: P) |, `' R# |7 S+ n 6:網站遷移到一個新的域名不完全匹配的網站。& D- K5 v" Q% e$ L9 L
+ \7 ~3 s9 l$ A) L 五、受robots.txt限制
1 j; _9 L: c8 n) [: B7 b" v8 B& J# B$ P$ L- n+ I3 C" t+ M& E
還有一個原因是robots.txt文件阻止了Googlebot的抓取,如果出現大量抓取錯誤,第一步應該檢查robots.txt$ c, [6 Z6 E4 k, X* T* ?
/ s8 Y* c* A: u+ A( P! ?# W 六、軟404錯誤
* p' V( n& l2 s5 w g$ z7 x, S
" g! g4 `9 F. ~/ L* M! P1 O; B! C; i通常情況下,當有人請求的頁面不存在,服務器將返回一個404(未找到)錯誤。除了在響應請求的頁面不存在返回404代碼,服務器也將顯示一個404頁。 這可能是一個標準的「未找到文件」的消息,或旨在提供更多信息的用戶,它可能是一個自定義頁面。 頁的內容是由服務器返回的HTTP響應完全無關。僅僅因為一個頁面顯示404文件未找到消息並不意味著它是一個404頁。0 S3 s* L& {5 b; e* L
8 H$ B% R8 T1 D( h" n/ S+ U# d七、超時
6 E% Z& z- r, l5 j% z E" }
, J. r W9 g8 c% m 網站超時也是出現抓取錯誤的原因之一,如果出現超時現象,Googlebot會停止抓取。超時的錯誤類型有:( a! x# h5 p& l
9 L9 w2 `/ l' a: z* ?4 s5 C
1:DNS超時,可以使用Nslookup 命令檢測DNS,出現DNS超時最大的因素是域名服務商的DNS服務器不穩定。
9 y$ K& C2 |; v) X' Y) w- D9 S5 P8 b1 o1 B
2:網址超時,在某一個特定頁面,而不是整個域的錯誤。, ~+ R! C6 ]! [0 G4 M
[4 Z' H# I5 d, U% K- Z- X( F
3:robots.txt超時,如果你網站有robots.txt,但服務器超時,Googlebot會假定該文件不存在。$ D9 [) E. o' s2 {, ?
4 x. ^0 H4 d V% n! k 4:動態網頁的響應時間過長而造成網頁載入時間過長。 |
|