amnoob 發表於 2014-2-19 23:35 
. w2 r/ m; N# j2 t" T看了好幾遍才看懂了老兄的意思哇 # n" n, X7 X j; E2 @% J8 |) {0 X- \
" c5 o5 a/ P& A# `9 }我查了一下statcounter的記錄,發現蜘蛛每天都要來呆上半小時 ...
7 d# E0 ?/ e+ V2 ?其實我更傾向於這些ip段不是google bot, 這些ip段 66.249.8x.xxx, hostname是 google-proxy-66-249-8x-xxx.google.com, 而google bot 應該是 crawl-66-249-xx-xxx.googlebot.com這樣的, 像是人工查站一樣,反正它們來了我的採集站必K光, 直接清0。有興趣的歡迎討論一下。
8 _5 f* Q% K# U3 `! q5 J3 B, g6 s# o8 _$ r
有個有趣的現象是,我針對這些ip設置了一下,這些ip來的時候就顯示404,結果這些站都只是降權了,沒有清0,每天還有少量訪問; 而沒有設置的,都清0了。
8 z% ?# }7 I, a) k: t- @7 m) j/ Y
搞採集很累的,樓主不搞是明智之舉。5 {8 O2 L& c9 q7 r6 I* \3 M
( b; [! Q* L: TPS: 今天掛了一個amazon jp的號, 是amazon.com的來查崗了,我還以為會是日本那邊負責查的呢,損失20多W日元,不多也不少,採集的說掛就掛 ; t/ p Z4 ]# i8 S' n8 y
+ w/ S I" u& N) \% x; N3 r) Q2 k% V
各位遠離採集遠離採集遠離採集。。。3 t2 ~- }3 A+ _: l s! s3 x
6 h5 }8 g4 K7 o& ?- a |