过期域名预定抢注

用戶名  找回密碼
 免费注册

[轉帖]為網站的Web Robot 設計路標

[複製鏈接]
發表於 2004-12-13 02:38:03 | 顯示全部樓層 |閱讀模式
Internet越來越酷,WWW的知名度如日中天。在Internet上發佈公司信息、進行電子商 務已經從時髦演化成時尚。作為一個Web Master,你可能對HTML、Javascript、Java、 ActiveX瞭如指掌,但你是否知道什麼是Web Robot?你是否知道Web Robot和你所設 計的主頁有什麼關係?
3 Q/ W( z4 k! c
* o9 \6 m0 t( |, q  |  i% W2 X5 ~3 M7 T4 ?3 v8 L+ J

/ U3 k0 H+ b  k7 S! r# u& ^$ EInternet上的流浪漢--- Web Robot
$ A% P: g3 o; H- H! V" m  W" n! ?% w; W/ D& y

. L4 K+ l# p) ]3 D4 A  V4 V4 L0 C, `' j# @
  有時你會莫名其妙地發現你的主頁的內容在一個搜索引擎中被索引,即使你從未與他們有過任何聯繫。其實這正是Web Robot的功勞。Web Robot其實是一些程序,它可以穿越大量Internet網址的超文本結構,遞歸地檢索網絡站點所有的內容。這些程序有時被叫「蜘蛛(Spider)」,「網上流浪漢(Web Wanderer)」,「網絡蠕蟲(web worms)」或Web crawler。一些Internet網上知名的搜索引擎站點(Search Engines)都有專門的Web Robot程序來完成信息的採集,例如Lycos,Webcrawler,Altavista等,以 及中文搜索引擎站點例如北極星,網易,GOYOYO等。 & y2 ^; d; K! Z' {' H! R  [$ Q3 O0 I

/ B2 N3 e4 u2 Y# {$ \1 I# C  I" R
7 t% c0 o0 {$ q: C
  Web Robot就像一個不速之客,不管你是否在意,它都會忠於自己主人的職責,任勞任怨、不知疲倦地奔波於萬維網的空間,當然也會光臨你的主頁,檢索主頁內容並生 成它所需要的記錄格式。或許有的主頁內容你樂於世人皆知,但有的內容你卻不願被洞察、索引。難道你就只能任其「橫行」於自己主頁空間,能否指揮和控制Web Robot的行蹤呢?答案當然是肯定的。只要你閱讀了本篇的下文,就可以像一個交通 警察一樣,佈置下一個個路標,告訴Web Robot應該怎麼去檢索你的主頁,哪些可以 檢索,哪些不可以訪問。
6 u: g* X: g& V: M5 w* l( l2 i5 b5 c8 s, Z4 ~  s  P7 F( `$ D( N

, ]3 c2 v, E1 T4 M0 _8 s
! t' {; i! ^" |+ a  其實Web Robot能聽懂你的話 ' |( q9 Q1 G) r- y6 ?

! j# g& }* `3 B
2 Z' N% s+ f3 V: A- o2 o
4 l2 ]; J( e( v. e+ j8 H: q( Q  不要以為Web Robot是毫無組織,毫無管束地亂跑。很多Web Robot軟件給網絡站點的 管理員或網頁內容製作者提供了兩種方法來限制Web Robot的行蹤:
$ N' D# }; @7 ^( Y# t# y" X, ]8 [' C% k2 Z. g  A7 c1 d
, H0 n1 S# A0 L
4 \/ W! j8 Y8 B9 Q
  1、Robots Exclusion Protocol 協議
7 V3 B5 X6 f8 i' p9 `
4 }& q) c1 N+ n  i7 `+ j
$ Q- U$ f2 H" Y) ]) P  j( I6 Y) L! R
' s2 l8 ~) z4 B3 _  網絡站點的管理員可以在站點上建立一個專門格式的文件,來指出站點上的哪一部分 可以被robot訪問, 這個文件放在站點的根目錄下,即 http://.../robots.txt
# B8 n# B9 p4 s3 H. x' _- E" ^7 _. V% g1 F1 Q

+ H' b% n1 B' _1 s" i0 p4 A3 L
# V5 d$ X' T+ ~9 e4 z$ ~  2、Robots META tag ' x+ G5 F) z+ o3 G. J) s2 U1 Z

4 k3 a6 D- f* c- L) k2 b7 o9 e0 B5 Q" d+ R/ ]

5 L: n& F) I' W  一個網頁作者可以使用專門的HTML META tag ,來指出某一個網頁是否可以被索 引、分析或鏈接。
6 `) ?0 _7 s% u# ~$ c7 ]( [2 q1 u$ N2 h' A6 d# W9 q1 B; C4 w5 ~

9 y1 d) q: D5 X. P2 ?2 Z  J
/ c2 O4 b$ `5 O5 S  這些方法適合於大多數的Web Robot,至於是否在軟件中實施了這些方法,還依賴於 Robot的開發者,並非可以保證對任何Robot都靈驗。如果你迫切需要保護自己內容, 則應考慮採用諸如增加密碼等其他保護方法。 6 v$ s+ {; h& n- m: R8 a" q
8 E. j( @! W& _, ^
% S, y. g4 S5 f- z
* t5 ^6 S! Z# ~' z# m$ |
  使用Robots Exclusion Protocol協議
! m% c, K9 M8 Z* O& a0 k2 M) W# K- k( w& d4 h2 b

5 o9 p. [9 o' o# b, ^- v) y7 p
, ^( `. t4 X! K, v; \  當Robot訪問一個 Web 站點時,比如http://www.sti.net.cn/,它先去檢查文件http: //www.sti.net.cn/robots.txt。如果這個文件存在,它便會按照這樣的記錄格式去分析: - O* k" [3 l, f
5 B- g. V+ {1 I( W0 t4 b2 J0 i8 @
+ q: k0 Y: _; h4 K' ?$ C7 T) h

/ p  [, ]$ b! I; y. {3 sUser-agent: *   K% h: m7 Q- g) Q- S9 b* {
Disallow: /cgi-bin/
3 s0 t7 f) B, D" e% w+ \0 dDisallow: /tmp/
7 |6 K* Y' c& eDisallow: /~joe/
+ n0 X$ F( M4 O( p+ u3 m, |- x% y5 e1 O' f

, l5 l5 \4 p3 K( {
( p. M3 z: P$ ^  D  以確定它是否應該檢索站點的文件。這些記錄是專門給Web Robot看的,一般的瀏覽 者大概永遠不會看到這個文件,所以千萬不要異想天開地在裡面加入形似<img src=*> 類的HTML語句或是「How do you do? where are you from?」之類假情假意的問候語。 # K' C. g2 Z- H) D" U% c
1 Y  ~5 Z5 D5 M. P; Z- o+ I( p1 d
; |- O5 Z. v$ |9 N( P- A
" c2 \. E1 z8 P
  在一個站點上只能有一個 "/robots.txt" 文件,而且文件名的每個字母要求全部是小寫。在Robot的記錄格式中每一個單獨的"Disallow" 行表示你不希望Robot訪問的URL, 每個URL必須單獨佔一行,不能出現 "Disallow: /cgi-bin/ /tmp/"這樣的病句。同時在一個 記錄中不能出現空行,這是因為空行是多個記錄分割的標誌。 ' b& |& W& K" T( X

, F9 t+ P5 X/ S% X# o- e" \6 z, O% D8 V+ l
5 i) w5 x/ V% i( n# r
  User-agent行指出的是Robot或其他代理的名稱。在User-agent行,'*' 表示一個特殊的含義---所有的robot。 ! S! J/ b( B2 e& N: X8 _

- U8 }/ i& D" v3 @. ^3 z2 }+ y' I" D. z% A1 \. X
4 X( G  x; Q6 H( h+ I
  下面是幾個robot.txt的例子:
) w! U0 X. k; G  x
% C  i- I' a8 J* {- B
, ^5 ?6 E! G( o- s! Z( P% Z& Q. e3 i: r
  在整個服務器上拒絕所有的robots: % d7 ]9 e2 i* `% R

* V) r( S' B# S
: A2 X1 Y3 x+ \, X$ l1 ^! i4 S1 @$ `/ w) _' ~8 @
User-agent: * 6 q2 p5 r1 k2 r6 v( s
Disallow: /
0 R, v& [3 Y& Y; j
) w+ K' ^" H* M! R- l8 I5 A6 x1 F/ U! i6 H# a* o- g
9 p* r; i) ~9 j7 v
允許所有的robots訪問整個站點: $ v9 L6 S, \+ m. u9 G, l% G% l
User-agent: * ( O, e+ E! c% q
Disallow:
, U9 X# C- G4 H7 h2 E: o1 t' j4 X或者產生一個空的 "/robots.txt" 文件。 7 J6 J4 U& `2 e* J6 O

' O( L% c  }: A' R  q
4 V$ Y1 h# D0 r2 N7 L7 `7 Y$ N1 P
0 H/ V& P. J2 }服務器的部分內容允許所有的robot訪問 : P. v5 c& m! ~" E2 \% c( c
User-agent: * % D1 Z2 v% i' d  j0 D% J
Disallow: /cgi-bin/ 0 g3 K$ W  ~8 Z8 J6 J
Disallow: /tmp/
4 J+ r. B! O5 x0 v. p  ?( p7 UDisallow: /private/ + p6 I0 B  D2 }. Q

  i. U+ N+ z, Z* O: b2 Q- O' i# y$ h/ I( V& V1 a! M1 {
4 v" d4 c5 H4 M+ I
拒絕某一個專門的robot:
  A( y( [0 f3 `- s$ LUser-agent: BadBot 7 f, o# ?, ?5 ~* r; z/ \' _1 Y, H
Disallow: / $ b. T/ ~/ ~* `5 `1 d4 R
% c  T2 P1 _# O+ W+ A- N' j% [# i% R
4 k) U) Z& E! i4 k  _

! j6 c4 R% K5 ]! d8 {只允許某一個robot光顧: 5 G1 [% @2 k7 j& n8 {- P  j
User-agent: WebCrawler 3 D& T. O7 b% r
Disallow: & L1 m9 z( g6 }# |( C' U( m
User-agent: * 9 I/ o, m7 `" c+ i7 b$ x' N' n
Disallow: / & @) x2 i" T! l8 ~( v

' K( s/ ]. F% J+ d5 R0 H5 h: x0 R6 T7 W+ s5 [& m
3 q6 ~8 p  H, }. P2 ?
最後我們給出 http://www.w3.org/站點上的robots.txt: * _% w+ D7 Y& X' f/ P
# For use by search.w3.org " X( t5 K$ S/ I/ U5 t5 R! Q
User-agent: W3Crobot/1
" v9 [5 l) T: j' K7 x# ZDisallow:
) K: e0 y" S- x0 V' g2 CUser-agent: * " {, D* B# ~6 f% U8 l! |
Disallow: /Member/ # This is restricted to W3C Members only 7 k1 S% W$ @; H
Disallow: /member/ # This is restricted to W3C Members only # S1 Z+ l2 h8 Z4 k$ N( [4 r: |
Disallow: /team/ # This is restricted to W3C Team only
$ b* Y+ R) l* j/ |0 [5 @Disallow: /TandS/Member # This is restricted to W3C Members only
+ x) w1 E* s. r. wDisallow: /TandS/Team # This is restricted to W3C Team only 8 y0 s3 q8 M/ Z4 t
Disallow: /Project
) P3 }5 m/ M! B8 Y, K$ QDisallow: /Systems
( n1 D" r, `5 U: \' [Disallow: /Web
/ R8 m. w. F7 W6 k# G9 s! lDisallow: /Team 4 ]3 s% ]- G' v7 C: \

% f: f5 ^4 `3 R& M$ a  `8 f* _) t; O9 p+ Z
# x; Y) J! B6 r6 V0 H/ v$ I6 ^
  使用Robots META tag方式 5 {! S, J( \0 `, f. O/ f4 F+ h
( @# k, c" `# o, T: E5 K

. P2 {2 H3 E8 m$ l( n# D' \$ s6 w; g
  Robots META tag 允許HTML網頁作者指出某一頁是否可以被索引,或是否可以用來查 找更多的鏈接文件。目前只有部分robot實施了這一功能。 * C9 U7 ~; ?8 {

+ b$ Z9 U) w% H3 r- V, I7 H8 K- Z4 `/ m% D/ ]6 l) l

7 T. V+ Z6 |: l6 F2 F* g0 K" M9 j0 `  Robots META tag的格式為:
5 g8 R1 a: y1 {+ s* C" c6 }+ u6 j9 e% U/ z

+ L, Y/ J6 _( W: q, k5 R0 I6 P! p8 a- v
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
$ k5 B$ Y& \# A: [6 A, I像其他的META tag一樣,它應該放在HTML文件的HEAD區:
$ i2 \) ?. d$ M<html>
( m& u8 }% S- O. T<head>
4 f8 R. P0 \( W, \& x6 t2 i<meta name="robots" content="noindex,nofollow"> % c2 i( e$ N4 ~5 z1 v7 c) r
<meta name="description" content="This page ...."> + g4 h. G$ Q. ?2 }2 s; u4 J
<title>...</title>
+ o* I5 @6 I# N4 |6 c8 Z" G& [: L</head> . n' [7 S. t( x& C4 |7 U
<body> ) v# {' |6 V- U: @# b+ M
...
) s8 b' e  I4 u( j0 O' V& M* ^# V" [9 q$ u

' l+ R/ A2 j! m
8 b+ j8 u% D! N1 c- |/ }% r  Robots META tag指令使用逗號隔開,可以使用的指令包括 [NO]INDEX 和[NO] FOLLOW。INDEX 指令指出一個索引性robot是否可以對本頁進行索引;FOLLOW 指 令指出robot是否可以跟蹤本頁的鏈接。缺省的情況是INDEX和FOLLOW。例如: 3 n3 b1 e7 {% @
" I4 x; W1 Q! z- I/ L! B" C
  P$ K& w1 H% `
7 a5 M0 [1 O3 ]5 _) J8 k7 a" V3 ^8 [
<meta name="robots" content="index,follow"> 1 t2 l- d# P3 z$ _6 T- A
<meta name="robots" content="noindex,follow"> , Q2 {% N) B+ f4 U, K1 }% C
<meta name="robots" content="index,nofollow">   e+ T/ t. n2 J% E
<meta name="robots" content="noindex,nofollow">
" I3 [% C$ k( [. o+ H7 f/ ?$ o
5 w; P) C' B2 m& Y
7 Y4 z9 J0 X% D+ B. y- l* o$ ^, D) n1 _( ]6 ]9 ]
  一個好的Web 站點管理員應該將robot的管理考慮在內,使robot為自己的主頁服務, 同時又不損害自己網頁的安全。
發表於 2004-12-13 15:52:09 | 顯示全部樓層
恩,慢慢看,否則消化不良
回復 给力 爆菊

舉報

發表於 2004-12-13 18:50:20 | 顯示全部樓層
看不懂啊。呵呵
回復 给力 爆菊

舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基跨境 數位編輯創業論壇

GMT+8, 2025-7-27 08:37

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表