非常小黑 發表於 2013-10-1 16:16 4 I( K" y& c- v$ _; o1 l4 R
比如,我首頁的page頁,還有category,想nofollow,怎麼辦?
8 A3 ^; J# P% E3 g0 T, ^. Rnofollow只是針對條連接來定義蜘蛛或機器人跟隨不跟隨這條連接,如果你是要page頁面的話,那你的在網站的根目錄下的robots.txt寫屏蔽頁面的。
) X! `. A1 {2 n% h+ O4 b4 h比如:文件寫法User-agent: * 這裡的*代表的所有的搜索引擎種類,*是一個通配符8 I2 v$ j6 V2 d) \; @& P4 H
Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄0 R2 S% c- }2 Z6 Y9 Q8 U6 E' V
Disallow: /require/ 這裡定義是禁止爬尋require目錄下面的目錄5 }9 `7 k/ h5 s4 ?8 ^5 o
Disallow: /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄8 F% n9 \1 K+ T
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
/ t. m% Z6 c* p7 B5 g8 s# eDisallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址$ k; Q6 S% S v+ `
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
4 g& v3 n( G. p- D3 ^Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
2 T- S0 e+ ]( [0 H5 OAllow: /cgi-bin/ 這裡定義是允許爬尋cgi-bin目錄下面的目錄
0 b5 u( k* {0 a/ [+ r/ Q2 hAllow: /tmp 這裡定義是允許爬尋tmp的整個目錄) \/ D# c9 k% W$ A# F
Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。- R( _6 l/ b) m& r. Q. C" E& W
Allow: .gif$ 允許抓取網頁和gif格式圖片+ I" e: i- f% c
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
4 q$ |0 V% _: S6 c5 Q文件用法例1. 禁止所有搜索引擎訪問網站的任何部分4 _ W5 v$ i2 _3 Y
User-agent: *
7 @( t0 l$ a5 Y6 `Disallow: /3 h0 r. _" B% a# F8 z' g2 l6 q+ I
實例分析:淘寶網的 Robots.txt文件: H# e4 L. O) m& f' ]) A
User-agent: Baiduspider$ {3 m6 d8 t! `7 u5 w2 m4 \: j
Disallow: /
* g1 B ]& z$ p+ P7 i. tUser-agent: baiduspider9 {7 q' l+ R& H1 v
Disallow: /
1 r5 `1 `: n/ r0 T-------------------------------------------華麗的分割線-----------------------------------------6 @% [$ E4 J: F" k, s
你只要吧你要屏蔽的頁面寫上,就禁止了( X7 t) r2 y. C
! ^/ f5 S2 X/ W8 c( k, H8 q
4 p5 a5 z Y; Y5 f
* n: X2 |: l1 \
|