过期域名预定抢注

 找回密碼
 免费注册

一個防採集思路

[複製鏈接]
發表於 2006-10-17 12:08:03 | 顯示全部樓層 |閱讀模式
前段日子接而連三發現自己站的內容給人採了,有點鬱悶,於是又開始研究防採集的策略,一點想法,在這裡和大家交流一下。
, Z5 L( Z. Z3 L& V) f/ T2 b0 r* `) K* t" \4 ]
隨便在網上搜一下「防採集」,會出來N多結果,基本上都差不多。但在實際應用中,很少可以用得上或者難以實現。總結了一下,隨機碼和隨機模版可以防止一些採集系統,我之前的站也這麼做了。但現在的採集器功能實在太強,特別是隨即變量的出現使隨即碼完全沒有了意義,對於隨機模版採集者可能會花多點時間進行研究,但依然是可以採到的。
! ?& r" K" ]& p% o7 s' Y& N1 Z
$ X! ?' a! D) d6 P, Y* ~' g+ H採集系統的原理基本上都是利用代碼中存在[唯一的開始點]和[唯一的結束點],那麼,想徹底的防止採集,就必須讓代碼沒有[唯一的開始點]和[唯一的結束點]。
2 f; Y3 b* U9 o8 k* ~6 M8 q6 z- F4 h+ T, Q8 E. }5 w: A, D1 B
   下面分析一下一般頁面的代碼結構:
/ F8 Y: E5 g  p% r; a& E3 a) E5 V8 z" {
<html>
- b' a$ d0 L0 N/ ]% T& m+ U; M<head>. F, [0 O. v- J+ T5 Y- X- u
<title>標題塊<title>
5 `' h# z4 G2 {! \</head>; _5 P4 H8 [1 d: Z
<body><div class="content">內容塊</div></body>
+ M! E- @, ~! k4 p, ?# E</html>
' X0 w4 @% G8 F4 N
8 K2 F2 a% A$ F當然實際頁面中間會複雜很多,這裡只放上基本的結刮乙??析。很容易看出來,採集者採集這篇文章的內容會以<div class="content">開始以</div>結束。那麼,如何讓這些唯一的開始和結束不存在呢?我想到的是讓頁面中存在兩份一模一樣的代碼,那麼無論任何地方都不會有唯一的開始了。至於兩份一模一樣的代碼頁面顯示呈現出來的解決方法可以用DISPLAY或者註釋的辦法讓頁面正常顯示。比方,按上面的例子,我們代碼可以這樣寫:
4 d& L! s) G1 }  N* F+ F5 W# [; u: I' S) {
<html>
$ n5 n4 m% x4 S. M  C% s7 Q<head>) n, x6 x, G8 W+ ]: P: I
<title>標題塊</title>
' N4 q+ ^  c, C( ~" S3 c</head>
+ V) m+ ^1 ^' D8 K. a6 C. S<body><div class="content">內容塊</div><div class="other">其他內容</div></body>6 l# p. i5 f0 b- U' \* i8 G* ^) g; b
</html>
8 Q* V6 B) ?6 i  K" d$ b- o2 e. ]<!--
7 W6 N0 P; X& O+ I, |9 i8 @& v<html>% _% o) Q5 d2 E& f  T. \) c) O, c
<head>
2 a+ ^) r& d, u5 l<title></title>
& r  K9 F2 N. U+ E5 U2 A</head>$ @+ r, E; w4 x
<body><div class="content"></div><div class="other"></div></body>
: k, X, _% \9 N$ F</html>
  }6 i# Z# y. L9 {-->) \! Q; E- K# V
, h6 D) N" F$ k' L, u
上面的是實際上的頁面代碼,下面的是以這篇文章的模版代碼註釋多一次。0 t0 `2 ?5 j4 t0 u9 i6 F. s* F- z3 n
5 C( ?  {5 M. G2 M
或許你會說,這塊內容
0 o2 U. P6 _) U( \
( O" ?: M! L' h5 \  D4 K9 I; c. H<!--
' {9 S8 ]) P5 n<html>
  z6 y  K1 x$ T5 k<head>
9 e7 e7 }9 ?8 z! |" N+ |+ z<title></title>
6 E( z3 \5 B# x7 M) P/ x; n/ U. G3 A</head>! V' {, g1 L6 s, k3 g1 T+ b9 k
<body><div class="content">& {6 G8 y. v0 w

. F: Z5 v! W( @1 v# U: ]是唯一的,然而實際上的頁面會比這個複雜非常多,會多出非常的內容塊,也就是說中間會有非常非常多的變量。
6 S, _7 C" l  L0 i
8 o% T" c7 h. }# M! E  事實上,這種方法只是一個思路,第二份代碼可以不需要是整個頁面的複製品,而只是某一部分。當然這樣的方法同樣存在弊端(或許任何事得到一些注定要失去一些),就是會讓頁面的體積增大 ;] 如果不是將代碼複製一份而是將整個頁面內容複製一份出來,搜索引擎會不會認為EMU呢......
您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2026-5-20 05:15

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表