过期域名预定抢注

 找回密碼
 免费注册

一個防採集思路

[複製鏈接]
發表於 2006-10-17 12:08:03 | 顯示全部樓層 |閱讀模式
前段日子接而連三發現自己站的內容給人採了,有點鬱悶,於是又開始研究防採集的策略,一點想法,在這裡和大家交流一下。
4 x/ |$ A$ t; F1 S
% f" |: I) P) D5 P% E- m隨便在網上搜一下「防採集」,會出來N多結果,基本上都差不多。但在實際應用中,很少可以用得上或者難以實現。總結了一下,隨機碼和隨機模版可以防止一些採集系統,我之前的站也這麼做了。但現在的採集器功能實在太強,特別是隨即變量的出現使隨即碼完全沒有了意義,對於隨機模版採集者可能會花多點時間進行研究,但依然是可以採到的。
/ n, {5 Y$ g' n1 {9 {: G" e# w( q0 c/ C5 }+ i  e! r
採集系統的原理基本上都是利用代碼中存在[唯一的開始點]和[唯一的結束點],那麼,想徹底的防止採集,就必須讓代碼沒有[唯一的開始點]和[唯一的結束點]。
+ d0 [/ S! J& S: P8 J( l% L- f" b- r/ y, J
   下面分析一下一般頁面的代碼結構:
( P. V  i* }% t' E- J+ E# T
2 E  G& w2 Z4 u3 C- i<html>
: ^% [9 Y- M7 B! S0 f<head>
% ?( T. q. Z& J% Y<title>標題塊<title>1 n2 |# f0 [8 r, X8 ]/ ~
</head>
2 r2 M" }9 c* T<body><div class="content">內容塊</div></body>  N  j- T5 ]7 ^+ t. A
</html>% \% d- _" W$ K, h- d

6 w. D$ x5 m& i當然實際頁面中間會複雜很多,這裡只放上基本的結刮乙??析。很容易看出來,採集者採集這篇文章的內容會以<div class="content">開始以</div>結束。那麼,如何讓這些唯一的開始和結束不存在呢?我想到的是讓頁面中存在兩份一模一樣的代碼,那麼無論任何地方都不會有唯一的開始了。至於兩份一模一樣的代碼頁面顯示呈現出來的解決方法可以用DISPLAY或者註釋的辦法讓頁面正常顯示。比方,按上面的例子,我們代碼可以這樣寫:
8 g, ?* f5 X! X1 m: }  U6 K3 E( x& w) b
<html>
! z- h# S7 M5 l4 F<head>& r) ?# n: Y4 k9 {3 ~  ~# |* T
<title>標題塊</title>
% i7 V. {+ W& l) i9 K' u) p</head>6 ^# _4 w' s6 P$ R/ h. B8 t
<body><div class="content">內容塊</div><div class="other">其他內容</div></body>
- x3 j. }" i/ i, _7 v% N- X9 R</html>6 b6 V/ A" s% W  S: R+ B
<!--
# O- Y. E9 b7 S: |/ F  C! `: S<html>
* a' s( ?8 Q* P$ E<head>: t5 V$ v/ I4 }) V$ O
<title></title>
7 T  G  k( }: {: T</head>
) L: p) W/ d- Z# P0 j% ], u<body><div class="content"></div><div class="other"></div></body>
3 O: @4 _! D; B1 Y" f1 w# v  h</html>) T! k7 {- G* V6 h* L
-->0 K' e. e7 S4 }& N6 q+ I$ _! y
% q' Q1 m1 d$ w2 s3 D
上面的是實際上的頁面代碼,下面的是以這篇文章的模版代碼註釋多一次。% u( c& d- r3 a  X6 U! }

' n3 Z1 ?# Y5 Q& A1 @( ?& x或許你會說,這塊內容
; I& ?' [6 t+ B3 c% W. G, Y! N3 W* ]( O. h, O
<!--) v( z; l' V1 v
<html>( G3 [1 d, W% k3 k6 X. S( W$ N
<head># V& _  ^1 F; x$ X) U3 c
<title></title>
" |& S, M0 }8 h, ?</head>
8 ?- s; d0 T* B- E<body><div class="content">
! |4 N4 _" j& w  @
& E) y% v" V) x* o' e0 Z是唯一的,然而實際上的頁面會比這個複雜非常多,會多出非常的內容塊,也就是說中間會有非常非常多的變量。: w) l. u1 Y  n# P0 l
! Z# ~4 Z' H; M6 o
  事實上,這種方法只是一個思路,第二份代碼可以不需要是整個頁面的複製品,而只是某一部分。當然這樣的方法同樣存在弊端(或許任何事得到一些注定要失去一些),就是會讓頁面的體積增大 ;] 如果不是將代碼複製一份而是將整個頁面內容複製一份出來,搜索引擎會不會認為EMU呢......
您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2025-11-25 17:10

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表