过期域名预定抢注

 找回密碼
 免费注册

一個防採集思路

[複製鏈接]
發表於 2006-10-17 12:08:03 | 顯示全部樓層 |閱讀模式
前段日子接而連三發現自己站的內容給人採了,有點鬱悶,於是又開始研究防採集的策略,一點想法,在這裡和大家交流一下。2 y# s3 F" N  \( q

: i  r/ `# b9 s  y4 K隨便在網上搜一下「防採集」,會出來N多結果,基本上都差不多。但在實際應用中,很少可以用得上或者難以實現。總結了一下,隨機碼和隨機模版可以防止一些採集系統,我之前的站也這麼做了。但現在的採集器功能實在太強,特別是隨即變量的出現使隨即碼完全沒有了意義,對於隨機模版採集者可能會花多點時間進行研究,但依然是可以採到的。0 l" z# ?& |( b6 y5 h  J

5 ^, v* ~3 Z" |9 x採集系統的原理基本上都是利用代碼中存在[唯一的開始點]和[唯一的結束點],那麼,想徹底的防止採集,就必須讓代碼沒有[唯一的開始點]和[唯一的結束點]。* q( \1 L4 L: b; a9 u  w0 V0 M

* U/ a; M8 u/ E! I3 u4 H4 A3 z6 H   下面分析一下一般頁面的代碼結構:
# W1 G3 r9 R2 ?4 D% X5 d
( |, f' `2 ^/ W* X/ I, e6 g5 o<html># Y' W. K" Y/ H/ W/ r
<head>
! ?; s. k: x% O  S& `$ ?<title>標題塊<title>
9 w8 Y# X1 n) o* T</head># p0 G7 s: G. u3 n) L1 I1 {8 M
<body><div class="content">內容塊</div></body>: A; K2 e5 t# ~6 j/ j2 E
</html>
' W# J% b$ Y; [) f$ ^+ x; P+ ^* q) x5 s2 v) h! ^
當然實際頁面中間會複雜很多,這裡只放上基本的結刮乙??析。很容易看出來,採集者採集這篇文章的內容會以<div class="content">開始以</div>結束。那麼,如何讓這些唯一的開始和結束不存在呢?我想到的是讓頁面中存在兩份一模一樣的代碼,那麼無論任何地方都不會有唯一的開始了。至於兩份一模一樣的代碼頁面顯示呈現出來的解決方法可以用DISPLAY或者註釋的辦法讓頁面正常顯示。比方,按上面的例子,我們代碼可以這樣寫:
3 n( ~; N! Y; e7 m8 D0 R* k, J
& R/ E4 @; U+ e. g3 W6 _<html>1 q8 W# H' f! Q* G4 k
<head>
: |& t9 N& W' ^/ w- q<title>標題塊</title>4 a  [/ g& m2 u) v/ K- p% x
</head>* n% w/ [7 [! F( w5 i+ ?& S; I
<body><div class="content">內容塊</div><div class="other">其他內容</div></body>
, U& }0 J* `7 \' W2 |# f. b</html>
' z3 {& I- K# g! b4 x7 p* G: E! v<!--" R0 ]  o7 U) x, Z/ x6 C
<html>' x7 c2 J, O, Q
<head>
- V% D9 ]5 @2 Z. U. B8 ]<title></title>
# E& M6 }8 C: W</head>
; K0 ]7 P  t) |* G) r0 F* w<body><div class="content"></div><div class="other"></div></body>5 o7 B$ x4 O/ ]
</html>
6 A* d: {1 M! S3 T* M8 v; n-->
. q/ Q7 Q4 o  j0 S) [; Q; d
% t! r0 Y5 A5 P上面的是實際上的頁面代碼,下面的是以這篇文章的模版代碼註釋多一次。
, _$ f' a' k1 p( b) b8 J+ A) G* V& `7 z/ ~( |
或許你會說,這塊內容2 `$ N! O- a2 n+ E
& F4 \# A0 H; J6 N  K& u
<!--
6 }- j0 [/ c* ^" `+ B2 v<html>5 O& \% }2 K7 R: C, p% b' ]
<head>; E0 b7 ~# R7 L1 N1 u2 Q
<title></title>
7 m# z7 M5 B( m9 b0 _</head>2 }/ w6 v0 @; }) `, b( [9 m
<body><div class="content">& j! d6 c8 ]6 C. e+ i6 e+ A7 o

# Q* D/ j5 v) Q& a6 Z是唯一的,然而實際上的頁面會比這個複雜非常多,會多出非常的內容塊,也就是說中間會有非常非常多的變量。) e9 d) R/ B4 ~9 u7 e2 W0 @* h* q
0 @4 ]7 l& T: k' W4 p: a
  事實上,這種方法只是一個思路,第二份代碼可以不需要是整個頁面的複製品,而只是某一部分。當然這樣的方法同樣存在弊端(或許任何事得到一些注定要失去一些),就是會讓頁面的體積增大 ;] 如果不是將代碼複製一份而是將整個頁面內容複製一份出來,搜索引擎會不會認為EMU呢......
您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2026-5-20 05:57

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表