过期域名预定抢注

 找回密碼
 免费注册

一個防採集思路

[複製鏈接]
發表於 2006-10-17 12:08:03 | 顯示全部樓層 |閱讀模式
前段日子接而連三發現自己站的內容給人採了,有點鬱悶,於是又開始研究防採集的策略,一點想法,在這裡和大家交流一下。, ]. P. L7 ?; M  ^5 _" p

2 @9 G# m  S+ k4 |+ Y9 o隨便在網上搜一下「防採集」,會出來N多結果,基本上都差不多。但在實際應用中,很少可以用得上或者難以實現。總結了一下,隨機碼和隨機模版可以防止一些採集系統,我之前的站也這麼做了。但現在的採集器功能實在太強,特別是隨即變量的出現使隨即碼完全沒有了意義,對於隨機模版採集者可能會花多點時間進行研究,但依然是可以採到的。1 ?  V0 y7 |, B. M3 Q+ L

" W% @2 V3 z) P3 A/ j' _採集系統的原理基本上都是利用代碼中存在[唯一的開始點]和[唯一的結束點],那麼,想徹底的防止採集,就必須讓代碼沒有[唯一的開始點]和[唯一的結束點]。
/ h/ E5 f. q0 e4 u( m+ a1 H' U3 M" O; I$ m" E
   下面分析一下一般頁面的代碼結構:, b5 l4 {3 R4 u% h/ C5 D1 i
1 r. G3 U2 B1 e
<html>8 ^, f! k; _3 |6 B" r! ]
<head>
( U5 z! W& a* s- f<title>標題塊<title>5 ~8 c9 D1 s0 \! z# y1 J
</head>
7 C% W0 Q* ^* ?4 F* P; p<body><div class="content">內容塊</div></body>
; H/ q- y4 L& U+ ?, B8 k$ ^; T6 x2 y</html>
# i. f2 b1 b* _3 d3 F+ {3 ^, F* B  S1 t, |- |* W
當然實際頁面中間會複雜很多,這裡只放上基本的結刮乙??析。很容易看出來,採集者採集這篇文章的內容會以<div class="content">開始以</div>結束。那麼,如何讓這些唯一的開始和結束不存在呢?我想到的是讓頁面中存在兩份一模一樣的代碼,那麼無論任何地方都不會有唯一的開始了。至於兩份一模一樣的代碼頁面顯示呈現出來的解決方法可以用DISPLAY或者註釋的辦法讓頁面正常顯示。比方,按上面的例子,我們代碼可以這樣寫:
( _9 W' z! x% K; }/ |/ O2 Z
9 ?( A) b  w7 y1 m/ `<html>1 E/ \* ~8 d, D+ z) A  C. |
<head>
) G0 |8 B/ j( t* ?, n% b<title>標題塊</title># R0 e' ?  H) D  M; U
</head>
5 m0 _2 W& }# c4 Y# ?( \* z<body><div class="content">內容塊</div><div class="other">其他內容</div></body>
2 o( j6 S5 L- j6 D</html>: p7 r; D) p- p% O" @* l
<!--. ~) A, _1 E9 c) ^6 M1 T$ \( S
<html>% J# Y% i) o3 h- ~' X
<head>- y# ^2 `& Z& C; g$ \
<title></title>' I4 V0 b/ d! g' t! x; y
</head>& `3 K1 O9 F0 ~& F
<body><div class="content"></div><div class="other"></div></body>1 ^9 u7 m1 ~. I9 U5 N4 {
</html>; \# I+ o. M/ j& K
-->& M- a: i  U+ [$ u

, W& v. V9 H, X8 w- A; @上面的是實際上的頁面代碼,下面的是以這篇文章的模版代碼註釋多一次。
0 T# w7 ?6 G/ E1 U: v$ h/ s0 N
, _4 |" H0 F# f3 M0 C或許你會說,這塊內容3 H& b& q6 Z$ m; m1 b; h3 k& _

( W3 X- E# F. j6 h9 ~2 x: @! h# z7 M# w<!--& _. d* A( c9 Y: k
<html>
6 `( h, o! W5 {; `<head>
! u; o, u7 S( l/ |<title></title>
1 l$ G! m+ b- R</head>( p" `/ [+ j$ \0 s' V# O
<body><div class="content">  e" ]) ~. o. u& m8 B. m
$ r8 P. O8 N! G7 Q% R& s
是唯一的,然而實際上的頁面會比這個複雜非常多,會多出非常的內容塊,也就是說中間會有非常非常多的變量。
* a8 ]$ j6 _; D& h% f! f% Y9 C  K+ T9 t$ o4 w. r, P
  事實上,這種方法只是一個思路,第二份代碼可以不需要是整個頁面的複製品,而只是某一部分。當然這樣的方法同樣存在弊端(或許任何事得到一些注定要失去一些),就是會讓頁面的體積增大 ;] 如果不是將代碼複製一份而是將整個頁面內容複製一份出來,搜索引擎會不會認為EMU呢......
您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-5-20 05:15

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表