隨著在線廣告的流行,pay by per click (每次點擊付錢)的模式 逐漸被大家接受。可是隨之而來的問題就是fraud clicking的預防迫在眉捷,因為這將直接關係到這種廣告模式能否長久生存和能否成為一種真正的網站擁有者的收入來源。 9 \& c* p: |3 E0 Z% e
) S& ?3 f+ v) L0 X# a
下面介紹Google Adsense系統如何從系統角度出發防止點擊欺騙,希望對其它的在線廣告系統防止虛假點擊能有很好的指導作用:
- [5 u/ c( I" ^/ L. G" z
3 t/ h L+ L8 Y5 n, I% _) h, W7 O& V1] 點擊率 = 點擊次數/共瀏覽的次數。
! ^1 S- H+ E2 A5 N7 k( w1 e! n s: _點擊率是一個判斷是否有無fraud clicks的關鍵的方法,可以想像一個網站上的廣告的點擊率超過10%將意味這什麼。 ( n( H# S; x! E7 V( p9 D
& `; ^2 P6 x2 A4 L6 F" L! C$ }1 K#of Click/# of Viewed
+ G/ K) g! f$ ?2 R0 l* t t6 C( l* u2 ~6 a- T% B1 @
2] 點擊覆蓋率/獨立IP ,這個分佈裡如果有;單個IP 的(點擊/瀏覽)=點擊覆蓋率超出了3倍的系統誤差範圍內將有作弊的嫌疑。
" c, S: t; }3 }2 T" G
+ D# L; f2 f4 |: z% ?8 P; w例子,例如來自 129.119.200.1 的用戶瀏覽了 16個網頁,點擊了4個廣告,而整個廣告的點擊率「從[1]裡計算的到」是5%,那麼計算得到: ; e# n O. }% c) ~# ?( x& }; Z+ m
%5 X 16 =~ 1,方差為Sqrt(1) = 1,點擊覆蓋率=4/1 = 4 ,根據數學上高斯分佈,這種概率小於萬分之一。 . r1 Q7 @: k8 r! ]" A H K6 d
$ m9 O" G" ~: M; R& y' l( y* V7 DRatio VS IP distribution
: ~. [1 F p6 Y9 d" d6 ^& {. }
. L+ Q9 `& d. b7 P3] 點擊率『點擊覆蓋率』/IP/時間 % A/ {# ~3 E/ G: @7 u$ Q/ c
根據時間序列對點擊率進行分析,如果在某一個時間段上有明顯的峰值,那麼這將以為著有潛在的欺騙點擊的可能。
7 `$ r; A' N) d7 E: C* e# j( C; `" }, e# q5 C7 e$ y+ Y
Ratio VS time
h3 U( E3 z3 v% w/ N5 J F. B& i$ n9 _+ M% |
4] 網頁load的時間和 廣告點擊時間差的分析,以及每兩次click之間時間差序列的分析
( g* g5 u8 ]6 _- R+ @3 S7 P[網頁load的時間和 廣告點擊時間差] 應該是一個泊松分佈 possion distribution,而每兩次click之間的時間差也應該是一個Possion distribution,如果這個時間用秒記,大於25秒的話基本上呈現高斯分佈的形狀。
: ?, A" E& x6 d5 J0 E8 \+ Y3 d# V' S7 x$ Z+ Z7 `: b
[time of loading - time of click] distribution VS Possion
5 N7 R0 J( T7 d; m7 [[time difference of two clicks] distribution VS Possion/Gaussion
4 J+ V/ e% D) z& A
$ n, L- ]8 _: r( e- Y2 }$ z5] 針對Proxy點擊的分析 5 ~* _- C" V( z
改變IP進行點擊可以說在以往是最難以解決最難以發現作弊方式,大概國人進行Alexa的Boost時就多半採用了Proxy進行虛假點擊的方法,可是這裡只要通過反向監查IP的來源是否是帶有Proxy功能的服務器就可以知道了。 4 ^8 `& ?6 Z2 n7 X3 U* ^
% ?/ V2 d. P: A7 m2 Y! J" o4 }9 E
Reverse Proxy check 5 Z' e4 S* t8 `6 _8 H
/ o$ v1 {- t4 y3 [1 d6 K6] 針對 http_agent的分析
2 T6 p; x! ]4 hHttp_agent/時間 的時間序列的分析,峰值超過3方差需要審查 : N$ C8 D' m' o$ a; b2 y7 `- @+ J
9 b( X9 x8 U/ O* b. |& S7] 針對 http_referral 的分析 " H* M. I5 o* d, u) W3 `
referral/時間 的時間序列的分析 ,峰值超過3方差需要審查
( ]* m* _+ t7 ]8 b+ D
5 ~% l# d o! b$ e8 G. u4 G/ S2 B8] 整體效果上還有一個非常有用的量: " `, p9 H6 h- N3 c# I8 \
所有用戶的有效的每千次展示費用的均值/獨立IP 0 B# p* y( U1 Y1 s. h) T- e9 ?
這個將能更加直接找到spam clicking 的運行計算機並且予以封殺。 1 B3 j7 G* I" N$ g0 ^2 @$ i" T
u( p5 P1 v" A& }. h, L. K! [* f
Overall Ratio VS IP u' K ~# l) I( ]5 n
/ `9 Z7 v$ l& R+ q" b. y: C* b/ f即便我在這裡給出了以上的防止作弊的辦法,但是不要忘記了: : _. t- v: t7 e. B, u
) p3 ^0 E& S& z( h- S
邪惡的人永遠比正義的人來的多,來的猛烈。 |
|