轉一個:) m4 [7 o0 j6 A4 i
大家都知道網站內容是一個網站的靈魂,是一個網站的血液,也是影響你網站表現的非常重要的一個因素。那麼搜索引擎是如何判斷一個文章到底誰是原創的呢?
' T7 F1 t5 }! g4 E: I, D0 X( }( ~4 I! _# g7 X# `
首先要明確一個概念:原創 偽原創
; E# r0 H, H4 T7 j1 t( a$ V
) z- g* \4 D g6 K. m' \) L6 v+ W原創:簡單地理解就是第一次在網絡上發表的內容,以前沒有出現過的內容。& O- J# h7 f. `: i" u, S2 E
, |* v! V2 x( P9 Z/ g8 q2 x! w: s5 c偽原創:就是從網站找來資料進行二次加工,二次修改之後的內容,如修改標題,修改內容,增加些文字或者減少一些文字等。# n2 @; `( G1 Y1 g+ }" o
$ F. Z$ i6 F! v7 v
那麼搜索引擎對於原創的判斷是如何進行的呢? 4 [& C3 U- `( C$ L" `& r. @
9 d7 |! i& l! o2 n6 M
一般來講有以下幾個方面的因素決定: * j9 _# Y7 r6 X0 I
; Z* X7 }/ o8 {% y6 f0 w
1、快照日期。 # m& h( J* X% @' U' a& ]+ [, |
+ o$ g7 |6 N6 z1 P4 J) ?" i 2、蜘蛛抓取日期。
4 o4 L. x/ \! a/ G* a9 \
: k) z& C% i3 j# r. I 3、頁面外鏈的多少。
! M3 u' x5 J$ J/ `2 d- {" r) p! b* `5 Q% a) l6 T0 s6 O H
4、文章修改的程度。
5 W. U6 N: b. l8 i8 _ ; f3 ~: `1 z! j; v, J; K: l
* P" z3 A Q1 d1舉個例子 如果你在一個網站上發佈了一片文章內容
- p$ ~- _# Z' u( `0 A1 U1 G8 t" z' z( Z1 Y& h/ {
搜索引擎來到這個網站並且抓取到了這篇文章,放到數據庫,並且在收錄數據庫中沒有發現類似內容,那麼就會被認為是原創。
5 D5 A8 u- O. O" e
! U3 |; B$ h* D3 t: u( K在這點上有個細節需要注意:
5 g! n' J+ w. G
+ s `6 p" G3 A1:文章必須被收錄,如果沒有被收錄,肯定是在搜索數據庫中石找不到的,搜索引擎根本就找不到這篇文章,更談不上什麼原創了。* j$ x6 S6 a6 N1 E
+ g7 R7 q9 Q. G; T$ @1 X+ T d2:文章被轉載
% ?- D& L0 b1 s6 I5 w( w- f
5 q- u5 O$ R$ @: ]- R6 p" z N如果剛發表的一篇文章被轉載了,那麼誰是原創呢?/ Z0 Y% F3 K/ j9 h1 ?
; @2 k, {- g+ K: y5 Z那要看誰更先被搜索引擎抓取到,也就是更新週期的問題了。如果a站發表,b站轉載,如果先抓取到a站,那麼歸a,如果先抓取b站,那麼原創就歸b站了,所以不是說你先發表了,原創就是你的,這個得看搜索引擎什麼時間收錄了你的內容。8 p' t8 H+ q2 C9 n8 t0 q! G
' _" b+ o" Z7 \. }# V5 w+ Y; ] 3、訪問時間
5 G7 n0 R' E" G
& @$ M/ o! ~9 ^ c 如果蜘蛛先訪問了B站呢? 2 b- U' w7 o D4 u4 a% \! J$ u
( M& T! m5 _5 c, C; M; A ——當然權重給B站,一般的情況下都會這樣! 7 N& ]$ D! g r8 B* g; y9 X% g
/ t9 F# r, g/ z ——如果B站轉載的文章帶了A站的原文章頁面鏈接呢? ! [0 g4 c# H( R- I9 O
+ H$ B7 p/ h' y- `! J' _' G
——這就很明白了,剛收錄的時候,如果排名,兩條結果一起出現,有可能還是B站的排名好一點。 - z: ~0 |: \- c# ~4 d8 c& ]
" M" v; |8 ]& l8 t7 t( X: m' ?& F 當然,文章轉載次數多了以後,A站的鏈接越多,對A站的文章越有好處,排名會慢慢變成A站在前面。 % Z* M" t7 \7 W3 Q; k* V9 j
- _, G7 R" S4 R1 E$ d ——如果另外轉載的文章帶的是B站頁面的鏈接呢?
$ y' s7 ^( k3 j; o( x; B$ N7 w( y( ?0 {6 b
——它們如果判斷不好,就變成了一個鏈接流行度的比賽了。 - W+ I6 L3 x8 {/ {8 j: z) _# J: J4 w1 ]
6 S0 x; O: g0 K1 K- F9 D5 Y( V2 N, A, \% I 不過,如果都有很多外部鏈接,並且相差不大,那麼判斷的規則應該回到原點,誰先被收錄誰就是原創。 8 N+ N* }- @' e" C( S3 K1 G9 `
' z0 n: T: V F. [
5、快照日期 2 m- X" p. R$ S" f
6 ^0 W) i z5 i6 |. o
——快照日期顯示時間最早的,一般就是原創了吧!
, R0 A, d% U* h$ n" J+ Z2 p- Y# V& X' K e
——不一定,這個說法要在一個更新週期之內,比如說文章發表後一周內,快照時間越早的地址將越有被認可為原創的可能。
' k; U+ s6 E! O# Z% b4 ]- i
( L: ~" [9 n& e" N 但如果文章都發表了幾個月了,說不定搜索引擎已經重新獲取過快照了,快照的日期就變了! 3 I" p9 K3 [# M7 m" [) {6 B
) K! ^( [' e! x5 s1 z: t ——還有其它的可能嗎? . c0 M. N4 m9 g' |
% L, c4 f9 |3 n" E3 w ——有,一般比如百度收錄,他可能會有一個收錄的數據庫,經過過濾後,收錄的內容才會到搜索結果裡來。在這個期間就有一些問題了,比如A站首次發表,B站轉載。蜘蛛先訪問A站再訪問B站。而後可能先把B站的結果放出來了,而A站還在數據庫裡。 . Q, X1 Q& ^5 Q& u* M
0 }5 z) H: p5 Z$ p6 X& W* W
所以說搜索引擎沒有收錄並不表示搜索引擎蜘蛛沒有訪問過這些內容,也許在搜索引擎的庫存裡已經有記錄了,只是你查的時間沒有放出來而已,就像25號才放出來的內容,但是快照是20號的,這就是搜索引擎的庫存內容,同時這也是檢驗原創的核心時間點。 # b8 ?" ]0 |/ S, n- s7 N, ^+ g: u
Y! q, a. s" f5 B5 i! p% \ 這種情況一般出現在新站與老站之間,A站發表,B站轉載,但A站在搜索引擎的信任度並不高的時候。不過只要是A站先被訪問到的,原創權還是A站的,這是最難分出來的情況,因為我們不知道蜘蛛先訪問哪個站,除非你知道兩個站的網站空間日誌內容,能看到搜索引擎對兩個頁面的訪問時間。 0 h$ N5 D5 F/ V: T _8 K
2 M0 g4 ~( n; C1 L4 Q B1 y( O9 D. X
6、偽原創 . @1 R( r! I1 N/ {8 f8 q: E
4 D, C9 a+ [0 y$ F ——偽原創也會被認為是原創?
( [* [ Z J' k" H3 _/ H1 F( i5 t6 E- o3 N
——大多時候是這樣的,搜索引擎蜘蛛不能明確分別這些東西,因為它的思維太程式化了。如果你的標題改過,文章的段落改過,那麼蜘蛛將很難確定這篇文章是否有過收錄,也許它可以確定有部分內容是重複的,但它也不能因為這些而將這篇文章確認為是轉載!當然,隨著搜索引擎程式設計的提高,應該會有一個相似度的東西出來,比如文字內容相似度超過百分之幾就會被認為是轉載。
; e7 c/ t/ t5 v; V
) y, O$ K3 h7 X. c0 P: \ 這樣分析下來,相信大家應該瞭解了吧。只是核桃自己的看法,希望大家吸收自己想要的東西,不認同的了也來提下自己的意見!
8 h- K7 b2 ^" t3 K* p
0 p7 k8 c }) D3 z 另外提幾個建議:
- Z9 d+ G0 W2 |5 T6 n# p9 P. V+ z8 R
1、如果你的站是新站,權重不高,如何讓蜘蛛首頁找到你的頁面並放入數據庫?其實很簡單:用網摘、百度收藏這些工具讓蜘蛛更快的找到你的頁面! / Y# ?: o) G" k: w. t& m
$ R8 f" N8 ^1 I% M4 v8 P( x
2、大家都有過建議,就是加上自己的版權及內容頁面的地址,別人採集的時候你就爽了,收錄雖然不會快,但最後鏈接多了,你依然是原創內容。
$ P3 S$ d( a) y- g. i6 ^/ T- L3 E' |& `' p3 z
3、發表文章等到自己收錄以後再去其它的站點進行發表,同時加上自己的原文地址,這種辦法很有保障! |