學習下百度的原創內容的搜索方法及搜索服務器
) }3 J' f1 P/ {) O4 ]) l9 Q! y) I; o6 l: B# Z' \& J/ U1 S! W
1.搜索服務器接收客戶端發送的搜索詞。
" R( u2 M+ S; S6 S! ^
3 w4 o( q8 G3 n, P& r* Y$ ?2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。
+ B. O/ I- p1 ]- J
: W9 M$ n( m ~( K5 s; g3.搜索服務器對N 個搜索結果進行文本相似度分析。' U: t) e: v# S K( i
! \% H7 F- u2 k! G3 _) P
4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度
1 c* B8 f6 F) q2 Q/ J# v: l4 _滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。
. L6 w$ k" v7 u6 R: D
9 p- a8 e* j6 J5 y5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。" O0 c4 s: i) G3 a! D4 t
9 n& j2 {+ A1 |: L6 q6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。; l3 ^* x; l6 V D" `
( A+ d/ B" Y( I% ?1 p! d6 _3 K' j+ d7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。9 q3 e8 U7 A* X8 P. ~' ?; @
例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足* v+ E2 ?2 c; W2 J) F0 y
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別
4 L/ n" R. \* Z抽取一個原創內容發佈源。
9 c* E0 q: ^) p( V9 c* {+ p v
$ g) P4 j" d; u! }7 H! V: H+ v8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。0 k0 ?, l: J7 Z
5 P) W6 i5 D/ j; j
|