學習下百度的原創內容的搜索方法及搜索服務器- N! I0 R% f: t$ a/ W7 M' b. U
9 g4 W( ~- m( ?5 }( h) l1.搜索服務器接收客戶端發送的搜索詞。
# \- [2 E4 C3 U/ F
) O( k, V1 V. C V% q+ B2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。1 s$ h2 V+ B5 P" V
! u$ S: m3 ^% b/ U1 K- N5 F3.搜索服務器對N 個搜索結果進行文本相似度分析。3 h2 w N% U% L" [! J- C5 D4 z
: t! m' F! T6 S1 b/ c4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度
% P2 s5 `" c! k滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。
" ]3 P) l, u$ W8 Q( b# K& Z/ `0 |' K: u% ?( h8 g' l4 z5 `9 F
5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。
2 U4 ?& b- Z, S1 U( @' U6 y' E* D) m
6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。; H4 S! [- k, c
[+ R, K/ a% l0 U+ a2 z
7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。
4 f; m, u7 Q7 ^3 J; Y8 ~例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足
! ~$ v1 |1 e) s( {2 x預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別0 z ^5 E; g4 r
抽取一個原創內容發佈源。 f0 k5 J" G! s
1 D8 M; M5 w4 y* h' b, F
8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。# ~* v5 @: T* b+ s" F1 F0 k- a
% G1 `4 L0 m8 S3 C
|