學習下百度的原創內容的搜索方法及搜索服務器
- g. O; b& v7 }$ T( O* ]
- K- g+ Y8 f4 Y1.搜索服務器接收客戶端發送的搜索詞。
. U: B y4 o" M9 R- k% X! N! t% q6 g! d
2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。
7 }- U m7 Y$ z. M0 t+ j2 ~+ U8 ?% l: M7 p2 U: S& V
3.搜索服務器對N 個搜索結果進行文本相似度分析。6 A$ @% \, A& @/ u
/ X/ Q! ^* p& [8 H) K" ?1 q* `4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度
9 E# _2 F+ r( G1 f滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。
: N9 N* _2 `) I7 [1 ]
! }1 D) L* _; \5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。
- m; e9 Z- E! B' r+ s" M1 s, ]* S& a% S6 m& S
6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。! Q2 a- j1 v+ [* P- e& ]
1 {( F ?/ c( Q+ @
7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。
$ o* F, I% c$ s0 ^例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足' M: }) i( [' a1 h* {) C
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別5 Q- W9 W" g* O
抽取一個原創內容發佈源。& j9 j6 [' A; k- I( [- N6 r7 W, }" }2 t
$ I7 F3 g1 _" V( s4 S1 l
8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。
( z/ `$ t( I* [9 L9 h; c# Y$ [8 b- E3 v3 I! o R
|