學習下百度的原創內容的搜索方法及搜索服務器
3 U: [% K+ k+ a
* R4 j8 ]6 ^, a; u. N# x& I1.搜索服務器接收客戶端發送的搜索詞。" j- f* S" e9 Z' K' u& i
' a/ m! |% m4 T# W
2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。
- |! j! c' v6 ~0 b3 ~; s/ Z6 {+ P+ L# Y
3.搜索服務器對N 個搜索結果進行文本相似度分析。
7 Y4 j7 z: y' Y* [5 V" _$ M. z8 x) G/ Z* Q
4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度4 t5 C& f7 h3 d! h- h
滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。- D( N% R# o, x* l' I. D
2 _+ x" n2 A5 K' D4 C9 q
5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。
( S/ R: N. p7 _ W9 P) B8 Y2 K( P
; B- E1 E( v( L2 R6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。
8 E4 |1 l3 s& Z, [- \6 i3 y. j
/ n) Q' r4 M; ~/ M7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。+ C4 }; e: S0 \3 ^0 ?" j* M8 j
例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足# F; `+ \' ]" g- V. d# F
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別 b. T8 f7 t, I: g! N8 @1 H; m+ Y* c
抽取一個原創內容發佈源。1 \7 }1 B, M n* B& ?
. x+ ]& M9 F6 \! @- u7 L8 b8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。 Z4 J3 q. z2 w; j O0 @5 g
/ j! j$ \, h( I$ M: i$ I+ i
|