學習下百度的原創內容的搜索方法及搜索服務器
3 f8 M5 u9 W, B
4 r U5 |0 N2 I7 T6 _; t0 o8 }7 l- e1.搜索服務器接收客戶端發送的搜索詞。+ f+ `9 j2 L/ t2 o, K
/ N- |) n9 A( [
2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。
8 H% C/ r: B* P7 x9 _, ^$ t" m3 X' E# m, ^7 V4 w" K9 P. E6 T& B
3.搜索服務器對N 個搜索結果進行文本相似度分析。/ A J- j- i) ^' {9 B: z5 ?/ F
, x4 ~' I+ @7 K$ F0 t, w/ M4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度: j( g2 L2 b! o& n/ a
滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。* m2 ^$ I7 z. F5 o
: H1 W r) r6 B7 X$ m8 C. @' W+ \
5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。
2 F1 U# Z& N- T) n, j. U8 @5 i
! W& c1 x' ?: L% z( I6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。
8 n0 G& I) V" k- ~7 Y3 @# |# Y' @5 T1 y( ?) @0 k6 t f* N
7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。2 h6 _, d2 U. a# T; B3 f
例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足. _* [* \1 s' ]- H' v3 ` Q
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別" K/ s" I4 y+ s2 h, q# g
抽取一個原創內容發佈源。
& R) Q0 V5 g$ P6 Q* \4 P9 @$ D: q x U$ c7 Z" W1 N. s
8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。3 i2 F6 k/ z3 r' E& G
: ?5 T: [: C* ?2 V/ L
|