过期域名预定抢注

 找回密碼
 免费注册

想到了一種方法,可以一勞永逸的解決文章源問題,可行嗎

 火... [複製鏈接]
發表於 2014-4-27 22:51:21 | 顯示全部樓層
學習下百度的原創內容的搜索方法及搜索服務器  i3 _: Y; J' n, H: L
/ L1 G% d; S  y7 l9 n
1.搜索服務器接收客戶端發送的搜索詞。
: f) B1 U7 y! X
% h; f1 y- R9 U: ^3 ~+ u2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。' e5 k  l4 E- p/ N* L2 e
" y2 J3 H0 K5 m$ N3 ]" _6 F
3.搜索服務器對N 個搜索結果進行文本相似度分析。
, }! C' n# B2 o4 ]9 m4 v
% ^1 M0 \  n' O) n  g) H$ a+ D4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度
  ~2 H8 u, ~2 ~+ w2 P8 Z9 q滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。0 @' ^! c, l' @# q- V0 `# ]

' R3 S. q/ k* f& h4 `1 F5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。& f& `* q+ K* [) u

+ P( q( @2 U% l: x# V6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。& s/ Y( z. f  n% i

4 Q1 y; B0 r. e5 d7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。& h/ r) z2 ]1 s/ ]
例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足% t0 h  Z* _' |9 K$ ^
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別' p) \/ p3 V/ Z) r2 f
抽取一個原創內容發佈源。, e9 Z" O5 F" W9 d; h9 }  n

6 a9 R; ~3 Q4 p! c# `6 g9 ?" Y8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。
: F3 F* R7 u3 B% J* |3 p6 i; e! q* T) _& M- j5 N) S
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-3-21 05:43

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表