过期域名预定抢注

 找回密碼
 免费注册

想到了一種方法,可以一勞永逸的解決文章源問題,可行嗎

 火... [複製鏈接]
發表於 2014-4-27 22:51:21 | 顯示全部樓層
學習下百度的原創內容的搜索方法及搜索服務器0 [3 M5 `& _, W& |% `
6 \& ]% i, q. @
1.搜索服務器接收客戶端發送的搜索詞。1 _! T$ l; t$ j+ p1 @0 p8 g
. F: g0 k* Q. U* Y. C& }3 O* D
2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。8 ^8 I# G# k9 u. Q

, K5 J: z+ E: i: f) d! E3.搜索服務器對N 個搜索結果進行文本相似度分析。$ g9 ~) C# Q; i7 p3 M

7 j4 [. h- ^, [) t/ B3 W4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度
& {4 \: p% t1 e7 t滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。
7 ]+ u' |+ V7 e
, W* P& S- y5 _5 W6 X5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。
' \) L* x1 m: \/ ^7 D
6 L/ i2 S6 s1 t: e3 q! g5 h. W3 A9 g. @6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。" j7 }. P! t9 B
, m2 D; c. k5 z/ W! H( }( s( b0 u
7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。
. P* [: Y8 o, n% A) y; v例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足/ c' ^( P6 ]# e  R
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別+ f& p; [: I  ^$ S
抽取一個原創內容發佈源。
3 H" w: m6 W% g6 s+ k# U/ V
' k- ]: I4 {5 A8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。) H7 J# E, i9 B! d9 ?. R: ~

: E; [/ R$ U: x/ h4 S
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基跨境 數位編輯創業論壇

GMT+8, 2025-8-21 08:14

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表