过期域名预定抢注

 找回密碼
 免费注册

想到了一種方法,可以一勞永逸的解決文章源問題,可行嗎

 火... [複製鏈接]
發表於 2014-4-27 22:51:21 | 顯示全部樓層
學習下百度的原創內容的搜索方法及搜索服務器
! {; T7 o3 A: j6 V
' u& p  Z3 M7 b; z$ p5 m1.搜索服務器接收客戶端發送的搜索詞。/ b6 `5 p3 Y& o2 m

$ m7 J/ E1 a5 C% S) \2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。
) U6 X: K3 I2 e( [' \5 m6 {6 q! A- p
- V2 u9 O$ }- k: e! y: V. [& {- \3.搜索服務器對N 個搜索結果進行文本相似度分析。* E' t3 w' e/ w1 J9 \" e

# t" S- ~4 R$ ]9 v' r4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度
; W* ?0 f3 {, L; C- W( U滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。
" C+ U3 @- m9 X/ U* Y* v' T, P+ N2 t. u( E/ Y* T
5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。' t1 Z8 n9 R1 P. ^2 A! E
+ P$ ^1 c, h2 D2 t& Q5 }
6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。9 C) L( Q! s0 l% k7 r

$ ?' n5 I+ [! t( \8 t3 z+ }7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。; |% ^$ |3 T1 o
例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足+ b6 X+ a0 P  E& Z/ r
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別
5 P9 Z* T5 r% f5 w抽取一個原創內容發佈源。
; {6 p) N" Q& O2 k9 B6 f  o
5 j! |, J. Y: T8 K7 t& f- }8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。8 C5 B3 f9 p9 [9 ?
% p; A8 V/ B3 _( i
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基跨境 數位編輯創業論壇

GMT+8, 2025-8-21 11:52

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表