过期域名预定抢注

 找回密碼
 免费注册

想到了一種方法,可以一勞永逸的解決文章源問題,可行嗎

 火... [複製鏈接]
發表於 2014-4-27 22:51:21 | 顯示全部樓層
學習下百度的原創內容的搜索方法及搜索服務器
# j$ c, H$ c$ @" o! \# `4 |5 u' T) W0 S" Y
1.搜索服務器接收客戶端發送的搜索詞。9 E. b7 i! u7 b( B- t5 i* \

' ^+ ?, u! g) W9 F. d" @2 \2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。5 U2 R) o4 P, o8 B4 z# r" j/ F# [
, l' O9 F1 k1 }) Z7 m: N. ^. b5 p
3.搜索服務器對N 個搜索結果進行文本相似度分析。
3 B7 L1 X, q7 z' f3 |0 y/ U4 M% \$ n$ A
4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度
+ F0 G( L/ O: X2 ], b滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。; o$ U: Y! r: ^

+ O) h: Q- w1 {5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。
; O$ p$ I. a. }1 H7 A* R: X
( b  Q2 o! p) d# a) l6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。6 U3 q* K7 U# d+ D

' C) X$ y& ]% [- u+ s* k; c7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。5 N9 ?& o% c  f! q4 E/ b
例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足; }2 e* Z6 ~  V9 ]+ Q/ g
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別
5 k3 [8 ^& O3 k. m6 h6 J7 {抽取一個原創內容發佈源。
. h! j0 x: F1 ^3 Y( j9 S5 Q# I1 R* }  z  E, a0 P) s9 |
8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。
% u3 k: v; k3 Q; K3 f2 ^) u; a& b
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基跨境 數位編輯創業論壇

GMT+8, 2025-6-28 18:46

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表