过期域名预定抢注

 找回密碼
 免费注册

想到了一種方法,可以一勞永逸的解決文章源問題,可行嗎

 火... [複製鏈接]
發表於 2014-4-27 22:51:21 | 顯示全部樓層
學習下百度的原創內容的搜索方法及搜索服務器
% O* v- @% N0 F* t. o0 f- @, q, p* J
1.搜索服務器接收客戶端發送的搜索詞。
: J! R: ^8 g3 L$ M" v& i4 o
& I  l9 v, _8 U+ {2 }2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。, v: I* u" y$ F  d# w, `, F: S
4 K- ^. l( P3 A; G2 |
3.搜索服務器對N 個搜索結果進行文本相似度分析。
6 G3 U  [2 w/ F2 F0 V5 q2 @
: {% A; c0 g5 Z* d; |8 b) k6 c4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度
% L+ T. N6 Z( Q滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。3 @) ~  O* ?5 ]& `$ L+ \" g$ {# T$ d
# A' f+ |) I+ s. F7 ^# j
5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。/ b" M' a  {: l% U$ e

1 T! x  U5 D0 M3 T4 q1 O0 N6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。: x9 M# H8 |- ?" X( h/ F
2 H$ H) x" e, l& u. d3 g/ m, l
7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。; e, j; `( N# A: I" S
例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足
  w  T& B$ P- q( Y% L, E6 R預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別
) p4 i- T5 l8 M8 v* M/ K抽取一個原創內容發佈源。
! b4 \7 W7 v8 Y+ u* r" F: c/ s$ z
8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。
. e' \& ]  Q: O. P3 [) h. o
' _- [( D- v  A( D
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-2-4 01:15

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表