过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來+ G. D5 \- I; i/ B$ Y8 N
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 0 _* R* |; F: L
樓主,我只能分享這些了,只是產品的URL和URL中的product name
5 s4 Q4 E8 b. \, @! H' I
求分享採集思路,貌似翻頁有最大限制,無法全部採集: q5 u: z! b' c- J5 P" y+ t

% Z" q" u2 }, A. C. P. c
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
$ }0 t! n  z9 ?. Elucene  是java的把? PHP 用不了把?
  [1 A  }. K7 L2 T& V- s6 O
lucene是java的,我用.net,使用lucene.net,php我還不太懂了
1 W1 g, A) c5 F
5 o" {+ O) D! M/ a3 S
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
2 Z4 F" s0 u: K9 ]# W; P  J求分享採集思路,貌似翻頁有最大限制,無法全部採集
! p' N) c7 s" U& W- p
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。0 A& F1 c& d5 [. R( R5 j

* D+ G% ]) c: t- u! b7 y7 E5 K: q
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
' v' w: {+ W0 r兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
/ y8 r" G- H9 A# q0 W" [- [: i# F$ \
sitemap贊一個,去試試          ) Y4 f  g& i/ i, @( i) V
6 m! K$ s4 u( m7 Q( j4 X
& A9 Q. T' k( E+ \( u* v
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基跨境 數位編輯創業論壇

GMT+8, 2025-5-8 10:13

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表