过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來& ?& E" e: K* \& M) U& M9 W& @! m
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 2 |' k. O, ?1 n+ W
樓主,我只能分享這些了,只是產品的URL和URL中的product name

, R7 [# ]- T4 ~" W4 v* d# B( w1 [求分享採集思路,貌似翻頁有最大限制,無法全部採集! C9 x& N7 f$ I& l" q5 V+ C/ R

: ?" k, @0 V; P" ^. ?! D$ G
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29 ! Y  m" [4 o+ ^. l( M5 i/ @" f! p
lucene  是java的把? PHP 用不了把?
' I! q) D5 [6 C0 z  p9 W5 s
lucene是java的,我用.net,使用lucene.net,php我還不太懂了
; s$ n- q. l7 h! E! d( u
. B: r: y% r2 n4 x* Q: D! U0 g
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39 . X7 q8 d5 P; y/ W( H: Z
求分享採集思路,貌似翻頁有最大限制,無法全部採集

- o7 `+ d* N" M兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
, \5 P! H" a8 [2 w6 K2 d0 v) M: v, G4 k4 T7 q' [
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
5 O# t5 a& X" R" I* ]7 @兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
% M3 x) x- I- N$ g( U
sitemap贊一個,去試試            O9 s6 y+ o& u
- }3 h% y" a* k+ z4 w! B
$ M- g8 }# r9 Z6 L' s3 }
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-2-3 11:24

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表