过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
% z; Y: d: K4 g% P# |7 g/ g# v
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 ! Q3 }- x$ w: t$ _5 ~& h) B2 K6 z
樓主,我只能分享這些了,只是產品的URL和URL中的product name

1 x+ E+ F- r1 ~" j# o/ Y求分享採集思路,貌似翻頁有最大限制,無法全部採集9 b0 c; D- J* U8 M! d
8 X% w: H, n: b) f! E5 e) P) s
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
* G" y0 g3 a% @2 w5 \. Q" wlucene  是java的把? PHP 用不了把?

# c, Y  ]" W4 hlucene是java的,我用.net,使用lucene.net,php我還不太懂了
* d, v* b" y+ T% f; h' J% a; t0 p: I' s: f
  K& T, s* |4 i6 m. z) F
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
; ~) W& f) Q& I' e求分享採集思路,貌似翻頁有最大限制,無法全部採集
) O' O9 d( D0 o% A4 o7 a2 d
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
' o' J( q' z1 ?" @9 J+ l. X9 u# x) c
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34 # f9 f, w9 t/ ~3 Q
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
( m: g6 `! c  y6 o# R
sitemap贊一個,去試試          . w" G$ {0 d1 h7 `, C4 P

( Q6 i6 `  \7 w  g8 |
8 E9 ]  U# ]# @1 m
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-6-18 23:07

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表