过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
) G8 i- s) o$ k
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 4 ^# h, p% J9 v' e" @
樓主,我只能分享這些了,只是產品的URL和URL中的product name

4 \% G' v0 O  ~9 i# w/ _求分享採集思路,貌似翻頁有最大限制,無法全部採集
0 j  Y1 `; d5 z1 w- P7 X  Y# s4 `5 ]+ t: V1 W7 [3 m
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
! o' d$ `: O7 o( D- |lucene  是java的把? PHP 用不了把?
. M! h+ `9 z* j! A5 F. I
lucene是java的,我用.net,使用lucene.net,php我還不太懂了
! d1 F/ g4 Y& G9 k
  W8 X5 X$ x( D- f1 B" ~/ g$ I
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
# _. X% w+ A9 F" G" q2 K求分享採集思路,貌似翻頁有最大限制,無法全部採集
/ l/ n. H- O9 V0 D: B
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。9 O& I8 i$ ~- Q8 {9 K0 G

# Q% C5 a. Z) k) z+ ?2 @4 s
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
9 d8 y7 a; d* n兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...

+ i3 E( R# F1 r- x9 ~6 L; n/ |sitemap贊一個,去試試         
0 j& L- A' N: E& ^, n0 f1 c( t1 W$ F4 h& h  [/ M
. w/ Y/ h1 p2 S9 }5 c
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基跨境 數位編輯創業論壇

GMT+8, 2025-8-20 07:40

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表