过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
& z* y2 E+ o) U- [" E
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 : Y( E1 v& N9 B/ |+ C; Z# x
樓主,我只能分享這些了,只是產品的URL和URL中的product name
$ f+ _8 u& ^0 @
求分享採集思路,貌似翻頁有最大限制,無法全部採集" G- [# J; i6 s8 H% X  A

. r: P9 z% W' x4 X
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29 ; K2 n5 n2 u9 f% R' g% h( ?
lucene  是java的把? PHP 用不了把?

0 ~* F% i( t  ]5 Rlucene是java的,我用.net,使用lucene.net,php我還不太懂了1 ?4 U4 G9 _+ k/ @. R% l
( _" G. A7 h" A0 E
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
9 S& f; [9 I# ]- a6 I求分享採集思路,貌似翻頁有最大限制,無法全部採集
: k  d% X- W, O5 J. D
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
( L" ?2 p7 Q, r: F
7 E3 D/ M0 u* w- [6 C
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34 6 ~* a- \2 m& a# M0 G
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...

0 H% S" S" t* b5 p9 A* \sitemap贊一個,去試試         
! A* i* c" ]2 R7 H$ R( N/ q7 t  N6 T7 a& T. a) U9 G

6 B3 c; ^  }: L
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2026-3-20 17:19

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表