过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
* X8 H! O3 q# [& o5 S; {  Q
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42
, R  b+ q% D; |樓主,我只能分享這些了,只是產品的URL和URL中的product name
# K  [1 E* V, N' H4 {  E
求分享採集思路,貌似翻頁有最大限制,無法全部採集. D1 t1 u9 f6 A; {5 }

. f4 B" \0 a, u. g( s" U
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
0 `" m. L  J9 T' {lucene  是java的把? PHP 用不了把?

  ]5 ~% @7 a( q. b! Z$ V4 ^3 h. @lucene是java的,我用.net,使用lucene.net,php我還不太懂了( [7 O7 `) [$ A  C: I, m

) L  p$ b3 A9 f
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
) b* [1 v( c7 b求分享採集思路,貌似翻頁有最大限制,無法全部採集
5 W, z, n5 @5 A' R) _
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
7 a/ l  y3 I, ?
/ k9 B8 L0 B! J1 J) L8 I: F
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34   f% I: p* k* t- H/ L& L- t
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...

) p" {$ I4 x* h! W1 k( q2 Z% Msitemap贊一個,去試試         
# l6 l. J% {' T! J9 y9 }, ?2 v# k6 g$ ]  g
2 S* I: `0 A& ^2 M$ C7 c% K
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2025-11-5 07:31

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表