过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
1 R" |# ]2 [4 T0 R& }7 [
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 ' z! G: t( {5 U! \
樓主,我只能分享這些了,只是產品的URL和URL中的product name

: Q" F3 z3 ]) T. q) Y  P/ I( F求分享採集思路,貌似翻頁有最大限制,無法全部採集
+ M" |  @- i1 w6 c. j- u. D" @* _  ]
, {  Y& m# K6 n% M0 s. t
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
4 c( M0 i( _4 C) F* flucene  是java的把? PHP 用不了把?

# X  G' m4 t8 R( jlucene是java的,我用.net,使用lucene.net,php我還不太懂了
5 K9 ]7 K8 j3 f) z
' h( S" ^4 ?& Z" k
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
% U! i/ }9 @7 @6 D+ ]7 R8 p求分享採集思路,貌似翻頁有最大限制,無法全部採集
/ o& P4 @3 b2 y. I8 F5 V
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。/ s: p# |% A. {! X
3 \5 P6 [- G4 t4 S
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
) _1 K, H9 j) M兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...

& g9 Z4 F- w3 `8 I5 Hsitemap贊一個,去試試         
9 E* x" o# Z" `9 \- t6 p5 P, Q2 f
5 S, ^- u* l' C
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-3-20 17:00

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表