过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來. e! K; W8 P% Y* o& N
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42
+ ^' w& c2 i+ A) O樓主,我只能分享這些了,只是產品的URL和URL中的product name
9 p3 z3 P+ Y1 M6 U
求分享採集思路,貌似翻頁有最大限制,無法全部採集2 {, G% _+ a+ ?$ F2 a$ A5 s+ M! w

( N) `( B- N4 o2 x' ~2 @
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
$ _4 i) x+ [: ?7 p: P5 ?lucene  是java的把? PHP 用不了把?
# z+ @0 ]2 Z! ?( J7 V( w1 Z
lucene是java的,我用.net,使用lucene.net,php我還不太懂了  a6 ~$ \: R- i9 ?' U
$ u2 ~0 d8 {+ b: M4 D
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39 6 q% Y- v& r. c/ \; @) J& U; @2 n4 m
求分享採集思路,貌似翻頁有最大限制,無法全部採集

# N: o7 t- Z8 `$ ?" ^兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
( y# Y: q' b# T' E6 d) t- H5 m0 @2 k( a, `
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
0 w, C8 z0 {& u3 d( G  Z! i4 r兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
4 i8 x% r: a( ]1 b5 ]1 }
sitemap贊一個,去試試          6 T5 W) ^' u( Q4 U# W

5 y# `; \  h9 H) e' I
8 G3 M2 \# n0 N- L0 W/ q% }
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基跨境 數位編輯創業論壇

GMT+8, 2025-6-24 07:20

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表