过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
, f7 e' o- [, v) @' C
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42
( C0 D. L( Q+ J2 T+ i) c3 K樓主,我只能分享這些了,只是產品的URL和URL中的product name
# A1 E, B3 a7 Z9 b& }
求分享採集思路,貌似翻頁有最大限制,無法全部採集
" w$ @2 z# n: {
6 r: H8 _4 o) U+ c/ C
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
7 x- z& A. H  A/ |lucene  是java的把? PHP 用不了把?
# P% l. R' g' Y% D- O; i7 ?
lucene是java的,我用.net,使用lucene.net,php我還不太懂了
) i5 Z$ W: `4 Q0 H( t3 J4 a1 l" S% E! d% {
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39 # q9 }- H2 F' V1 f. S
求分享採集思路,貌似翻頁有最大限制,無法全部採集

" t+ ]1 ^+ @% p兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
# b! C1 h' w$ e. c& h( C6 p: g' ]5 D9 B
/ q0 r8 \4 P2 {8 u. o* \3 C  k
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34 9 A- C# g0 P  u$ }
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
( Y6 d: a: m% P3 r5 M
sitemap贊一個,去試試          3 I; P9 |6 y* ~) y4 F' ^4 N7 P

4 \9 G; _' j0 F, K3 k1 k# w0 D7 w5 ]6 t8 C$ p
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2026-2-3 09:39

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表