过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
! x8 \; X% {# }3 L# z* V4 d
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 : \9 }( J5 R- K# a) T
樓主,我只能分享這些了,只是產品的URL和URL中的product name
0 w6 k  r: F1 t8 N
求分享採集思路,貌似翻頁有最大限制,無法全部採集
8 |9 G  {" e' L% p
) @  Y) ~* h$ s
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29 1 Z4 i2 m* M# E. b$ Z
lucene  是java的把? PHP 用不了把?

( q0 W" q( N8 U1 P" Mlucene是java的,我用.net,使用lucene.net,php我還不太懂了
$ ~7 Y5 p$ \+ U$ ], W+ t! T
. h: m2 X( }; x  E) J" Y) P9 m
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
9 s9 J7 K4 A; F$ E" `2 s求分享採集思路,貌似翻頁有最大限制,無法全部採集
3 H1 u) ]/ Z2 Y. P" T1 _/ w
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
" H( r/ ]6 h$ f5 A1 ?5 B
! `  E$ b; m0 {( [- B
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
6 ~5 c' J' y# p. e3 K( p, c7 V! Q" A兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
; \& E' ]' ^$ a! b. x0 h
sitemap贊一個,去試試          0 d$ i! n& _+ V: n. b! W

: \3 T# f% E6 F" c8 O- I! V8 g  M, r4 L% s
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基跨境 數位編輯創業論壇

GMT+8, 2025-5-11 23:30

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表