过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來5 N  X/ B9 C8 n/ |2 K5 ^
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 9 P# X1 _9 f) A  n& U. _
樓主,我只能分享這些了,只是產品的URL和URL中的product name
; x+ H/ K* Z8 Z3 Y3 u: p
求分享採集思路,貌似翻頁有最大限制,無法全部採集4 z- M( W/ j5 n6 [7 I2 H
1 ^5 Q, f+ o; n" P, O- t
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29 & a# m7 g% i5 \
lucene  是java的把? PHP 用不了把?
6 R1 }3 q" _  D/ M* h# m0 [
lucene是java的,我用.net,使用lucene.net,php我還不太懂了
9 s. M8 ~1 |; g, }9 {3 p' w. |/ @" B( X( i- J- Z: E" i
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39 . B$ \# {  x/ A5 ~6 P) [; H# q
求分享採集思路,貌似翻頁有最大限制,無法全部採集
, Y5 Z7 Y" |4 @; C( U0 r- m6 _! {
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。8 G- ]2 S. v6 m8 F; a

( L% P' ]! {/ G+ {2 ~. b/ W
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
  z1 H$ ]( k7 N兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...

+ a; F" n8 T6 Lsitemap贊一個,去試試         
- I5 H$ ?+ N( p% Y+ x1 o) p$ a! y  G; X7 a
7 c) B/ C, J! K3 x+ v" q
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2025-11-5 03:57

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表