过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
0 o) h! O' E% ], t6 v& l2 h: |: f
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 3 Q5 Q: b( z0 t& D: ]
樓主,我只能分享這些了,只是產品的URL和URL中的product name
3 y7 a' {# O4 p* Q( }2 x6 {* C  ?
求分享採集思路,貌似翻頁有最大限制,無法全部採集
+ V: Q7 A6 P* F$ D+ H/ Y; \8 f7 h# w6 U
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
8 |* @* A: w: R$ c: T% s8 {lucene  是java的把? PHP 用不了把?
: W3 Y+ _4 Z" h: o; f3 N% D
lucene是java的,我用.net,使用lucene.net,php我還不太懂了/ ^) `& S$ u/ P/ K
* D4 x( M( ^3 k- C9 `5 S0 h% o- ~# B
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
% Z: r' @' d0 Z( [2 [1 c# j求分享採集思路,貌似翻頁有最大限制,無法全部採集

$ n% F6 `8 ^3 \; G9 j) T, W4 Y兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
  `1 k! |' P2 k1 h, W& B  Q$ P" N( U" F7 W+ E% m7 ^
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
4 Q6 V# ^4 i  x! l兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
  c9 m1 J+ k+ K, R: H
sitemap贊一個,去試試          6 H3 s5 y: m' ]) v! c

0 K- D& c* s1 J  F9 q, Q& L, u7 q. N7 o  Z
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2026-6-18 20:43

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表