过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來$ u" k. j2 Z3 J
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 $ o+ M, t! T2 \2 e  \
樓主,我只能分享這些了,只是產品的URL和URL中的product name

2 S/ Z0 |$ A4 u' K" d3 n2 R求分享採集思路,貌似翻頁有最大限制,無法全部採集
% u; K: u0 A( N% N* m/ }: `- w% x) T/ o& m/ X
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29 6 I% _2 @: S0 M0 @
lucene  是java的把? PHP 用不了把?
( g: n/ q7 m3 [/ h, V  j9 i
lucene是java的,我用.net,使用lucene.net,php我還不太懂了
! D1 I8 Y( u: X5 Q3 M% k; f; _5 @0 ]# T, N
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
- O  z8 x4 Z! y  {4 y求分享採集思路,貌似翻頁有最大限制,無法全部採集

  ~: Q8 o9 g3 |: I3 k兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
' Q3 Y& P' \2 q# p
+ u. U5 l5 `0 J# k" i
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
9 n" g' s% ?: {+ p/ c6 D& _兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
3 p2 v: f6 n4 S$ L# B
sitemap贊一個,去試試         
1 V  Y4 i( z# v3 c5 g# e
/ u! W: {  @0 c5 w9 f, E+ T7 \' l8 }  `& e" X% F
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-3-20 18:38

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表