过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來9 J4 y# I, l( @
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 ) u8 Y. [+ e" c& F% k
樓主,我只能分享這些了,只是產品的URL和URL中的product name
) c* i2 J3 o+ n- ~% V+ X5 D" e* P
求分享採集思路,貌似翻頁有最大限制,無法全部採集) f* t, J- Q3 I6 T  q

& w7 S! z) d) V" b  [7 o
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
* t4 g( J+ ^" p& z$ L) ?7 Z! o8 e; Blucene  是java的把? PHP 用不了把?
2 O: X0 {) [* G% u/ S
lucene是java的,我用.net,使用lucene.net,php我還不太懂了
( _- J: `( G6 e( r4 ]+ P; k. p& p' C0 q8 s$ R
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39 4 k* r$ [( u0 X  t" b
求分享採集思路,貌似翻頁有最大限制,無法全部採集
9 G% _. O: }" F0 g. j5 {
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。" a" P; A: W6 o1 d& C+ [0 S
! j  V; ?& R- F9 C( a0 i. j& R6 P
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34 7 P3 H! Y/ h4 k$ a* }
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...

% b. P( l4 R- {# {, @7 s  ], dsitemap贊一個,去試試         
8 K. V% U+ V2 N1 {* U) g
( j& M& P& I) ^4 S# Q
, A7 Z$ D0 y/ y/ `6 m
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-6-18 22:00

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表