过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來/ Z- ^+ ?* k. a, Q0 |: B% P
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 6 F( z6 t- P. D, F) R: {% l+ T
樓主,我只能分享這些了,只是產品的URL和URL中的product name

5 W! u6 M* ?- E% s) ]! v求分享採集思路,貌似翻頁有最大限制,無法全部採集
* q) s" r0 i1 V9 n- e' ~+ [8 M2 w2 k" G8 Y  {$ x0 P7 ?
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29 8 |% b2 Y* s( ~# _0 f" U2 _0 F  k
lucene  是java的把? PHP 用不了把?
6 t" `% L5 ?% P% R$ ?. J
lucene是java的,我用.net,使用lucene.net,php我還不太懂了4 `. N' U6 m4 C; x$ P) v+ E

0 m' V9 S9 R' Q* `2 X4 H
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39 8 l" A2 ?( D7 [' F9 M
求分享採集思路,貌似翻頁有最大限制,無法全部採集

/ h- g+ j1 {! m# P% ^) R: D兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。' X5 s8 |5 e7 E9 g- p
/ X& D% {' K  S3 {
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34 " o- r, j- q5 ]3 L1 b% C
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
* {' R  w/ H: C/ c6 W2 ~' s
sitemap贊一個,去試試         
% T4 O& H' `( e5 e7 H/ `$ ^" ]$ d7 R  R+ v) O" {, X

8 u- d) U- N3 _3 N- o. O" N1 e
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基跨境 數位編輯創業論壇

GMT+8, 2025-8-20 13:22

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表