月光飛燕 發表於 2013-9-13 18:02 
" H! g, k3 {) S沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等; J9 s+ V& \5 ^6 x
如果寬帶充足,問題不大
( b+ ~0 Y" |" |5 w6 K+ A其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.+ E( s7 I. y+ l8 t- }. s
+ v$ [0 z- `$ ]3 L比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件./ c3 L; y4 C2 m1 C
/ ?) S) w/ r' e! K# I, t; u1 [8 Q
這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. 5 d/ T3 Q% i* E
! ~0 ?2 h( A1 K* E- m& R% d
" F7 ^+ f# Y+ g2 K" m& z
" R' P9 g: R) ]! t5 S, `9 I& D* \* E
, h$ V: } n, O- M# q: V, L3 c: B/ I& I' r& X( R. U, u2 F$ m2 m1 K7 L/ @+ k$ I
|