月光飛燕 發表於 2013-9-13 18:02 
, a7 _) l5 q6 p# }# {沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等+ F4 r. j0 v$ P! L" y3 I9 ^
如果寬帶充足,問題不大 1 T# Y7 E; P/ N, E+ n
其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.
% {: ?; r7 |& |4 K: B
0 o' I( D2 z, }4 n( @$ M1 M% C比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件.
2 [: _9 S6 F7 {( M# n) S' J2 _# p2 d2 @ n1 {. a
這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. ! C: K6 v2 F4 i
& ~, R& ?5 S p! s" J3 m
9 g& ~* W9 M5 o$ m; n( A* l% W3 a! {$ x4 J. W: l
- l, i0 e! x5 Z. q
6 d* X; ]0 j' o |