月光飛燕 發表於 2013-9-13 18:02 3 z$ y, K8 T/ J1 B1 q" v
沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等3 S* q. D5 `; [- f. r; }
如果寬帶充足,問題不大 4 ?- N, E* B1 y* W. I) P3 d
其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.
: h2 Q- Y4 u6 M& p" [$ L8 }. j, C4 z- \0 z; s2 i5 F/ Q
比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件.
- @3 N0 a5 H4 R% @; e& d Z7 L) T# F
這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. 8 s9 c8 n, i. Y b* U/ T
# U' V a3 A0 r4 X! b6 [; g. |2 ~: g6 l* e
4 Y* {4 z; ]- @! m' ]: {' J7 I% m8 G: o1 i7 z+ |
" d9 u" G2 F6 u6 T& G' ^ |