过期域名预定抢注

 找回密碼
 免费注册

Wordpress 評論求教

  [複製鏈接]
發表於 2013-9-13 17:45:16 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 07:32
# K1 ^* u& @7 O2 ~4 ]" h- e這種評論真的沒有什麼價值啊,而且會k站的' m1 p" \6 }0 J; F0 k
有3種可能,
. @- B* a' F7 y- g第1是這些站的後台裡面直接添加的,使用xmlprc,說 ...

. X5 K0 C  j) ?6 z; d. ^, X 第二種比較有意思.. i" C0 K' K- ~+ F- r
不過,首先得獲取相對應文章的ID, - L9 Q1 G; E5 i( T! L
評論那邊有個隱藏的input, comment_post_ID.
2 o. W$ `7 V4 X所以還是得先訪問頁面. J( |) L; W1 I  Z
. g. F! w) s- P# U7 T4 @' @* T
  ~: C1 `: Q$ `0 s; N% o/ C
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 18:02:14 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45 9 e9 m) C4 ?- c+ I5 u. I. k
第二種比較有意思.
# X9 ~6 m: n% H2 N! r( ~' O不過,首先得獲取相對應文章的ID, 0 G) X* M  D5 v' U) R- n
評論那邊有個隱藏的input, comment_post_ID.
/ c( f) W; Q7 J) I2 a  f8 D) m- k
沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等
: S% D* f$ s" S; V+ I# v* [8 H- W如果寬帶充足,問題不大: E5 q$ s/ \$ `, e6 \

8 O, W: X8 J) \
) v& Q* g" \, ]/ y
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 19:15:20 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 18:02 3 z$ y, K8 T/ J1 B1 q" v
沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等3 S* q. D5 `; [- f. r; }
如果寬帶充足,問題不大
4 ?- N, E* B1 y* W. I) P3 d
其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.
: h2 Q- Y4 u6 M& p" [$ L8 }. j, C4 z- \0 z; s2 i5 F/ Q
比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件.
- @3 N0 a5 H4 R% @; e& d  Z7 L) T# F
這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. 8 s9 c8 n, i. Y  b* U/ T

# U' V  a3 A0 r4 X! b6 [; g. |2 ~: g6 l* e

4 Y* {4 z; ]- @! m' ]: {' J7 I% m8 G: o1 i7 z+ |

" d9 u" G2 F6 u6 T& G' ^
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-13 21:26:53 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45 : Q# P% p; f! ^
第二種比較有意思.
% k, J* x" X" o1 c7 I不過,首先得獲取相對應文章的ID, 3 m. X7 q- J; Q0 t2 ^: X
評論那邊有個隱藏的input, comment_post_ID.
3 i" a1 P& q0 W& Q
我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問題就是要弄個腳本拿到文章地址的 文章ID, 我們不可能一個個的去查文章ID的7 V4 n" `# W9 q( E% ?: b0 g* B
1 E; i: Y) a2 J" k
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 07:06:17 | 顯示全部樓層
HONG 發表於 2013-9-13 21:26 # K% X7 t2 Q- h+ U, V
我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問 ...
% B8 x. X, g: `5 r& B( g
對啊,這個方法的局限就是你得先找到post id.; V2 L. ^5 Y* A: g: P5 _
: t- Q$ Y! j, M; Q
不過可以猜啊. 6 p/ L, X3 K) B
www.test.com/?p=xxx
8 F* p9 T. m- ?' Y- Y, |$ p/ i5 s' l: c' ^/ e4 i' Q. e5 L# x7 o& j
你發header請求驗證頁面是否存在.
" }* _+ c9 `& I8 D
+ E1 W* z! ?' \$ X# U' z1 S3 g用header就避免了下載整個網頁了,對不對 5 e8 e! s0 O* M8 y8 B
- _! x. }: p' w& ]# f
那麼多spam, 肯定comment不需要管理, 猜對post id直接post到wp-comment-post.php
8 C# X9 f! M/ r- k5 Z# _, @5 X0 a
8 ~7 p( U) B* e- ]- j
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 11:56:03 | 顯示全部樓層
luguokankan 發表於 2013-9-14 07:06 0 u  p. N0 d( n: J" Y
對啊,這個方法的局限就是你得先找到post id.
  J, i2 D7 a0 e$ J& E8 x! n
. I( f$ T' ~) D不過可以猜啊.

( @0 \: A) Z7 J- ~7 Z嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個5 N1 k2 H7 P( {2 B  [
http://arcadegameworld.com/play/stone-age-mahjong-connect/1 I7 s. r; B$ C

1 S: [+ n5 Q" @1 m0 ]; z. P* f! O我對你說到的header 辦法不是很明白,能否明示。3 Z  U# r7 a2 [  ^. c. L
或者請路過高人,加以指點: 如何能夠用php 或者其他辦法通過博文地址拿到ID,比如上面這個地址。4 C% f' Y' G* B  C
關鍵是: 有的博文很大很大, 一般常規採集的函數 php file_get_contents 可能不好使。: T# n  {8 v7 {  |' [' _' }# N- E
5 l8 M% d! I  x: N7 c" o
今天,就在這裡碰碰運氣,看能否解決我的難題
$ f, B& N- [+ G. ]! b* \' V
' p0 D: H. n0 |4 I; a  ]& n; L# E* a& o; a
4 G4 R  i" V" E3 n+ [
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 12:21:55 | 顯示全部樓層
本帖最後由 luguokankan 於 2013-9-14 12:23 編輯
" ~8 t9 n0 @1 v- K6 S. U7 |
HONG 發表於 2013-9-14 11:56
; k  N/ T! p+ b5 E嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個0 w8 f5 l  T/ `; O
http://arcadega ...

# J9 M1 Y, C* }) t# z額,我說的是猜....
  J- s" R+ y1 |2 f) i9 @. T  R0 N5 s  H8 _& b& n2 ?- t3 H
啟動了偽靜態, 比如: www.test.com/hello-world5 E; E/ U( ]1 r5 r% c
+ x9 a3 c: R% m1 O0 q
你還是可以通過www.test.com/?p=1訪問的1 U5 o: N3 d1 c# {  X: T9 B& O
/ f  n. r7 r! n) [7 N
至於header請求嘛,  你知道get, post吧?  你自己查下吧. 跟ping差不多吧.
% g( ^& X- N0 s' m/ X1 A/ |
/ n( o9 c  |) c  ?# ~; J9 m( l之前比較懶,沒有動手測試. 現在給你看下header請求的結果' N- m! n5 u0 \4 E4 e; n
! }' B8 n0 ?+ r6 ~8 [
Screenshot from 2013-09-14 12:18:25.png : B* _+ h1 V1 G. `- ~" D
' G  S8 }: M% \# Z$ Q* V/ j
沒想到文章id直接在headers裡面. 我算半個高人吧 4 M, d: Y1 y# N) N6 y
- ~% s  o' g3 p* }# b# L
還有,我奉勸你別使用file_put_contents, 用php curl吧, 支持header請求
( X% R' D3 z/ U: h$ z' S& J
+ f, y! c5 x4 x0 u! K
+ v( ~' {8 Y$ U5 C
6 }8 H6 i  G" p7 h

評分

參與人數 1點點 +1 收起 理由
HONG + 1

查看全部評分

回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 16:17:04 | 顯示全部樓層
樓上高手,直接在header裡查id" ?; w$ `" z6 n' q
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 17:23:29 | 顯示全部樓層
luguokankan 發表於 2013-9-14 12:21 ; {- ^9 ~4 z# o% w. u5 W3 d5 \
額,我說的是猜....5 s  ^6 c% p) X3 h) O

" \' A* J6 Q4 }6 F啟動了偽靜態, 比如: www.test.com/hello-world

9 F/ O4 G4 V' `! _謝謝您,經過您的指點,我已近實驗成功了& o$ ]9 `7 v2 r) t) }6 S% k
4 C8 u" J8 E+ `+ A
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 17:32:20 | 顯示全部樓層
HONG 發表於 2013-9-14 17:23 4 L9 r  ]+ Z8 V6 V) X, U
謝謝您,經過您的指點,我已近實驗成功了

7 s5 @/ X  [, U7 d( }5 f做出來記得給我一份啊 ) z( A5 `8 x! C& F+ L% R# Y

7 A5 p4 [  t6 ~

評分

參與人數 1點點 +1 收起 理由
HONG + 1 虽然你不缺分数,但我还是愿意给您,聊表心.

查看全部評分

回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基跨境 數位編輯創業論壇

GMT+8, 2025-8-20 21:19

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表