过期域名预定抢注

 找回密碼
 免费注册

Wordpress 評論求教

  [複製鏈接]
發表於 2013-9-13 17:45:16 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 07:32 ' `3 O$ \* a/ k, i
這種評論真的沒有什麼價值啊,而且會k站的; K3 |& j/ j1 D8 D) U# v9 J( _: ?9 S
有3種可能,
  P( C# m) ]# t第1是這些站的後台裡面直接添加的,使用xmlprc,說 ...

1 S( ~. b. H; N' H* o 第二種比較有意思., R; z7 p2 y( ]6 T4 S7 ?2 i
不過,首先得獲取相對應文章的ID,   j! W& d4 {+ @
評論那邊有個隱藏的input, comment_post_ID.
- ^2 u" Z4 f/ w; {$ x7 i( i所以還是得先訪問頁面1 ?. j- J9 j& r/ @6 @
$ p1 W5 ]) f( y/ q1 a
0 l% c9 }& }. n" i: }
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 18:02:14 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45
5 I  H4 h$ h% N9 G: j第二種比較有意思.* f% E; l/ a' a
不過,首先得獲取相對應文章的ID,
+ a# E0 S# M, r( y評論那邊有個隱藏的input, comment_post_ID.

+ \9 W" V' X$ x3 S沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等6 R3 h' Z9 G3 e& s/ b
如果寬帶充足,問題不大
. e2 C& @( E9 t* v- O
) |* G4 L' F7 ^4 o5 w* k: ^5 P) b/ h' \+ ]
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 19:15:20 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 18:02 ' F+ r$ o5 `' Y9 U: a3 k" }
沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等' K; `3 e0 e: k8 _8 ]+ b1 v; r* H
如果寬帶充足,問題不大
1 n1 E4 s7 b1 M9 W& a, o
其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.* {0 W3 x" W% \

) O+ [9 H$ _+ G7 B  ~- d4 m比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件.( P; R' i* r1 s9 W
- W2 z. R0 U5 p: t) ~! y
這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. . Z5 |# |3 k( A3 w; m, ^
8 l! }' E$ s! f# i
: `& l# U( u5 u; n0 `* V3 d

, n6 z% o3 S& N3 C" A: n( x
3 [* t7 M. H, ]$ B' w( t  C4 W- z- C' @  a7 Z# y4 g
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-13 21:26:53 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45 ) T( y; [: D' y/ t
第二種比較有意思.8 o; z$ a0 ~& \6 A0 d, N+ M( O3 @; Y' |
不過,首先得獲取相對應文章的ID,
, Q: [2 j0 ^1 ~3 i9 s7 J評論那邊有個隱藏的input, comment_post_ID.
' {& }" h, i/ a/ ^, i
我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問題就是要弄個腳本拿到文章地址的 文章ID, 我們不可能一個個的去查文章ID的
9 X- q( p7 w. D$ Z( C' J
/ Z9 _0 Y6 G, Z* Y1 w8 f, _/ Y5 c
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 07:06:17 | 顯示全部樓層
HONG 發表於 2013-9-13 21:26
( t2 q. J7 i5 x9 n/ z我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問 ...
4 Y& ?( u( X; f1 E+ y( D+ Z5 K
對啊,這個方法的局限就是你得先找到post id.; G  d2 h  c4 |) _! K4 x. e

7 S. ?. B8 L; X4 m- q不過可以猜啊.
3 v+ [/ i+ g$ ?5 E1 K! C$ }0 Gwww.test.com/?p=xxx 1 c8 ]9 `7 l2 |) [

6 `  y& [2 j$ v+ C( s% J- r你發header請求驗證頁面是否存在.+ a6 T+ X8 L9 B  q& t

2 b8 B+ p& w9 a  K/ m0 v用header就避免了下載整個網頁了,對不對
$ }& ^: d. K- e8 q# K6 c0 j' M9 l" n; j- H, G1 V' @, P7 S" E7 p5 n$ q
那麼多spam, 肯定comment不需要管理, 猜對post id直接post到wp-comment-post.php: `2 T/ J: s4 D

! O/ n! V6 }( S
# m7 r6 P9 J( t
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 11:56:03 | 顯示全部樓層
luguokankan 發表於 2013-9-14 07:06 7 t% e, ?% F) c0 a8 n
對啊,這個方法的局限就是你得先找到post id.4 Z7 K6 I- n  g6 ?  ]

/ u% C! E6 C0 z3 F不過可以猜啊.

9 E1 f3 W% _$ W) n7 r嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個1 e+ v+ Q8 p3 T
http://arcadegameworld.com/play/stone-age-mahjong-connect/
6 x7 O" i" {+ E7 \- m, [  m
' C) p& h# I/ A. R# A8 e我對你說到的header 辦法不是很明白,能否明示。
) h3 \: y) k+ K6 M- P& T或者請路過高人,加以指點: 如何能夠用php 或者其他辦法通過博文地址拿到ID,比如上面這個地址。
, V' t2 K! h. q) N/ I8 \% a關鍵是: 有的博文很大很大, 一般常規採集的函數 php file_get_contents 可能不好使。
$ A: p' N# H1 \' d* L0 }) L% Y
4 _: b' D8 |/ [: L今天,就在這裡碰碰運氣,看能否解決我的難題 " g; U) ~5 C+ O7 L& T

" I% e+ x. B# O' H6 V! R( {8 S* g- e# |* j
$ ]8 q- E3 }! b  @+ V+ J
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 12:21:55 | 顯示全部樓層
本帖最後由 luguokankan 於 2013-9-14 12:23 編輯
* Y7 _# P; s2 w) T" J
HONG 發表於 2013-9-14 11:56
7 ]* [; S: l$ h3 y) V% z+ a7 i嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個2 _: z* W8 X3 s0 y( R$ {1 X
http://arcadega ...

* ]- `% v' m  r1 b  Z額,我說的是猜....
4 U  G6 C5 ^0 v9 m; w9 p
* Y6 m8 y8 t" Q" |啟動了偽靜態, 比如: www.test.com/hello-world
+ b2 l3 r* d( ^/ h% {2 ]/ @; X
& K/ Z7 j; h2 m5 \- k3 }6 e你還是可以通過www.test.com/?p=1訪問的% k8 n: Y" `/ t( |9 q* h% |
( F0 M3 h$ r5 f" p" C  @* G* O( G8 k( v
至於header請求嘛,  你知道get, post吧?  你自己查下吧. 跟ping差不多吧., M" I3 `- w" N1 F9 @0 Y4 ~4 q

6 l3 r' E6 h( [7 n之前比較懶,沒有動手測試. 現在給你看下header請求的結果
8 a# }! \. E- X$ M2 i% i' d$ z
& l8 z6 v( I- r7 e# @+ P2 E, f Screenshot from 2013-09-14 12:18:25.png ) M+ v5 o9 b2 k" m/ @9 p: m

2 f5 J' f3 r# n! P1 i5 _0 Z5 }4 P# k沒想到文章id直接在headers裡面. 我算半個高人吧 ' g, j! k: U+ O- ]: u; m8 W! S* `
/ `8 f) e/ e$ }
還有,我奉勸你別使用file_put_contents, 用php curl吧, 支持header請求
* [0 w: g4 g2 [! w9 m9 p, |
+ m* o% }( Y% W" g! l
. [! ]" t: g. [" j% f9 c$ V; j4 V5 ^, c" e

評分

參與人數 1點點 +1 收起 理由
HONG + 1

查看全部評分

回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 16:17:04 | 顯示全部樓層
樓上高手,直接在header裡查id$ A$ R! Z3 S' j$ A& z8 z& [4 H
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 17:23:29 | 顯示全部樓層
luguokankan 發表於 2013-9-14 12:21 ( }% k* p: ^: }$ S# _: e
額,我說的是猜....
2 U/ ^( j' K* T% _1 e. U; D- E: ^  J3 [, O; k
啟動了偽靜態, 比如: www.test.com/hello-world
3 A' d5 n4 ~- `% j2 Z7 e
謝謝您,經過您的指點,我已近實驗成功了3 J# Q( s, S+ ?) j% ]- |9 d/ L

9 w( c, c) i4 @% N7 C5 ?" @# y+ }/ _% B
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 17:32:20 | 顯示全部樓層
HONG 發表於 2013-9-14 17:23
  e, d9 W+ f9 t謝謝您,經過您的指點,我已近實驗成功了
3 c$ r1 K$ f9 \: J5 ~
做出來記得給我一份啊 9 H, B/ U3 U1 O/ S$ a% o! u" X! A* H

' Y" o1 z! ?* B1 A

評分

參與人數 1點點 +1 收起 理由
HONG + 1 虽然你不缺分数,但我还是愿意给您,聊表心.

查看全部評分

回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2026-6-19 18:58

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表