过期域名预定抢注

 找回密碼
 免费注册

Wordpress 評論求教

  [複製鏈接]
發表於 2013-9-13 17:45:16 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 07:32 % ~% V+ |; e/ S5 ~# X, Z" O
這種評論真的沒有什麼價值啊,而且會k站的
" [; [+ A0 H2 p有3種可能,
0 b2 [2 z8 {- H& M第1是這些站的後台裡面直接添加的,使用xmlprc,說 ...
/ @! L; |% K( P4 r
第二種比較有意思./ D* x- b! k6 k* k3 h
不過,首先得獲取相對應文章的ID, 0 E+ Q# Z/ ^' O+ C: n" m
評論那邊有個隱藏的input, comment_post_ID.; e! ?% O8 [! S# Z& t: @
所以還是得先訪問頁面
% \+ i7 o: Z0 B# L" I6 z5 |5 i6 G  V2 _3 ~  Y3 q

; _5 l& I# c+ P* ], C
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 18:02:14 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45
5 x$ m+ M' M; Y第二種比較有意思.
; `, E1 t6 f: W2 R9 N5 `+ r不過,首先得獲取相對應文章的ID,
1 w7 e! S( g3 ^" |) D評論那邊有個隱藏的input, comment_post_ID.
1 k, B# T  ~9 B- h) B% W1 S/ n$ t
沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等
) Q7 V- ]) d7 A& |7 @如果寬帶充足,問題不大. r# [6 O' `# }3 e
; Z$ l' |7 R$ M: N6 Q, m/ x

! d2 Y4 J) `" S2 S7 Y9 E7 Z
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 19:15:20 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 18:02
, a7 _) l5 q6 p# }# {沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等+ F4 r. j0 v$ P! L" y3 I9 ^
如果寬帶充足,問題不大
1 T# Y7 E; P/ N, E+ n
其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.
% {: ?; r7 |& |4 K: B
0 o' I( D2 z, }4 n( @$ M1 M% C比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件.
2 [: _9 S6 F7 {( M# n) S' J2 _# p2 d2 @  n1 {. a
這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. ! C: K6 v2 F4 i
& ~, R& ?5 S  p! s" J3 m

9 g& ~* W9 M5 o$ m; n( A* l% W3 a! {$ x4 J. W: l

- l, i0 e! x5 Z. q
6 d* X; ]0 j' o
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-13 21:26:53 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45 , O' c6 y+ _9 Y4 m
第二種比較有意思.: \1 U" Q$ ?/ ?
不過,首先得獲取相對應文章的ID,
8 w6 ~/ h: p0 d# n評論那邊有個隱藏的input, comment_post_ID.

, I' h2 v! |$ ?( O: x1 T我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問題就是要弄個腳本拿到文章地址的 文章ID, 我們不可能一個個的去查文章ID的( V% X3 b+ [- @" F4 M* S/ x
/ K0 D9 L# l7 _6 X3 P8 R: Y
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 07:06:17 | 顯示全部樓層
HONG 發表於 2013-9-13 21:26 . Z7 D- A" |3 v
我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問 ...

3 H6 R# _6 \6 ?對啊,這個方法的局限就是你得先找到post id.. U5 `4 |- A  H. M- N2 x( H. X
, F$ p9 H$ `8 G6 C7 c0 x7 j6 G
不過可以猜啊. 2 J1 g9 s* E7 Q( ~, N
www.test.com/?p=xxx - |2 `/ ?8 {& ?" |" ?  y5 v

) N2 {* j& |% w6 Q9 [你發header請求驗證頁面是否存在.  x" a7 M3 ?$ u+ e

3 E1 T! ?+ |7 M/ I* X" l* \用header就避免了下載整個網頁了,對不對
: v7 @4 T, W2 l) e# V- T: ?% W, E* I$ P5 p, ]+ F9 F3 L3 D/ N. L
那麼多spam, 肯定comment不需要管理, 猜對post id直接post到wp-comment-post.php
# _  D' |, _# u. ^/ _7 I* N; o0 x/ n8 u2 m% z. G, |0 v

1 R  h( g7 N. u& Z% i' [0 N
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 11:56:03 | 顯示全部樓層
luguokankan 發表於 2013-9-14 07:06
3 Y( p  X/ E* @1 ]0 _對啊,這個方法的局限就是你得先找到post id.
; Q$ r; X% V, [2 s5 l
- g# W7 L3 a( b  `; k7 R3 H( O7 r不過可以猜啊.

8 l! B% L  p: o嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個% F4 w- j& {! x. U/ L' g( D
http://arcadegameworld.com/play/stone-age-mahjong-connect/
$ }. e- _9 z. U, O& E2 I
5 e+ ]2 a; b* K( `) ?+ A7 i我對你說到的header 辦法不是很明白,能否明示。
1 [5 m2 l  M$ q9 V/ @* I或者請路過高人,加以指點: 如何能夠用php 或者其他辦法通過博文地址拿到ID,比如上面這個地址。, R8 }- M4 h' j; B: \
關鍵是: 有的博文很大很大, 一般常規採集的函數 php file_get_contents 可能不好使。6 a# B+ T8 V- H$ K- f

, F0 Y  f4 {; h0 k% D. v- w$ f. f今天,就在這裡碰碰運氣,看能否解決我的難題 + ~& @8 Y. I+ G6 p
/ Y" t* u* ^# I- N& j4 E/ y
- u: U, j! F7 ?5 s0 i% M6 `3 h

; l9 m$ m0 ]' V3 w
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 12:21:55 | 顯示全部樓層
本帖最後由 luguokankan 於 2013-9-14 12:23 編輯 1 q; N- @7 \& n: O0 B/ K0 N
HONG 發表於 2013-9-14 11:56 & k  w4 x! W& [7 D3 w' X" f
嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個; z+ v) |$ L: f- |- O
http://arcadega ...

0 i5 |# m$ J' a額,我說的是猜...., x: E& A: O3 I0 i. E3 r! ?/ w

! t# W+ W0 A- i6 r1 L. {; Y9 Y; e啟動了偽靜態, 比如: www.test.com/hello-world; G5 R& u4 v, B$ c4 p+ s

# S* R: x) b+ Y你還是可以通過www.test.com/?p=1訪問的
: m7 _' ?; ?  J" f- ?" V6 N1 p8 U- a% N6 I% N4 A+ x& r; k
至於header請求嘛,  你知道get, post吧?  你自己查下吧. 跟ping差不多吧./ m: r; s  `) |

/ u2 @3 X* G* B2 R6 w之前比較懶,沒有動手測試. 現在給你看下header請求的結果
( R2 l8 }- w( K: M( Z  P
8 h8 t- ~* n# V) j1 S; |8 n" H Screenshot from 2013-09-14 12:18:25.png 5 L2 P5 }& H+ `0 D8 x

" m, v$ b; c% Q$ R8 L沒想到文章id直接在headers裡面. 我算半個高人吧 7 {# `/ P  L# S& y

# U! s3 O9 t) J# j2 @還有,我奉勸你別使用file_put_contents, 用php curl吧, 支持header請求9 F9 E3 E& J2 m2 V
# m! i2 @$ q+ y: ?

/ A+ B  L# i1 j" m* d0 \7 d: k4 i" {. B

評分

參與人數 1點點 +1 收起 理由
HONG + 1

查看全部評分

回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 16:17:04 | 顯示全部樓層
樓上高手,直接在header裡查id! E$ R- g2 a) L
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 17:23:29 | 顯示全部樓層
luguokankan 發表於 2013-9-14 12:21 $ H  ^: a; a# p  s
額,我說的是猜....
4 ]9 R2 N# ?* z* L- |2 L
' q) K+ T' G7 s: p! L啟動了偽靜態, 比如: www.test.com/hello-world

0 H7 W* ?6 `1 w  W5 n" m7 o謝謝您,經過您的指點,我已近實驗成功了4 G( `+ Y8 ^+ Q, U1 w9 \

. Y+ k3 k7 ?/ v% }* }
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 17:32:20 | 顯示全部樓層
HONG 發表於 2013-9-14 17:23 ' E4 \8 K/ O: }( |4 z
謝謝您,經過您的指點,我已近實驗成功了
6 g5 i, k  q% p+ C/ j
做出來記得給我一份啊 & w* {, z0 m7 ^

( w. }' X  u, k3 S3 X9 E/ J

評分

參與人數 1點點 +1 收起 理由
HONG + 1 虽然你不缺分数,但我还是愿意给您,聊表心.

查看全部評分

回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-2-4 18:18

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表