过期域名预定抢注

 找回密碼
 免费注册

Wordpress 評論求教

  [複製鏈接]
發表於 2013-9-13 17:45:16 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 07:32 % P7 e1 ~5 \! g/ j' B& P' {5 j
這種評論真的沒有什麼價值啊,而且會k站的
; v  n5 {' c9 ]" U2 p有3種可能,# i# ~8 ]1 t* K3 g, g% r
第1是這些站的後台裡面直接添加的,使用xmlprc,說 ...

! e. o( C/ \# P 第二種比較有意思.
$ P3 T9 P& t( Q) g8 W0 J! w不過,首先得獲取相對應文章的ID,
+ Q* D5 }1 z- ~2 {1 ]. ]評論那邊有個隱藏的input, comment_post_ID.
1 P( B+ ]+ X9 w$ m" J( w* a所以還是得先訪問頁面
! U4 T1 p2 z0 g8 X! G' x% R$ ~3 t4 Q, c: O8 ]7 w8 x# a9 [

& Z/ j0 H  C* S; b* R- e: L
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 18:02:14 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45 ; i% ?2 w0 T& e
第二種比較有意思.1 B2 j7 M6 p* h+ K0 H2 e3 n
不過,首先得獲取相對應文章的ID,
9 t' I4 H6 G* [# o& S# o評論那邊有個隱藏的input, comment_post_ID.

) a) I  t7 f2 M) \  N8 [) g: m沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等* K( O" \$ ~# B0 o4 L, H
如果寬帶充足,問題不大
6 k& }, }3 D3 w5 W  K5 `$ U+ h1 `
: z. }; y4 T- ?: I/ A3 K; Y0 W. h7 d. E: D
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 19:15:20 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 18:02 # v9 ]* ]5 U* F
沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等1 o. i+ Q. b& x
如果寬帶充足,問題不大
7 E: s* M, V4 B2 F8 E0 E
其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.. R/ a7 g0 B# R8 T: F8 s" D, P( u

1 t' F, h! ^' T( Y5 V$ j! W* l1 `比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件.
3 ^' s8 X4 E2 U3 _: F) r1 x/ i! A2 t, ~9 X/ X& C% A
這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. - h8 W5 f- L( e/ m0 u; `+ B5 s
# O- i* |. W; @# E7 N, A
, g( }7 H3 N7 n0 q

" z" z& Q! f5 J5 t& M
9 c4 k8 E2 {# e5 x
3 ^6 e* t9 D- r0 V9 t+ m* r5 M& [
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-13 21:26:53 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45 - r2 X: p5 s/ o  }7 G" L) G* p
第二種比較有意思.+ k5 n- o. x, s& ?. w2 k% \5 J
不過,首先得獲取相對應文章的ID, 3 e; h  Q+ k4 S8 ]
評論那邊有個隱藏的input, comment_post_ID.
8 B% S/ H6 m7 z) Y
我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問題就是要弄個腳本拿到文章地址的 文章ID, 我們不可能一個個的去查文章ID的( x; j6 ]1 m/ R$ |- G. f" L+ @& Y4 G
0 T/ e( j+ l+ L- g$ Q* h
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 07:06:17 | 顯示全部樓層
HONG 發表於 2013-9-13 21:26 - s3 n5 S* W) p7 f$ c
我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問 ...
( l  ^" B* y0 p9 ]( {
對啊,這個方法的局限就是你得先找到post id.
5 h, E# q" G) s2 \; I; _* L. _! c* M. Z/ A8 Y. ?& q
不過可以猜啊.
6 i  y" f! _4 {2 R4 b' Y" g% awww.test.com/?p=xxx / O( j$ o) N- T# g) F9 Y6 E

5 T- f7 o# s  u5 D你發header請求驗證頁面是否存在.
3 H' r0 Y3 b5 D6 M. \% A: M  M
. p$ C; Z  ?& s5 s: ^' L用header就避免了下載整個網頁了,對不對 $ ~+ V# p  {, o$ W5 V4 p0 t

0 v! z  {6 l0 n& y; C. y# k$ Q, z那麼多spam, 肯定comment不需要管理, 猜對post id直接post到wp-comment-post.php
3 q- l& X! B( y. t" ]  y6 }% k9 K1 N0 c8 ~, o% `
/ X" }+ S& c2 r0 k$ C( H! i
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 11:56:03 | 顯示全部樓層
luguokankan 發表於 2013-9-14 07:06
% z4 V1 T! e- h7 z對啊,這個方法的局限就是你得先找到post id.5 n3 H0 C" _1 v8 S: ?
$ x5 C3 h8 L. b' G, T
不過可以猜啊.
1 F: l, w- |4 x& G5 [9 H& A
嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個3 z+ Q6 h1 m( T) Y% [
http://arcadegameworld.com/play/stone-age-mahjong-connect/
6 r0 n% Y$ A3 I9 {# Y. J0 L: D5 l& ]( n, {6 l/ h
我對你說到的header 辦法不是很明白,能否明示。& C( x# U: o0 q  G5 f6 e6 V
或者請路過高人,加以指點: 如何能夠用php 或者其他辦法通過博文地址拿到ID,比如上面這個地址。; g) F7 B7 U- W' Y5 K8 g
關鍵是: 有的博文很大很大, 一般常規採集的函數 php file_get_contents 可能不好使。
+ m) x/ I1 g4 x/ Y0 X. G1 A& M  k. Q! O" m7 l2 w
今天,就在這裡碰碰運氣,看能否解決我的難題 ! l/ \) G) d0 u

! {+ C7 k7 n4 j! e- O4 ]3 G8 u

; \, i1 v" Y8 w3 u% e
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 12:21:55 | 顯示全部樓層
本帖最後由 luguokankan 於 2013-9-14 12:23 編輯 4 M6 u( K7 }  ]  w
HONG 發表於 2013-9-14 11:56 ; }5 i" W$ E2 b8 ]
嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個
4 w: w3 ~* P3 Q+ Y" y, lhttp://arcadega ...
) L$ S2 t( ?3 o
額,我說的是猜....
+ X/ G9 j0 T/ }$ m; ~7 ?3 G
: |' \1 Y1 C0 f- A$ J2 J# D0 w啟動了偽靜態, 比如: www.test.com/hello-world
3 j* o3 k# }2 R; {0 Y. I: K. Z) M  C2 k9 t& u  B8 M
你還是可以通過www.test.com/?p=1訪問的
: A4 c  _# G2 r! ^8 X& \; e3 O$ d. I
至於header請求嘛,  你知道get, post吧?  你自己查下吧. 跟ping差不多吧.8 U3 |, `- x; x6 Z1 y

7 X1 _% P7 s5 i$ R" T- |之前比較懶,沒有動手測試. 現在給你看下header請求的結果
3 L8 q9 w8 C$ M0 ^. U/ E! c8 Q# D( Q* l; `, ]2 X; \
Screenshot from 2013-09-14 12:18:25.png 9 A0 {% `8 l: l/ G
, Z- \6 x! o# H) ]2 I( i
沒想到文章id直接在headers裡面. 我算半個高人吧 * z6 n1 q  S2 C" z3 D) P6 \

: X; X2 ~/ p4 Z% {3 T1 ]8 @  X# `% {/ i還有,我奉勸你別使用file_put_contents, 用php curl吧, 支持header請求  \. i5 w* H' j4 V

+ h! |, h/ L! G! k, `
, \+ j  w" v+ o& E; s; p# r
6 E9 o* o* i2 ?. A, ~) i9 s

評分

參與人數 1點點 +1 收起 理由
HONG + 1

查看全部評分

回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 16:17:04 | 顯示全部樓層
樓上高手,直接在header裡查id
* R/ k- |, d6 ]  |
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 17:23:29 | 顯示全部樓層
luguokankan 發表於 2013-9-14 12:21
' C& U* g$ g4 L額,我說的是猜....
3 X) W3 f) b! R2 P( L9 ~# a0 i# @0 ^8 S# a* c: |
啟動了偽靜態, 比如: www.test.com/hello-world
$ _  [/ G4 a* n' @3 o$ C
謝謝您,經過您的指點,我已近實驗成功了
: S3 N8 a$ }& ]( |; s& W
1 I3 t! h& f5 k# r
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 17:32:20 | 顯示全部樓層
HONG 發表於 2013-9-14 17:23
9 A" B8 d- N: u8 k3 ^  w) O' i+ s謝謝您,經過您的指點,我已近實驗成功了
' H2 N* R+ x) q7 ]6 s5 T
做出來記得給我一份啊 9 h$ [; ?0 n; X/ X" G
, }5 b. y- G$ z( v% C0 g

評分

參與人數 1點點 +1 收起 理由
HONG + 1 虽然你不缺分数,但我还是愿意给您,聊表心.

查看全部評分

回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基跨境 數位編輯創業論壇

GMT+8, 2025-6-26 14:31

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表