过期域名预定抢注

 找回密碼
 免费注册

Wordpress 評論求教

  [複製鏈接]
發表於 2013-9-13 17:45:16 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 07:32 * r) `* D6 a1 v" A7 j' S9 f& U' |2 e
這種評論真的沒有什麼價值啊,而且會k站的
2 |1 c# T  W4 m- u8 Z, k( y* L有3種可能,
! i& U) O+ y  S! V5 t+ S& t  d; O) u第1是這些站的後台裡面直接添加的,使用xmlprc,說 ...

# C3 k! M2 [5 [+ S; R) S) O1 G 第二種比較有意思.
" b- l; k" t% [( _2 n9 s不過,首先得獲取相對應文章的ID, : z# v' _( S. {* a3 t( {
評論那邊有個隱藏的input, comment_post_ID.' ?  @1 k- v  K2 Z, b
所以還是得先訪問頁面* L/ H3 Z( e( {8 Z4 V6 |

6 K) x& c- v' R4 |
! r) E) K* ^+ X# k% t* I
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 18:02:14 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45 3 m' H6 d  ?, s4 v8 h7 J2 @
第二種比較有意思.
  j; j' V: j$ U  v% Z( X9 V9 Q不過,首先得獲取相對應文章的ID, . i: e) S; A4 V+ T3 n
評論那邊有個隱藏的input, comment_post_ID.

  J6 q: q, h$ t/ F% ]8 m- i2 \& o沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等% h- R" r" `- e$ _% R
如果寬帶充足,問題不大0 y: ~/ X' Z) e
: z7 O0 n# d9 o) Y. |& K! `
! N9 X9 m/ P. s
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 19:15:20 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 18:02
" H! g, k3 {) S沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等; J9 s+ V& \5 ^6 x
如果寬帶充足,問題不大

( b+ ~0 Y" |" |5 w6 K+ A其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.+ E( s7 I. y+ l8 t- }. s

+ v$ [0 z- `$ ]3 L比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件./ c3 L; y4 C2 m1 C
/ ?) S) w/ r' e! K# I, t; u1 [8 Q
這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. 5 d/ T3 Q% i* E
! ~0 ?2 h( A1 K* E- m& R% d

" F7 ^+ f# Y+ g2 K" m& z
" R' P9 g: R) ]! t5 S, `9 I& D* \* E
, h$ V: }  n, O- M# q: V, L3 c: B/ I& I' r& X( R. U, u2 F$ m2 m1 K7 L/ @+ k$ I
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-13 21:26:53 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45
5 V: f" G: E9 X: P5 \6 S& {2 C9 e- {第二種比較有意思.* r" J0 D! |# O; Z. d& W
不過,首先得獲取相對應文章的ID, 9 [& D4 f, W# X3 ~! [  F0 M# v- \
評論那邊有個隱藏的input, comment_post_ID.
0 }8 P* k  j  h4 A9 g4 i+ Q/ Z
我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問題就是要弄個腳本拿到文章地址的 文章ID, 我們不可能一個個的去查文章ID的
( D% T. Z3 c% ?. ]- F, ^4 z- w. P* _- t: ]4 _' }
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 07:06:17 | 顯示全部樓層
HONG 發表於 2013-9-13 21:26
# S; u) K' {: Z. s4 u我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問 ...
1 [* @1 K6 }9 u  \* Q
對啊,這個方法的局限就是你得先找到post id.
5 F3 N" e% o' }" U& g2 {/ e9 ]% Q0 |# S3 v
不過可以猜啊.
, i+ {3 s8 M5 J( L$ w! {5 E2 \5 n! hwww.test.com/?p=xxx * q& j% V, S; v9 _

  J. b8 A- R. u& `  ^' S$ t5 k. v你發header請求驗證頁面是否存在.* r! f3 s) Q4 b$ k
  `; A5 X# E5 b4 R* r4 k
用header就避免了下載整個網頁了,對不對
( A  t% F. t  L8 I! s7 K5 a, M: L& {
* q& k" i: ~3 Q8 H$ Q那麼多spam, 肯定comment不需要管理, 猜對post id直接post到wp-comment-post.php
& M, Y' _8 J3 u1 {; g! k7 [, w1 \- g
5 e3 t+ p2 y" L1 y; K* J% v
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 11:56:03 | 顯示全部樓層
luguokankan 發表於 2013-9-14 07:06
8 \$ l) S! [4 |對啊,這個方法的局限就是你得先找到post id.6 N* c: X! v, P7 o3 ?7 w
9 ?; o& i0 y7 U
不過可以猜啊.

1 n. A; u: x( e" ~$ d8 Q1 p# Q: r嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個- ~! s5 {, ^- k! P1 j+ [1 v7 u  k
http://arcadegameworld.com/play/stone-age-mahjong-connect/, z# K) P' ~. j' _0 z' o) h& i, o
1 e9 @- ]6 i2 c; p% ]+ q( V. H9 p
我對你說到的header 辦法不是很明白,能否明示。6 k# ~9 M7 a/ u4 W; _
或者請路過高人,加以指點: 如何能夠用php 或者其他辦法通過博文地址拿到ID,比如上面這個地址。
3 X7 U8 e1 s2 y' C關鍵是: 有的博文很大很大, 一般常規採集的函數 php file_get_contents 可能不好使。
7 X# L& r1 o- d( `7 l5 _0 J2 V; I' D4 Z9 O2 x
今天,就在這裡碰碰運氣,看能否解決我的難題 ( V, {+ \6 f% I: A
7 D* R% @6 k$ A# o& `
" p" P1 r( _+ a9 C  b1 @9 a' L& ~0 y
/ ~& {8 Q3 w& s6 {- R9 h  u5 Y9 [8 V6 j
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 12:21:55 | 顯示全部樓層
本帖最後由 luguokankan 於 2013-9-14 12:23 編輯 % F. a3 `" b' l8 `/ m4 i
HONG 發表於 2013-9-14 11:56
4 a0 o) Z' c' t, y0 w嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個
1 `% D/ [7 K7 [http://arcadega ...
6 N1 H% a  h: l% W
額,我說的是猜....
$ v4 f) O! a/ j. I$ s7 c
. z: ]3 _9 t$ D3 ~. i啟動了偽靜態, 比如: www.test.com/hello-world4 N5 A3 ~/ ]) O8 W

2 I# h1 F% j! `4 `: w% |& Z# t3 e你還是可以通過www.test.com/?p=1訪問的: X: \& I. E4 g( C" c( d
  f  Z+ j) u5 w  i) F% [
至於header請求嘛,  你知道get, post吧?  你自己查下吧. 跟ping差不多吧.
: [3 z2 x$ `- ^4 a
! k: e% @7 f8 |9 t+ V) w: o之前比較懶,沒有動手測試. 現在給你看下header請求的結果
$ I3 N* c; j% d, x" o
. Y1 {2 d1 d* I( Z8 G Screenshot from 2013-09-14 12:18:25.png
' l+ _5 O; |0 M
; g6 C7 Q& C" y/ l) N沒想到文章id直接在headers裡面. 我算半個高人吧
5 G+ N6 u8 ]2 Y4 [
% n' M  T% Z# J$ j9 t3 r還有,我奉勸你別使用file_put_contents, 用php curl吧, 支持header請求
$ Q( W) @/ q8 _# T  p; @ 4 J$ X& j' d- U2 R, H
7 K- n! Z1 m- l9 x$ E4 O2 _+ {7 G! ^  f) c

: U# m& p9 U) W2 u. c& r

評分

參與人數 1點點 +1 收起 理由
HONG + 1

查看全部評分

回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 16:17:04 | 顯示全部樓層
樓上高手,直接在header裡查id
& }6 C, Z+ h( e- z+ C  p1 }+ `
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 17:23:29 | 顯示全部樓層
luguokankan 發表於 2013-9-14 12:21
# ~* H) R# S7 @, k& ~6 t4 M% R額,我說的是猜..... {7 ?2 V. N, W# d& q* F
( z0 X, Z7 B% z- K1 p- T7 ], f
啟動了偽靜態, 比如: www.test.com/hello-world
7 y- w$ z6 w5 Y. ~) y
謝謝您,經過您的指點,我已近實驗成功了2 X7 E2 T( o7 h' x4 n
% {, D( L" p) ]/ W& X/ H+ V( Q
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 17:32:20 | 顯示全部樓層
HONG 發表於 2013-9-14 17:23 & h4 w, g3 _' Z0 R- O2 N; W! |2 D, `
謝謝您,經過您的指點,我已近實驗成功了
, q# ?. C9 J& i, h
做出來記得給我一份啊
6 P, V( M; i6 h! y0 L# M& I1 h. P1 F) D4 e. R2 @

評分

參與人數 1點點 +1 收起 理由
HONG + 1 虽然你不缺分数,但我还是愿意给您,聊表心.

查看全部評分

回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2025-11-7 07:05

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表