Wordpress 評論求教

顯示全部樓層 · 發表於 2013-9-13 17:45:16

月光飛燕發表於 2013-9-13 07:32 ' `3 O$ \* a/ k, i
這種評論真的沒有什麼價值啊，而且會k站的; K3 |& j/ j1 D8 D) U# v9 J( _: ?9 S
有3種可能，
P( C# m) ]# t第1是這些站的後台裡面直接添加的，使用xmlprc，說 ...

第二種比較有意思.
不過,首先得獲取相對應文章的ID,
評論那邊有個隱藏的input, comment_post_ID.
所以還是得先訪問頁面

顯示全部樓層 · 發表於 2013-9-13 18:02:14

luguokankan 發表於 2013-9-13 17:45
5 I H4 h$ h% N9 G: j第二種比較有意思.* f% E; l/ a' a
不過,首先得獲取相對應文章的ID,
+ a# E0 S# M, r( y評論那邊有個隱藏的input, comment_post_ID.

沒有實踐過，如果是你說的那樣，至少可以不去讀js和大量的頭像等
如果寬帶充足，問題不大

顯示全部樓層 · 發表於 2013-9-13 19:15:20

月光飛燕發表於 2013-9-13 18:02 ' F+ r$ o5 `' Y9 U: a3 k" }
沒有實踐過，如果是你說的那樣，至少可以不去讀js和大量的頭像等' K; `3 e0 e: k8 _8 ]+ b1 v; r* H
如果寬帶充足，問題不大

其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.

比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件.

這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js.

顯示全部樓層 · 發表於 2013-9-13 21:26:53

luguokankan 發表於 2013-9-13 17:45 ) T( y; [: D' y/ t
第二種比較有意思.8 o; z$ a0 ~& \6 A0 d, N+ M( O3 @; Y' |
不過,首先得獲取相對應文章的ID,
, Q: [2 j0 ^1 ~3 i9 s7 J評論那邊有個隱藏的input, comment_post_ID.

我覺得你的思路對路的，假如直接post到 wp-comment-post.php 的話，就給以繞過下載那個超大的網頁了。問題就是要弄個腳本拿到文章地址的文章ID，我們不可能一個個的去查文章ID的

顯示全部樓層 · 發表於 2013-9-14 07:06:17

HONG 發表於 2013-9-13 21:26
( t2 q. J7 i5 x9 n/ z我覺得你的思路對路的，假如直接post到 wp-comment-post.php 的話，就給以繞過下載那個超大的網頁了。問 ...

對啊,這個方法的局限就是你得先找到post id.

不過可以猜啊.

www.test.com/?p=xxx

你發header請求驗證頁面是否存在.

用header就避免了下載整個網頁了,對不對

那麼多spam, 肯定comment不需要管理, 猜對post id直接post到wp-comment-post.php

顯示全部樓層 · 發表於 2013-9-14 11:56:03

luguokankan 發表於 2013-9-14 07:06 7 t% e, ?% F) c0 a8 n
對啊,這個方法的局限就是你得先找到post id.4 Z7 K6 I- n g6 ? ]

/ u% C! E6 C0 z3 F不過可以猜啊.

嗯，對於 id在鏈接中的話，我們很容易用php 腳本拿到。但是，文章偽靜態了呢？比如這個
http://arcadegameworld.com/play/stone-age-mahjong-connect/

我對你說到的header 辦法不是很明白，能否明示。
或者請路過高人，加以指點：如何能夠用php 或者其他辦法通過博文地址拿到ID，比如上面這個地址。
關鍵是：有的博文很大很大，一般常規採集的函數 php file_get_contents 可能不好使。

今天，就在這裡碰碰運氣，看能否解決我的難題

顯示全部樓層 · 發表於 2013-9-14 12:21:55

本帖最後由 luguokankan 於 2013-9-14 12:23 編輯

HONG 發表於 2013-9-14 11:56
7 ]* [; S: l$ h3 y) V% z+ a7 i嗯，對於 id在鏈接中的話，我們很容易用php 腳本拿到。但是，文章偽靜態了呢？比如這個2 _: z* W8 X3 s0 y( R$ {1 X
http://arcadega ...

額,我說的是猜....

啟動了偽靜態, 比如: www.test.com/hello-world

你還是可以通過www.test.com/?p=1訪問的

至於header請求嘛, 你知道get, post吧? 你自己查下吧. 跟ping差不多吧.

之前比較懶,沒有動手測試. 現在給你看下header請求的結果

Screenshot from 2013-09-14 12:18:25.png

沒想到文章id直接在headers裡面.

我算半個高人吧

還有,我奉勸你別使用file_put_contents, 用php curl吧, 支持header請求

顯示全部樓層 · 發表於 2013-9-14 16:17:04

樓上高手，直接在header裡查id

顯示全部樓層 · 發表於 2013-9-14 17:23:29

luguokankan 發表於 2013-9-14 12:21 ( }% k* p: ^: }$ S# _: e
額,我說的是猜....
2 U/ ^( j' K* T% _1 e. U; D- E: ^ J3 [, O; k
啟動了偽靜態, 比如: www.test.com/hello-world

謝謝您，經過您的指點，我已近實驗成功了

顯示全部樓層 · 發表於 2013-9-14 17:32:20

HONG 發表於 2013-9-14 17:23
e, d9 W+ f9 t謝謝您，經過您的指點，我已近實驗成功了

做出來記得給我一份啊

		自動登錄	找回密碼
密碼			免费注册

Wordpress 評論求教

評分

評分