【测试说明】2 j1 A8 z& i. f* K) y* U* p
说明:/ H% i& |/ S1 U
采集插件是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。 ; v" v9 f' m2 K+ f2 N0 P
一、采集流程5 a6 `" u8 g2 W9 U& w" M
( v( R: m& J3 W/ U简单的讲有三个步骤:
0 T- N% T6 \0 A6 A1、添加采集点,填写采集规则。0 G6 h# c1 U" }, @: u5 T: t
2、采集网址,采集内容, E: z! o' j! r( ^* \) M
3、发布内容到指定版块
) c, B, e4 R) T+ c) s! j1 q+ |以采集某站未解之谜栏目(http://www.83133.com/weijiezhimi/list-199-2.html)为例,作一下详细流程介绍。 ) y: n( m5 R' @
6 \" t2 u3 X# K1 K实例说明:
8 z7 U* w L& ~0 Z目标:采集83133未解之谜数据到系统 默认版块 中。 0 T! G+ {3 [, H4 T( t H
目标网址:http://www.83133.com/weijiezhimi/list-199-2.html ) F' c0 ^4 p! r8 X2 ?
}& f& t3 d* w5 L6 p
1、添加采集点% G' |" m& h& C5 V( z9 J
1.1 网址规则配置
' B4 ~7 O; C' u! Y$ L3 @
' F C3 o1 O4 r) F; k& [( ?+ T- u查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。
, J+ E' P* N( E) W! c. r2 u& E4 c5 G. X' m9 O- w+ }+ C
+ m/ G2 ~/ O) u- |$ R6 J- l
测试你的网址采集规则是否正确,如下图所示
, o: i* n" f+ e$ Q' n; K: q6 z8 ~% @4 }5 G/ M: S) a
- ^2 X. j: [; e$ X; A
7 Z9 T3 B# R. f0 Y. j; s( t
% D4 J9 W$ j5 Y' D) U! j
0 J4 W, ]0 m7 @! L5 R. }# x
6 x0 y& k4 [9 L2 u& i1.2 内容规则配置 ! H5 ?- A" h! J, U2 v& [
标题采集配置:
7 Z% { F. |6 }# q3 s& B* Y8 ^( M从网页<title></title>里取标题,并去除不需要的字符。如下图 * V5 ^( L# Q0 s! f1 W
0 Q9 U$ H" f3 u+ y# ^- `, [
; `; b! X8 N) Q/ R4 W$ o+ M
8 H3 g. a* s, C
2 ?! h* t" q" H9 G7 h& Z: A
注: "[url=][内容][/url]"作为通配符 _百山探索 将会被替换为空 9 _! r: o7 u/ T$ T% `8 @
) S% V% ]7 s* l
内容采集配置:
8 R' L% X1 R# j& R7 R
9 k* T6 k4 s3 ]内容都包含在 <div class="art-main mt10" id="art_main"> </div> 之间,而且这个结点(id="art_main"),在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图
. p4 s, m: j8 l0 G3 m* j# k注: 内容的a标签和链接将会被替换为空 ) V% E5 k' F) F$ j* q0 R( V0 k3 h
1.3 高级设置
- p: e5 s4 A( }+ n. m# j+ c* m
4 n- S W, v+ r- k; _* @可设置是否把图片下载到服务器上,是否打水印等配置。
! M- [) r8 {$ i& C' X注:1.图片水印:图片路径相对于网站根目录;填写文字将使用文字水印 2.发帖用户ID:10,20,30,40,50 导入帖子的时候将随机取一个作为发帖人 3.发帖间隔时间: 例:1 ;如果写的 10 ,假如导入了3篇帖子 第一篇发帖时间为:2018-06-26 09:00:00 第二篇发帖时间为:2018-06-26 09:10:00 第二篇发帖时间为:2018-06-26 09:20:00 如果当前时间小于发帖时间,前台将暂时显示负数,直到当前时间大于发帖时间恢复正常 , c" X4 y4 G {8 }5 N# u/ p/ [
2、采集网址,采集内容采集规则配好以后,即可进行网址的采集,然后进行内容的采集。 3、发布内容到指定版块选择导入的版块
! f( b: c# D- h+ e8 M4、定时发布- | ?. ]1 S! ]3 @5 ~( q: X
升级定时发布 发布时间示例: 10:00|10 16:30|5 20:45|2 注:每天上午10点发布10篇,下午16点30发布5篇,晚上20点45 发布2篇,根据计划任务设置会有响应的延迟 / B b! C: m+ V5 y4 x
5、体验地址http://xiuno.swoole.net/ 账号:test 密码:123456 % k0 M {1 g1 x# ~# ?1 B
6、计划任务发帖接口
f* y, _. o: r! Z& nhttp://xx.com/skycollection-post.htm
* e5 d/ m7 q' o: T. Z! \ # }$ P8 ?( S9 U3 ]% Q1 }
- \" M5 W1 L9 n \3 r n) g) f8 ]/ R K1 L4 P0 O
下载地址:【魔趣吧提示】此资源经过魔趣吧测试可用!如使用发现问题或者有技术问题,可 发帖 免费咨询或者咨询本站客服寻求付费技术支持! |
# h; ?* H1 }9 |9 z
" H% b# B/ [, p0 L5 D5 I5 h' O- A下载地址:https://www.xiuno.top/thread-388.htm
+ G' [# Z' o- [- i. T+ k# D5 R k
8 H/ ?: T D( S$ [ H( c3 [ |8 U- {( H3 t- o+ K; I5 e
. l/ D' T9 j3 C
: U6 ]3 X# G1 x5 v* Y7 Q5 h |