【测试说明】8 \! p, t; S. z/ n3 a: L+ I D
说明:$ O+ R8 Z) k! k3 {
采集插件是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。
6 E# B% @. f' |6 U3 W" a一、采集流程
, q! j2 u- d$ I: ~7 }- `' s) m
8 l) e8 w5 }8 k2 x& x简单的讲有三个步骤:& l% e$ i+ I* U% R4 Z7 x/ m' z
1、添加采集点,填写采集规则。
& ~5 M0 g+ W! `2、采集网址,采集内容; |1 D4 c& P8 n
3、发布内容到指定版块
( j9 X9 g D, |% I以采集某站未解之谜栏目(http://www.83133.com/weijiezhimi/list-199-2.html)为例,作一下详细流程介绍。
1 m% p0 i- Z& F. ]! H% H! B- F W+ |% f ` U1 s3 D
实例说明: ! {/ H8 p1 |0 g8 i" i8 `1 ~
目标:采集83133未解之谜数据到系统 默认版块 中。
( P0 I0 w& m* B* Y5 u2 Z% J目标网址:http://www.83133.com/weijiezhimi/list-199-2.html 0 ]) H* H3 i- H& N8 r: T
. O! A' b5 b8 e0 I4 P( @2 Q1、添加采集点$ T( M& l) G4 b6 `7 h
1.1 网址规则配置 v5 R0 Y/ D7 Q! ~* d
% N ~( R% X8 o5 G. M& \查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。
& }" O2 }# S# Y
8 Y9 _- @9 E3 H; E( R5 ~) A' G' w, \! c+ n) r0 {- D
测试你的网址采集规则是否正确,如下图所示
$ e5 _+ ?! R2 O# s. H
+ {' X- v" x& C2 I: | Y( K: m/ B; |) w
3 @% U2 F' h1 G' q; A( S0 }2 m$ x% J) h* Q) H$ b0 C: P& b
% B( V6 M& p0 K- V; E
7 I$ k5 _$ t5 I
1.2 内容规则配置 J* m' W' y" p+ R2 X4 O* p
标题采集配置:3 O+ j8 q9 u. T1 L# [
从网页<title></title>里取标题,并去除不需要的字符。如下图
9 @4 }6 I& v* |4 j7 N9 V6 n
6 h' ~+ g1 O) W! p: r) B
7 W# K" u5 B; S% j1 [6 i+ q, t
1 k; z+ g6 v) h. ~4 B8 q
$ @9 g( X+ `7 N7 R! w- A注: "[url=][内容][/url]"作为通配符 _百山探索 将会被替换为空 4 ~5 L4 `5 z; D$ x& j5 B1 q$ A
1 y. ~2 k9 E, U- }. V+ F4 o内容采集配置:1 k2 d4 ^* m3 ?
$ ^1 J9 j9 _; P/ G$ T/ V! y9 P- O `内容都包含在 <div class="art-main mt10" id="art_main"> </div> 之间,而且这个结点(id="art_main"),在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图
6 V# }! z) R) n注: 内容的a标签和链接将会被替换为空 ) P/ \4 P4 U6 `
1.3 高级设置
/ V3 e2 l: ?$ J$ b) D: w$ U- ]: T* w
可设置是否把图片下载到服务器上,是否打水印等配置。
: R, A7 Y* w9 T( h; l注:1.图片水印:图片路径相对于网站根目录;填写文字将使用文字水印 2.发帖用户ID:10,20,30,40,50 导入帖子的时候将随机取一个作为发帖人 3.发帖间隔时间: 例:1 ;如果写的 10 ,假如导入了3篇帖子 第一篇发帖时间为:2018-06-26 09:00:00 第二篇发帖时间为:2018-06-26 09:10:00 第二篇发帖时间为:2018-06-26 09:20:00 如果当前时间小于发帖时间,前台将暂时显示负数,直到当前时间大于发帖时间恢复正常 ; m6 C7 p1 \, G- [! q: y) k @
2、采集网址,采集内容采集规则配好以后,即可进行网址的采集,然后进行内容的采集。 3、发布内容到指定版块选择导入的版块 " _1 l' u( C. C; b
4、定时发布
8 p8 @+ f+ Q3 `5 q: Z4 g升级定时发布 发布时间示例: 10:00|10 16:30|5 20:45|2 注:每天上午10点发布10篇,下午16点30发布5篇,晚上20点45 发布2篇,根据计划任务设置会有响应的延迟 / Z$ x8 ~4 t0 B. o0 O, c- O0 O2 }
5、体验地址http://xiuno.swoole.net/ 账号:test 密码:123456
2 j/ V V0 B% ^, u6、计划任务发帖接口
1 a ]2 r3 m" g. m, ?2 }8 ?2 x5 rhttp://xx.com/skycollection-post.htm
3 s: C( U! R" M ~+ \
2 x) e# c1 S" q. }+ w x0 f! @7 g7 I/ {$ q/ g
0 o3 x+ r+ P( v6 @9 H 下载地址:【魔趣吧提示】此资源经过魔趣吧测试可用!如使用发现问题或者有技术问题,可 发帖 免费咨询或者咨询本站客服寻求付费技术支持! | Z+ c2 `8 ]' X) z' W1 A& F
- a6 G0 a! |4 @% h% v
下载地址:https://www.xiuno.top/thread-388.htm4 V/ Z" q# s% W- j
- ^5 {$ C+ F, h+ `
. W) d; ]3 j$ B u" g9 T [9 V% u5 e
; F: R$ v8 {$ S9 u8 t. W9 X |