【测试说明】
1 T C0 |+ r/ T8 n1 f' I: M说明:
( O! f8 s6 _! [+ u N. Q 采集插件是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。
8 H; W. G Y5 C: i: u一、采集流程
; | A3 h' L$ C& \; S6 P2 M) K# p& K4 Z/ i/ d1 I- M: U
简单的讲有三个步骤:6 u% i) D5 A% Y- Z
1、添加采集点,填写采集规则。
) P9 V1 o# D9 [2、采集网址,采集内容
3 M* J7 i# s+ D3、发布内容到指定版块
$ ?0 U+ x4 L4 J" j" P以采集某站未解之谜栏目(http://www.83133.com/weijiezhimi/list-199-2.html)为例,作一下详细流程介绍。 C: D' s/ G3 f. |
1 L4 G" e6 p8 p" V7 i/ z" D
实例说明:
' @0 p T3 t4 R& V5 X/ o目标:采集83133未解之谜数据到系统 默认版块 中。
5 O1 C9 D6 x5 N1 @6 {, E目标网址:http://www.83133.com/weijiezhimi/list-199-2.html 5 F& z0 b+ z; z$ ^' V: X
: E6 C6 b; O8 i1、添加采集点
8 m+ q8 Y7 }( w# ~1.1 网址规则配置
; s1 ]. p$ A1 D" A5 c
. u+ H5 x! h/ s0 D查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。
: }8 {& |8 v+ F" _
' p7 L3 \2 D9 b7 H; E* H
& m3 E" k4 N/ c6 r/ i7 ?" R" G. V测试你的网址采集规则是否正确,如下图所示
1 {* T, K9 d6 ~& x" {- R
* u$ M. w9 v- F N2 a& b& k2 u2 P4 f. w X3 [8 `
3 m+ K3 B+ ]! r( w& T
4 G0 |( P( Y0 X& p3 n. `9 n
: F5 _# e2 o- M. A0 l
* r1 A5 j$ d5 V1.2 内容规则配置 ^1 u5 c9 b8 T: J$ C% J% T1 c4 K
标题采集配置:! m; ]9 v4 V) g; W, z a
从网页<title></title>里取标题,并去除不需要的字符。如下图 5 t# }/ c, s) j3 b0 P" z
) F6 p" K# s8 P% `* e$ V9 d: S B6 N7 {( K1 }0 r3 ?, @2 @/ H9 m
9 v, J# k' e# ]( s9 m+ K
. S# T3 y# d5 x6 a- P$ I
注: "[url=][内容][/url]"作为通配符 _百山探索 将会被替换为空 4 g% D5 Q3 M5 T, F0 ~1 M( e
; c* f/ k% T0 T2 S2 ?3 x
内容采集配置:! l* M4 R; Z) V( x% Q! J4 b$ O1 p
1 {! n. ~. x4 h
内容都包含在 <div class="art-main mt10" id="art_main"> </div> 之间,而且这个结点(id="art_main"),在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图 # ~# }/ w/ C E6 e& R5 ~, @
注: 内容的a标签和链接将会被替换为空 5 a7 m! _; n" D1 v2 i/ l
1.3 高级设置# O% h. R4 P, H8 a, M
' K5 Z' F7 _7 T
可设置是否把图片下载到服务器上,是否打水印等配置。 X5 V& Y, Z8 z3 H/ Q" ?! }5 `2 L
注:1.图片水印:图片路径相对于网站根目录;填写文字将使用文字水印 2.发帖用户ID:10,20,30,40,50 导入帖子的时候将随机取一个作为发帖人 3.发帖间隔时间: 例:1 ;如果写的 10 ,假如导入了3篇帖子 第一篇发帖时间为:2018-06-26 09:00:00 第二篇发帖时间为:2018-06-26 09:10:00 第二篇发帖时间为:2018-06-26 09:20:00 如果当前时间小于发帖时间,前台将暂时显示负数,直到当前时间大于发帖时间恢复正常 ) `8 f8 g" n9 b! b, i; J
2、采集网址,采集内容采集规则配好以后,即可进行网址的采集,然后进行内容的采集。 3、发布内容到指定版块选择导入的版块
# d0 P1 w9 Z* H5 g: \ r2 S4、定时发布
, }7 C0 w( I& K- T! p8 g升级定时发布 发布时间示例: 10:00|10 16:30|5 20:45|2 注:每天上午10点发布10篇,下午16点30发布5篇,晚上20点45 发布2篇,根据计划任务设置会有响应的延迟 6 G& }& [% ~. k3 `: v' c
5、体验地址http://xiuno.swoole.net/ 账号:test 密码:123456 . B6 }9 K5 x4 w9 H5 P( |
6、计划任务发帖接口
f7 H+ D& b1 j3 ghttp://xx.com/skycollection-post.htm 3 p: q$ t, v; t' M8 {* [% `, `
! j6 z6 k1 f! q9 _ M q! v' V3 c8 x( F0 r
9 n5 I/ a v. W7 r0 k R 下载地址:【魔趣吧提示】此资源经过魔趣吧测试可用!如使用发现问题或者有技术问题,可 发帖 免费咨询或者咨询本站客服寻求付费技术支持! |
' s3 Q' N% G1 c8 Y0 |, L- b3 _ [/ s& T7 q1 `
下载地址:https://www.xiuno.top/thread-388.htm
! ~2 q9 b' j, R" F) g! L" o8 [7 E, }5 K- P
, J% [, \& r2 o
* p' S: v7 M3 m
# B( |, v) _, F) T& r. T |