Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(二)(2)

这里应选取“<!—文章内分页结束-->”作为文章内容的结束部分,由于在选取的内容中又包含了一段JS代码,因此应再次使用过滤规则,把其去除。同时,考虑到本页没有涉及到分页,所以在分页代码中的<ul></ul>之间是空的。但是,如果页面包含分页的话,也是应该使用过滤规则去除的。此外,如果所设定的文章内容中,含有图片、链接等不希望被采集到的内容,也应该使用过滤规则一并去除掉。填写完成后,如(图25)所示,

Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(二)

图25-文章内容的匹配规则

到这里,“新增采集节点:第二步设置内容字段获取规则”,就设置完成了。来看一下整个配置页面,如(图26)所示,

Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(二)

图26-设置后的新增采集节点:第二步设置内容字段获取规则

检查无误后,单击“保存配置并预览”。如果之前设置正确,单击后,将会进入“新增采集节点:测试内容字段设置”页面并看到相应的文章内容。如(图27)和(图28)所示,

Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(二)

图27-新增采集节点:测试内容字段设置

Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(二)

图28-新增采集节点:测试内容字段设置

其中,图中画圈的地方代表的是分页符号。

确定正确无误后,如果单击“仅保存”,系统将会提示“成功保存配置“并返回”采集节点管理“界面;如果单击“保存并开始采集“,将会进入”采集指定节点“界面。否则,请单击“返回上一步进行修改”。

关于第二节的介绍就到这里。下面进入第三节。。。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/4ab9f4f53ac744e50c8b33c14a279ed3.html