Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（二）(2)

日期：2020-06-02 栏目：程序人生浏览：次

这里应把”<!—文章块开始—>”作为匹配规则的开始部分，注意到这段代码中包含一段广告代码，需要采用过滤规则把其去除。经观察发现，这段JS广告代码是位于“<div class=”contentgg”>”和“</div>”之间的。因此，应在“过滤规则”中填写：“{dede:trim replace=’’}<div class=”contentgg”>(.*)</div>”{/dede:trim}。填写后，如（图23）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（二）

图23-开始部分的匹配规则及其过滤规则

（b）找到文章内容的结束部分，因为涉及到分页部分，所以应该选取分页结束的位置，如图24所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（二）

图24-文章内容的结束部分

这里应选取“<!—文章内分页结束-->”作为文章内容的结束部分，由于在选取的内容中又包含了一段JS代码，因此应再次使用过滤规则，把其去除。同时，考虑到本页没有涉及到分页，所以在分页代码中的<ul></ul>之间是空的。但是，如果页面包含分页的话，也是应该使用过滤规则去除的。此外，如果所设定的文章内容中，含有图片、链接等不希望被采集到的内容，也应该使用过滤规则一并去除掉。填写完成后，如（图25）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（二）