总结,本文详细地叙述了如何采集一个含有分页的普通文章类型的页面,并简单地涉及到了过滤规则。对于采集更为复杂的普通文章类型的页面和使用过滤规则,将会在今后文章中介绍。
本文的采集规则:
{dede:listconfig} {dede:noteinfo notename="采集测试(二)" channelid="1" macthtype="string" refurl="" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /} {dede:listrule sourcetype="batch" rssurl="" regxurl="(*).html" startid="1" endid="1" addv="1" urlrule="area" musthas="" nothas="" listpic="1" usemore="0"} {dede:addurls}{/dede:addurls} {dede:batchrule}{/dede:batchrule} {dede:regxrule}{/dede:regxrule} {dede:areastart}<div class="list-cc">{/dede:areastart} {dede:areaend}</div>{/dede:areaend} {/dede:listrule} {/dede:listconfig} {dede:itemconfig} {dede:sppage sptype='full' srul='1' erul='5'}<div class="page next-page">[内容]</div>{/dede:sppage} {dede:previewurl}{/dede:previewurl} {dede:keywordtrim}{/dede:keywordtrim} {dede:descriptiontrim}{/dede:descriptiontrim} {dede:item field='title' value='' isunit='' isdown=''} {dede:match}<h1 class="title">[内容]</h1>{/dede:match} {dede:function}{/dede:function} {/dede:item}{dede:item field='writer' value='' isunit='' isdown=''} {dede:match}{/dede:match} {dede:function}{/dede:function} {/dede:item}{dede:item field='source' value='' isunit='' isdown=''} {dede:match}<span>来源:[内容]</span>{/dede:match} {dede:function}{/dede:function} {/dede:item}{dede:item field='pubdate' value='' isunit='' isdown=''} {dede:match}时间:[内容] <span>{/dede:match} {dede:function}{/dede:function} {/dede:item}{dede:item field='body' value='' isunit='1' isdown='1'} {dede:match}<!--文章块开始-->[内容]<!--文章内分页结束-->{/dede:match} {dede:trim replace=""}<div class="contentgg">(.*)</div>{/dede:trim} {dede:trim replace=""}<div align="center" >(.*)</div>{/dede:trim} {dede:trim replace=""}<div class="page next-page">(.*)</div>{/dede:trim} {dede:function}{/dede:function} {/dede:item} {/dede:itemconfig}