Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集(三)(2)

总结,本文详细地叙述了如何采集一个含有分页的普通文章类型的页面,并简单地涉及到了过滤规则。对于采集更为复杂的普通文章类型的页面和使用过滤规则,将会在今后文章中介绍。

本文的采集规则:

{dede:listconfig}
{dede:noteinfo notename="采集测试(二)" channelid="1" macthtype="string"
    refurl="" sourcelang="gb2312" cosort="asc"
  isref="no" exptime="10" usemore="0" /}
{dede:listrule sourcetype="batch" rssurl="" regxurl="(*).html"
startid="1" endid="1" addv="1" urlrule="area" musthas=""
 nothas="" listpic="1" usemore="0"}
    {dede:addurls}{/dede:addurls}
    {dede:batchrule}{/dede:batchrule}
    {dede:regxrule}{/dede:regxrule}
    {dede:areastart}<div class="list-cc">{/dede:areastart}
    {dede:areaend}</div>{/dede:areaend}
{/dede:listrule}

{/dede:listconfig}

{dede:itemconfig}
{dede:sppage sptype='full' srul='1' erul='5'}<div class="page next-page">[内容]</div>{/dede:sppage}
{dede:previewurl}{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:descriptiontrim}{/dede:descriptiontrim}
{dede:item field='title' value='' isunit='' isdown=''}
   {dede:match}<h1 class="title">[内容]</h1>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='writer' value='' isunit='' isdown=''}
   {dede:match}{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='source' value='' isunit='' isdown=''}
   {dede:match}<span>来源:[内容]</span>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='pubdate' value='' isunit='' isdown=''}
   {dede:match}时间:[内容]  <span>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='body' value='' isunit='1' isdown='1'}
   {dede:match}<!--文章块开始-->[内容]<!--文章内分页结束-->{/dede:match}
   {dede:trim replace=""}<div class="contentgg">(.*)</div>{/dede:trim}
{dede:trim replace=""}<div align="center" style="padding-top:20px;">(.*)</div>{/dede:trim}
{dede:trim replace=""}<div class="page next-page">(.*)</div>{/dede:trim}
   {dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/294fc60686c44f2e99ffde7bb0253c43.html