Tsys OkHtm.com修改版数据采集方法(2)


<a href="News.asp?id=2" target=_blank>新闻标题</a><br>
....省略
<a href="News.asp?id=50" target=_blank>新闻标题</a>
</td>
</tr>
</table>
    红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。

列表索引分页:

   (1)设置标签
列表索引页的部分代码如下:
<td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF="index_2.html">2</A> <A HREF="index_3.html">3</A> <A HREF="index_4.html">3</A><a href="index_2.html">下一页</a>
<a href="index_4.html">尾页</a> </td>
红色部分为分页开始/结束标记,只要这两个代码确定,不是不就可以确定“下一页”了?,剩下的交给程序来处理,有的填写:<A HREF="和">2</A>,这就错了,怎么错了自己想想。

   索引分页重定向:参考链接设置

(2)批量生成
   如有些列表是这种形式:
   第一页http://www.it.com.cn/news/cyxw/yejie/index_1.html
   第二页http://www.it.com.cn/news/cyxw/yejie/index_2.html
   第三页http://www.it.com.cn/news/cyxw/yejie/index_3.html

   那么可以这设置:{$ID}是必须的

   原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html

   生成范围:1--3

   结果程序会生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html

   http://www.it.com.cn/news/cyxw/yejie/index_2.html

   http://www.it.com.cn/news/cyxw/yejie/index_3.html

   这样的几个列表页面

   (3)手动添加

   输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。

(3)链接设置

   链接开始/结束标记:

   这里没设置好采集过程中可能会路途停止

   部分代码

<table width="98%" border="0" cellspacing="0" cellpadding="3">
<tr>
<td align="left" valign="top"><br>
<a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=1" target=_blank>新闻标题</a>
<a href="List.asp?type=Pc新闻">[Pc新闻]</a><a href="New.asp?id=2" target=_blank>新闻标题</a>
....省略
<a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=50" target=_blank>新闻标题</a>
</td>
</tr>
</table>
   红色部分为链接开始/结束标记,注意:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、Pc新闻一样)的,开始标记必须往前延伸,我以前做的3.62版的录像中开始标记是href=,这个只能用于新闻标题前面没有栏目链接的情况。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/3028.html