asp 采集程序常用函数分析(3)
四、删掉或修改获取的字符
将RsBK中的"BK(www.google)"换成"BK":
RsBK=replace(RsBK,"BK(www.google)","BK")
或者直接把"(www.google)"删掉:
RsBK=replace(RsBK,"(www.google)","")
好了,现在RsBK就变成了:"BK谷歌搜索引擎是个资源多多的站点……"了.
但是事实中,有些情况可能replace函数是不适应的,比如我们想把某个字符串里面的所有连接都去掉.连接可能包括很多种类型,replace只能替代其中特定的一个,我们不可能用一个又一个对应的replace函数来替换吧?
但可以使用正则表达式来代替此项工作。这里不细谈了。
(一)如何将对方网站的翻页也处理成我们自己的呢?
答案是:利用replace函数和页面参数的传递。
例如对方页面里含有这样的翻页代码:"<a href=2.htm>下一页</a>",我们可以先利用上面讲的内容,获取这个字符串,然后用replace函数:RsBK=replace(RsBK,"<a href=","<a href=page.asp?Url=")
然后再page.asp的程序里获取Url的参数值,最后用采集技术获取下一页你想要的内容就可以了。
(二)如何将获取的内容入库
由于篇幅有限,这里简单说一下.
其实很简单:
将偷来的内容作一下处理,防止在写入数据库的时候出现sql注入错误,例如:replace(String,"'","''")
然后执行一个插入数据库操作的sql命令就ok了~
以上只是一些关于XMLHTTP组件的初级应用,实际上它还能实现的功能还有很多,比如说保存远程图片到本地服务器上,配合adodb.stream组件可以把获取来的数据保存进数据库。采集的作用和使用范围都很广。
内容版权声明:除非注明,否则皆为本站原创文章。