手把手教你使用Python爬取西刺代理数据(下篇) (2)

file

2、 端口字段

file

端口由包裹,并且中间全部是数字,故可构造如下正则进行提取:

<td>([0-9]+)</td>

file

3、 位置字段

位置字段如下:

file

由 便签包裹,构造如下正则即可提取:

<a href="([>]*)>([<]*)

file

4、类型字段

类型字段如下:

file

由包裹,中间为字母,构造正则如下:

([A-Za-z]+)

file

数据全部获取完之后,将其保存到文件中即可:

file

最后爬取的数据集如下图所示:

file

此次总共爬取了前面 5300 多条数据。

/4 小结/

本次任务主要爬取了代理网站上的代理数据。主要做了以下方面的工作:

1、学习 requests 库的使用以及爬虫程序的编写;

2、学习使用反爬虫技术手段,并在实际应用中应用这些技术,如代理池技术;

3、学习使用正则表达式,并通过正则表达式进行网页元素提取;

4、学习使用 beautifulsoup 库,并使用该库进行网页元素的提取。

Python爬虫是一项综合技能,在爬取网站的过程中能够学到很多知识,希望大家多多专研,需要代码的小伙伴,可以在[Python爬虫与数据挖掘]公众号后台回复“代理”二字,即可获取。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzspfj.html