手把手教你使用Python爬取西刺代理数据（下篇） (2)

日期：2022-07-02 栏目：程序人生浏览：次

file

2、端口字段

file

端口由包裹，并且中间全部是数字，故可构造如下正则进行提取：

file

3、位置字段

位置字段如下：

file

由便签包裹，构造如下正则即可提取：

<a href="([>]*)>([<]*)

file

4、类型字段

类型字段如下：

file

由包裹，中间为字母，构造正则如下：

([A-Za-z]+)

file

数据全部获取完之后，将其保存到文件中即可：

file

最后爬取的数据集如下图所示:

file

此次总共爬取了前面 5300 多条数据。

/4 小结/

本次任务主要爬取了代理网站上的代理数据。主要做了以下方面的工作：

1、学习 requests 库的使用以及爬虫程序的编写；

2、学习使用反爬虫技术手段，并在实际应用中应用这些技术，如代理池技术；

3、学习使用正则表达式，并通过正则表达式进行网页元素提取；

4、学习使用 beautifulsoup 库，并使用该库进行网页元素的提取。

Python爬虫是一项综合技能，在爬取网站的过程中能够学到很多知识，希望大家多多专研，需要代码的小伙伴，可以在[Python爬虫与数据挖掘]公众号后台回复“代理”二字，即可获取。