2、 端口字段
端口由包裹,并且中间全部是数字,故可构造如下正则进行提取:
<td>([0-9]+)</td>3、 位置字段
位置字段如下:
由 便签包裹,构造如下正则即可提取:
<a href="([>]*)>([<]*)
4、类型字段
类型字段如下:
由包裹,中间为字母,构造正则如下:
([A-Za-z]+)数据全部获取完之后,将其保存到文件中即可:
最后爬取的数据集如下图所示:
此次总共爬取了前面 5300 多条数据。
/4 小结/
本次任务主要爬取了代理网站上的代理数据。主要做了以下方面的工作:
1、学习 requests 库的使用以及爬虫程序的编写;
2、学习使用反爬虫技术手段,并在实际应用中应用这些技术,如代理池技术;
3、学习使用正则表达式,并通过正则表达式进行网页元素提取;
4、学习使用 beautifulsoup 库,并使用该库进行网页元素的提取。
Python爬虫是一项综合技能,在爬取网站的过程中能够学到很多知识,希望大家多多专研,需要代码的小伙伴,可以在[Python爬虫与数据挖掘]公众号后台回复“代理”二字,即可获取。