不知道大家在访问网站的时候有没有遇到过这样的状况就是被访问的网站会给出一个提示,提示的显示是“访问频率太高”,如果在想进行访问那么必须要等一会或者是对方会给出一个验证码使用验证码对被访问的网站进行解封。之所以会有这样的提示是因为我们所要爬取或者访问的网站设置了反爬虫机制,比如使用同一个IP频繁的请求网页的次数过多的时候,服务器由于反爬虫机制的指令从而选择拒绝服务,这种情况单单依靠解封是比较难处理的,所以一个解决的方法就是伪装本机的IP地址去访问或者爬取网页,也就是我们今天所有跟大家所说的代理IP
目前网上有许多代理ip,有免费的也有付费的,例如西刺代理等,免费的虽然不用花钱但有效的代理很少且不稳定,付费的可能会好一点,比如说犀牛在线代理 下面讲一下代理IP的试用,将可用ip存入MongoDB,方便下次取出。
运行平台:Windows
Python版本:Python3.6
IDE: Sublime Text
其他:Chrome浏览器
简述流程为:
步骤1:了解requests代理如何使用
步骤2:从代理网页爬取到ip和端口
步骤3:检测爬取到的ip是否可用
步骤4:将爬取的可用代理存入MongoDB
步骤5:从存入可用ip的数据库里随机抽取一个ip,测试成功后返回
对于requests来说,代理的设置比较简单,只需要传入proxies参数即可。
不过需要注意的是,这里我是在本机安装了抓包工具Fiddler,并用它在本地端口8888创建了一个HTTP代理服务(用Chrome插件SwitchyOmega),即代理服务为:127.0.0.1:8888,我们只要设置好这个代理,就可以成功将本机ip切换成代理软件连接的服务器ip了。