爬虫入门之handler与opener(三)

opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的模块构建好的opener

但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:

​ (1)使用相关的 Handler处理器 来创建特定功能的处理器对象;

​ (2)然后通过 urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;

​ (3)使用自定义的opener对象,调用open()方法发送请求。

如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示之后凡是调用urlopen,都将使用这个opener来打开

在urllib库中,给我们提供了一些Handler:HTTPHandler,HTTPSHandler,ProxyHandler,BaseHandler,AbstractHTTPHandler,FileHandler,FTPHandler,分别用于处理HTTP,HTTPS,Proxy代理等。

import urllib from urllib import request handers = urllib.request.HTTPSHandler() #构建一个HTTPHandler 处理器对象,支持处理HTTPS请求 hander = urllib.request.HTTPHandler() #构建一个HTTPHandler 处理器对象,支持处理HTTP请求 # 方式1 opener = urllib.request.build_opener(hander) #创建一个打开器 urllib.request.install_opener(opener) #安装一个全局的打开器(这一步可选不安装采用默认) request = urllib.request.Request("http://www.baidu.com/") response = opener.open(request) #opener打开请求 print(response.read().decode()) #方式2 response = urllib.request.urlopen('http://www.baidu.com') #urllib.request.urlopen() 特殊的opener print(response.read().decode())

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zywfzy.html