urllib库是Python内置的HTTP请求库,它包含了4个模块:
request:最基本的HTTP请求模块,用来模拟发送请求
error:异常处理模块。出现请求错误后,我们可以捕获异常,然后进行下一步的操作。
parse:工具模块。提供了很多URL处理方法。
robotparse:主要用来识网站的robots.text文件,用的比较少
1.发送请求urllib的request模块可以帮助我们方便的发送请求并得到响应。下面我们来看一下用法:
1.urlopen()urlopen()参数有url、data、timeout、context、cafile、capath、cadefault,我们只详细了解三个,他们比较重要:
url:要请求的网址
下面我们以Python官网为例,我们来把它抓取下来:
import urllib.request
response = urllib.request.urlopen("https://www.python.org/")
print(response)