urllib库,是Python内置的http请求库,不需要额外安装,包含4个模块,前三个比较常用:
request:http请求模块,用来模拟发送请求,只需要传入url以及额外的参数,就可以模拟整个实现过程
error:异常处理模块
parse:用于编码、解析、合并url、参数等
robotparser:辨别Robot协议(爬虫协议/机器人协议/网络爬虫排除标准/Robots Exclusion protocol)。
robot.txt协议通常放在根目录下,告诉爬虫和搜索引擎那些页面可以抓取,哪些不可抓取。
# robot.txt大致格式 User-agent:* Disallow:/ Allow:/public/