urllib库

urllib库,是Python内置的http请求库,不需要额外安装,包含4个模块,前三个比较常用:

request:http请求模块,用来模拟发送请求,只需要传入url以及额外的参数,就可以模拟整个实现过程

error:异常处理模块

parse:用于编码、解析、合并url、参数等

robotparser:辨别Robot协议(爬虫协议/机器人协议/网络爬虫排除标准/Robots Exclusion protocol)。
robot.txt协议通常放在根目录下,告诉爬虫和搜索引擎那些页面可以抓取,哪些不可抓取。

# robot.txt大致格式 User-agent:* Disallow:/ Allow:/public/

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgyzyd.html