网络爬虫基础一

通用爬虫:指搜索引擎的爬虫

聚焦爬虫:指针对特定网站的爬虫

聚焦爬虫又可以分为大致3种:

累积式爬虫: 从开始到结束,一直不断爬取,过程中会进行去重操作;

增量式爬虫: 对已经下载的网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫;

深度爬虫: 不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web面;

requests模块的使用

说明:Requests是一个用于网络请求的第三方模块,继承了urllib的所有特性,但是其API比urllib容易使用,更符合操作习惯;

GET请求: import requests response = requests.get("http://www.baidu.com/") # 或者 response = requests.request("get", "http://www.baidu.com/")

参数:

headers:添加请求头,字典格式,默认的请求头为request库,容易被服务器反爬;

params:添加get参数;

cookies:添加cookies;

timeout:设置超时,默认180s,超时后报错;

import requests headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"} params = {'word':"huo"} response = requests.get("https://www.so.com/", headers=headers,params =params,timeout=5)

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpzzww.html