PySpider爬取去哪儿攻略数据项目

日期：2021-08-26 栏目：程序人生浏览：次

点击WEB中的Create创建项目

PySpider爬取去哪儿攻略数据项目

填入相关项目名和其实爬取URL

PySpider爬取去哪儿攻略数据项目

创建后进入项目首页

PySpider爬取去哪儿攻略数据项目

右边 Handler 是pyspider的主类，整个爬虫一个Handler，其中可定义爬虫的爬取、解析、存储逻辑；crawl_config 中定义项目爬取配置；on_start() 爬取入口，通过调用 crawl() 方法新建爬取请求，第一个参数是爬取的URL，另外一个参数callback指定爬取成功后的解析方法，即index_page()。index_page() 接收Response参数，Response对接了pyquery，可直接调用doc()解析页面；detail_page() 方法接收Response参数，抓取详情页信息，不生成新的请求，对Response解析后以字典形式返回数据。

左边，上面绿色和灰色是运行参数内容，下面点击左边RUN按钮，运行项目，follow中是请求连接，点击连接右边运行三角，进入页面；html是源码；web是渲染页面； enable css selecter helper帮助进行css选择，在右边代码中选中doc方法引号中内容后，点击web窗口右上方箭头实现右边代码css选择替换；massage是页面信息。

点击run运行项目

PySpider爬取去哪儿攻略数据项目

发现follows中出现一条消息，点击follows

PySpider爬取去哪儿攻略数据项目

出现如下界面

PySpider爬取去哪儿攻略数据项目

点击三角运行符号，进入该界面

PySpider爬取去哪儿攻略数据项目

出现页面所有请求后，点击HTML显示源码，点击web展示页面，如果web窗口太小，可以通过开发者模式调整（尝试网上说的修改debug.min.css失败）

PySpider爬取去哪儿攻略数据项目

选择右边index_page()方法中的css选择器内容，点击左边enable css selecter helper然后选择对应元素，在3位置出现选择的元素后，点击右边箭头，对右边代码选中内容进行替换

PySpider爬取去哪儿攻略数据项目

再次点击左边run，follows变成10条选中css的请求连接。

PySpider爬取去哪儿攻略数据项目

要想选择多页，即实现自动翻页爬取，修改index_page()内容

@config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc('li > .tit > a').items(): self.crawl(each.attr.href, callback=self.detail_page) next=response.doc('.next').attr.href self.crawl(next,callback=self.index_page)

转载注明出处：https://www.heiqu.com/zyxjsp.html

PySpider爬取去哪儿攻略数据项目

相关推荐