如何使用Scrapy 搭建一个爬虫项目

一、什么是Scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 [1]

二、为什么要使用Scrapy

和requests库对比

Requests Scrapy
功能库   框架  
并发性能不足,性能较差   并发性好,性能较高  
页面级别爬虫   网站级别爬虫  
重点在于页面下载   重点在于爬虫结构  
三、为什么Scrapy要使用命令行模式

命令行更容易实现自动化,适合脚本控制

实际上,Scrapy是给程序员用的,功能比界面更重要

四、Scrapy常用命令 命令 说明 命令行
startproject   创建一个新工程   scrapy startproject 工程名  
genspider   创建一个爬虫   scrapy genspider 爬虫名 目标网站  
crawl   运行一个爬虫   scrapy crawl 爬虫名  

注意:目标网站为去掉“.”之后的内容。

五、使用Scrapy步骤

安装scrapy ,进入cmd

pip install Scrapy

创建一个scrapy项目

scrapy startproject study_scrapy

如何使用Scrapy 搭建一个爬虫项目

首先进入这个目录,再创建一个爬虫(如:我爬取51job网站)

scrapy genspider Job51 51job.com

如何使用Scrapy 搭建一个爬虫项目

运行

scrapy crawl 爬虫名

如何使用Scrapy 搭建一个爬虫项目

至此如何使用Scrapy框架搭建一个爬虫就结束了。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyxzyz.html