玩爬虫,怎么能少了scrapy框架呢。scrapy框架被称为是复杂并好用的爬虫框架。
当初学框架的时候是一头雾水,一旦实战成功过后,感觉瞬间打通了任督二脉,很有成就感。
接下来,将对scrapy框架爬虫代码编写流程做简要说明:
目录 一、新建工程1、前提是:已经安装好了scrapy。安装方法网上也是很多了,不过多赘述。
2、打开电脑cmd命令窗口。
3、进入工程目录。
4、scrapy startproject project_name # project_name是自定义的工程文件名称。
二、新建spider1、cd project_name # 进入工程目录,进入后会发现其内部还有个project_name,另外还有其他配置文件。
2、生成spider文件(spider文件是用于解析网站数据的,解析出所需爬取的字段内容,或者所需爬取的url,返回给scrapy进行下载或存储)
scrapy genspider spider_name tingroom.com # spider_name是spider的名称,一个工程下面可以有多个spider;tingroom.com是要爬取的域名,spider只会爬取此域名下面的网站,其他的会被其过滤掉。
3、生成spider文件后,整个工程项目的文件就建立好了。代码编写好后,可以在工程目录里面,使用:scrapy crawl spider_name,进行运行scrapy爬虫代码。
4、如果想在pycharm里面运行spider代码,可以新建一个py文件,文件名自定义。
from scrapy.cmdline import execute execute([\'scrapy\', \'crawl\', \'tingroom\']) # 用于在pycharm里面调试scrapy,不用去命令窗口运行了