scrapy爬虫下载音频文件并储存到本地

玩爬虫,怎么能少了scrapy框架呢。scrapy框架被称为是复杂并好用的爬虫框架。

当初学框架的时候是一头雾水,一旦实战成功过后,感觉瞬间打通了任督二脉,很有成就感。

接下来,将对scrapy框架爬虫代码编写流程做简要说明:

 目录

一、新建工程

1、前提是:已经安装好了scrapy。安装方法网上也是很多了,不过多赘述。

2、打开电脑cmd命令窗口。

3、进入工程目录。

4、scrapy startproject project_name  # project_name是自定义的工程文件名称。

二、新建spider

1、cd project_name  # 进入工程目录,进入后会发现其内部还有个project_name,另外还有其他配置文件。

2、生成spider文件(spider文件是用于解析网站数据的,解析出所需爬取的字段内容,或者所需爬取的url,返回给scrapy进行下载或存储)

scrapy genspider spider_name tingroom.com  # spider_name是spider的名称,一个工程下面可以有多个spider;tingroom.com是要爬取的域名,spider只会爬取此域名下面的网站,其他的会被其过滤掉。

3、生成spider文件后,整个工程项目的文件就建立好了。代码编写好后,可以在工程目录里面,使用:scrapy crawl spider_name,进行运行scrapy爬虫代码。

4、如果想在pycharm里面运行spider代码,可以新建一个py文件,文件名自定义。

from scrapy.cmdline import execute execute([\'scrapy\', \'crawl\', \'tingroom\']) # 用于在pycharm里面调试scrapy,不用去命令窗口运行了

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzwjxd.html