scrapy爬虫下载音频文件并储存到本地

日期：2022-03-14 栏目：程序人生浏览：次

玩爬虫，怎么能少了scrapy框架呢。scrapy框架被称为是复杂并好用的爬虫框架。

当初学框架的时候是一头雾水，一旦实战成功过后，感觉瞬间打通了任督二脉，很有成就感。

接下来，将对scrapy框架爬虫代码编写流程做简要说明：

一、新建工程

1、前提是：已经安装好了scrapy。安装方法网上也是很多了，不过多赘述。

2、打开电脑cmd命令窗口。

3、进入工程目录。

4、scrapy startproject project_name # project_name是自定义的工程文件名称。

二、新建spider

1、cd project_name # 进入工程目录，进入后会发现其内部还有个project_name，另外还有其他配置文件。

2、生成spider文件（spider文件是用于解析网站数据的，解析出所需爬取的字段内容，或者所需爬取的url，返回给scrapy进行下载或存储）

scrapy genspider spider_name tingroom.com # spider_name是spider的名称，一个工程下面可以有多个spider；tingroom.com是要爬取的域名，spider只会爬取此域名下面的网站，其他的会被其过滤掉。

3、生成spider文件后，整个工程项目的文件就建立好了。代码编写好后，可以在工程目录里面，使用：scrapy crawl spider_name，进行运行scrapy爬虫代码。

4、如果想在pycharm里面运行spider代码，可以新建一个py文件，文件名自定义。

from scrapy.cmdline import execute execute([\'scrapy\', \'crawl\', \'tingroom\']) # 用于在pycharm里面调试scrapy，不用去命令窗口运行了