Scrapy的数据持久化,主要包括存储到数据库、文件以及内置数据存储。
那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中。
终端指令存储
保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。
# 执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json # 存为json文件 scrapy crawl 爬虫名称 -o xxx.xml # 存为xml文件 scrapy crawl 爬虫名称 -o xxx.csv # 存为csv文件