Python之爬虫从入门到放弃（十三） Scrapy框架整体的了解

日期：2022-06-15 栏目：程序人生浏览：次

这里是通过爬取伯乐在线的全部文章为例子，让自己先对scrapy进行一个整理的理解

该例子中的详细代码会放到我的github地址：https://github.com/pythonsite/spider/tree/master/jobboleSpider

注：这个文章并不会对详细的用法进行讲解，是为了让对scrapy各个功能有个了解，建立整体的印象。

在学习Scrapy框架之前，我们先通过一个实际的爬虫例子来理解，后面我们会对每个功能进行详细的理解。
这里的例子是爬取伯乐在线的全部文章数据

分析要爬去的目标站信息

先看如下图，首先我们要获取下图中所有文章的连接，然后是进入每个文章连接爬取每个文章的详细内容。
每个文章中需要爬取文章标题，发表日期，以及标签，赞赏收藏，评论数，文章内容。

Python之爬虫从入门到放弃（十三） Scrapy框架整体的了解

对于该爬虫的一个整体思路

我们对这个爬虫进行一个思路整理，通过如下图表示：

Python之爬虫从入门到放弃（十三） Scrapy框架整体的了解

以上是我们对这个爬虫需求了解，下面我们通过scrapy爬取我们想要爬取的数据，下面我们先对scrapy进行一个简单的了解

Scrapy的初步认识

Scrapy使用了Twisted作为框架，Twisted有些特殊的地方是它是事件驱动的，并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提供了允许执行上面的操作但不会阻塞代码执行的方法。
scrapy的项目结构：

Python之爬虫从入门到放弃（十三） Scrapy框架整体的了解

items.py 负责数据模型的建立，类似于实体类。
middlewares.py 自己定义的中间件。
pipelines.py 负责对spider返回数据的处理。
settings.py 负责对整个爬虫的配置。
spiders目录负责存放继承自scrapy的爬虫类。
scrapy.cfg scrapy基础配置

那么如何创建上述的目录，通过下面命令：

zhaofandeMBP:python_project zhaofan$ scrapy startproject test1 New Scrapy project \'test1\', using template directory \'/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project\', created in: /Users/zhaofan/Documents/python_project/test1 You can start your first spider with: cd test1 scrapy genspider example example.com zhaofandeMBP:python_project zhaofan$ zhaofandeMBP:test1 zhaofan$ scrapy genspider shSpider hshfy.sh.cn Created spider \'shSpider\' using template \'basic\' in module: test1.spiders.shSpider

转载注明出处：https://www.heiqu.com/zzxsgd.html

Python之爬虫从入门到放弃（十三） Scrapy框架整体的了解

相关推荐