python爬虫利器 scrapy和scrapy-redis 详解一入门demo及内容解析 (2)

日期：2022-08-12 栏目：程序人生浏览：次

所以response 可以直接使用前文中的Selector 的方式来解析

def xpath(self, query, **kwargs): return self.selector.xpath(query, **kwargs) def css(self, query): return self.selector.css(query) 配置文件

settings.py是爬虫的配置文件，要正常启动爬虫的话，一定注意将robo协议限制修改为 ROBOTSTXT_OBEY = False
其他相关配置，我们下节再介绍

启动爬虫

在爬虫目录编写run.py方法，添加如下脚本，这样就可以直接执行爬虫了。如果命令行执行的话scrapy crawl gitee。其中gitee为爬虫名，对应GiteeSpider中的name字段

# coding: utf-8 from scrapy import cmdline if __name__ == \'__main__\': cmdline.execute("scrapy crawl gitee".split()) # scrapy crawl gitee

完整参考代码 https://gitee.com/haimama/scrapy_demo001
xpath参考我的博客python使用xpath

python爬虫利器 scrapy和scrapy-redis 详解一 入门demo及内容解析 (2)