python爬虫利器 scrapy和scrapy-redis 详解一 入门demo及内容解析 (2)

所以response 可以直接使用前文中的Selector 的方式来解析

def xpath(self, query, **kwargs): return self.selector.xpath(query, **kwargs) def css(self, query): return self.selector.css(query) 配置文件

settings.py是爬虫的配置文件,要正常启动爬虫的话,一定注意将robo协议限制 修改为 ROBOTSTXT_OBEY = False
其他相关配置,我们下节再介绍

启动爬虫

在爬虫目录编写run.py方法,添加如下脚本,这样就可以直接执行爬虫了。如果命令行执行的话scrapy crawl gitee。其中gitee为爬虫名,对应GiteeSpider中的name字段

# coding: utf-8 from scrapy import cmdline if __name__ == \'__main__\': cmdline.execute("scrapy crawl gitee".split()) # scrapy crawl gitee

完整参考代码 https://gitee.com/haimama/scrapy_demo001
xpath参考 我的博客python使用xpath

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgwjdp.html