所以response 可以直接使用前文中的Selector 的方式来解析
def xpath(self, query, **kwargs): return self.selector.xpath(query, **kwargs) def css(self, query): return self.selector.css(query) 配置文件settings.py是爬虫的配置文件,要正常启动爬虫的话,一定注意将robo协议限制 修改为 ROBOTSTXT_OBEY = False
其他相关配置,我们下节再介绍
在爬虫目录编写run.py方法,添加如下脚本,这样就可以直接执行爬虫了。如果命令行执行的话scrapy crawl gitee。其中gitee为爬虫名,对应GiteeSpider中的name字段
# coding: utf-8 from scrapy import cmdline if __name__ == \'__main__\': cmdline.execute("scrapy crawl gitee".split()) # scrapy crawl gitee完整参考代码 https://gitee.com/haimama/scrapy_demo001
xpath参考 我的博客python使用xpath