Python 爬虫从入门到进阶之路(十一)

之前的文章我们介绍了一下 Xpath 模块,接下来我们就利用 Xpath 模块爬取《糗事百科》的糗事。

之前我们已经利用 re 模块爬取过一次糗百,我们只需要在其基础上做一些修改就可以了,为了保证项目的完整性,我们重新再来一遍。

我们要爬取的网站链接是 https://www.qiushibaike.com/text/page/1/ 。

Python 爬虫从入门到进阶之路(十一)

我们通过 Xpath Helper 的谷歌插件经过分析获取到我们想要的内容为: //div[@class="content"]/span[1] 

Python 爬虫从入门到进阶之路(十一)

然后我们就可以通过 text() 来获取里面的内容了, //div[@class="content"]/span[1]/text() 

1 import urllib.request 2 from lxml import etree 3 import ssl 4 5 # 取消代理验证 6 ssl._create_default_https_context = ssl._create_unverified_context 7 8 url = "https://www.qiushibaike.com/text/page/1/" 9 # User-Agent头 10 user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36' 11 headers = {'User-Agent': user_agent} 12 req = urllib.request.Request(url, headers=headers) 13 response = urllib.request.urlopen(req) 14 # 获取每页的HTML源码字符串 15 html = response.read().decode('utf-8') 16 # 解析html 为 HTML 文档 17 selector = etree.HTML(html) 18 content_list = selector.xpath('//div[@class="content"]/span[1]/text()') 19 print(content_list)

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpzdzw.html