Python 爬虫从入门到进阶之路(二)

Python 中有很多库可以用来抓取网页,其中内置了 urllib 模块,该模块就能实现我们基本的网页爬取。

Python2.x 和 Python3.x 中 urllib 模块是不一样的,但是用法上差不多,我们先用 Python2.x 中的 urllib 来实现一个 demo。

在 Python2.x 中内置了 urllib 模块,但是 Python 创始人 Guido van Rossum 觉得其太臃肿了,于是又写了一个 urllib2,两者有很多不同,最显著的如下:

(1)urllib仅可以接受URL,不能创建,设置headers的request类实例;

(2)但是urllib提供urlencode()方法用来GET查询字符串的产生,而urllib2则没有(这是urllib和urllib2经常一起使用的主要原因)

(3)编码工作使用urllib的urlencode()函数,帮我们讲key:value这样的键值对转换成‘key=value’这样的字符串,解码工作可以使用urllib的unquote()

函数

我们就使用 urllib2 来实现一个简单的爬虫:

1 # 导入urllib2 库 2 import urllib2 3 4 # 向指定的url发送请求,并返回服务器响应的类文件对象 5 response = urllib2.urlopen("") 6 # 类文件对象支持 文件对象的操作方法,如read()方法读取文件全部内容,返回字符串 7 html = response.read().decode("utf-8") 8 # 打印字符串 9 print(html)

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpgfps.html