Python 爬虫从入门到进阶之路(六)

在之前的文章中我们介绍了一下 opener 应用中的 ProxyHandler 处理器(代理设置),本篇文章我们再来看一下 opener 中的 Cookie 的使用。

Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。

HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括:

Cookie名字(Name) Cookie的值(Value) Cookie的过期时间(Expires/Max-Age) Cookie作用路径(Path) Cookie所在域名(Domain), 使用Cookie进行安全连接(Secure)。 前两个参数是Cookie应用的必要条件,另外,还包括Cookie大小(Size,不同浏览器对Cookie个数及大小限制是有差异的)。

Cookie由变量名和值组成,根据 Netscape公司的规定,Cookie格式如下:

Set-Cookie: NAME=VALUE;Expires=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE

Cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站,用户可能会得到提示,是否在下一次进入此网站时保留用户信息以便简化登录手续。

1 import urllib.request 2 3 # 1. 构建一个已经登录过的用户的headers信息 4 headers = { 5 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36", 6 "Cookie": "anonymid=jurpmxe9-orl7u3;" 7 "depovince=BJ;" 8 " _r01_=1; " 9 "JSESSIONID=abcwYLyIY7VNIhCDVWcPw;" 10 " jebe_key=f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1484060607173;" 11 " jebecookies=f1fd29c4-bd08-4d66-8834-72e42b70d2cb|||||; " 12 "ick_login=0f790ea2-c8bf-4d64-a394-36745febeb26;" 13 " _de=622DE758381206EB340E4CEC836F3769696BF75400CE19CC;" 14 " p=7e50f3fe10ca320e36dae001c72d392d3;" 15 " ap=327550029;" 16 " first_login_flag=1;" 17 " ln_uact=562352353@qq.com;" 18 " ln_hurl=http://hdn.xnimg.cn/photos/hdn121/20120930/2035/h_main_hcDy_40fc000002d91375.jpg;" 19 " t=d7c6ae064b81ae15f5b91f5897dc61553;" 20 " societyguester=d7c6ae064b81ae15f5b91f5897dc61553;" 21 " id=485439163;" 22 " xnsid=bc995dc8;" 23 " ver=7.0;" 24 " loginfrom=null" 25 } 26 27 # 2. 通过headers里的报头信息(主要是Cookie信息),构建Request对象 28 request = urllib.request.Request("", headers=headers) 29 30 # 3. 直接访问renren主页,服务器会根据headers报头信息(主要是Cookie信息),判断这是一个已经登录的用户,并返回相应的页面 31 response = urllib.request.urlopen(request) 32 33 # 4. 打印响应内容 34 print(response.read().decode("utf-8"))

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zywzzs.html