ps:1、登录窗口,文件上传等,信息都会被附加到请求体内 2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post
1.3.2
response
(1)响应状态码
200:代表成功
301:代表跳转
404:文件不存在
403:无权限访问
502:服务器错误
(2)response header
响应头需要注意的参数:Set-Cookie:BDSVRTM=0; path=http://www.likecs.com/:可能有多个,是来告诉浏览器,把cookie保存下来
(3)preview就是网页源代码
json数据
如网页html,图片
二进制数据等
02
二、基础模块
2.1requests
requests是python实现的简单易用的HTTP库,是由urllib的升级而来。
开源地址:
https://github.com/kennethrei...
中文API:
2.2re 正则表达式
在 Python 中使用内置的 re 模块来使用正则表达式。
缺点:处理数据不稳定、工作量大
2.3XPath
Xpath(XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
在python中主要使用 lxml 库来进行xpath获取(在框架中不使用lxml,框架内直接使用xpath即可)
lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。
2.4BeautifulSoup
和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
使用BeautifulSoup需要导入bs4库
缺点:相对正则和xpath处理速度慢
优点:使用简单
2.5Json
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。
在python中主要使用 json 模块来处理 json数据。Json解析网站:
https://www.sojson.com/simple...
2.6threading
使用threading模块创建线程,直接从threading.Thread继承,然后重写__init__方法和run方法
03
三、方法实例
3.1get方法实例
demo_get.py
3.2post方法实例
demo_post.py
3.3添加代理
demo_proxies.py