HTTP详解

日期：2021-04-29 栏目：程序人生浏览：次

爬虫又称网络爬虫，所以在讲解爬虫之前，我们有必要了解一下什么是网络？网络是由若干节点和连接这些节点的链路构成，然后网络与网络之间所串连成的庞大网络叫做互联网，而我们今天要讲的HTTP（HyperText Transfer Protocol 超文本传输协议)是互联网上应用最为广泛的一种网络协议，它是由万维网协会（World Wide Web Consortium）制定发布。

文章主要以一次HTTP请求的整个过程来讲解(DNS解析不讲)：HTTP起源、TCP/IP协议、建立TCP连接、客户端请求、服务端响应、断开TCP连接，文章最后还捎带讲了与HTTP相关知识。文章较长，建议收藏或转发后阅读！

在这里插入图片描述

一、简介 1.起源

今天我们能够在网络中畅游，都得益于一位计算机科学家蒂姆·伯纳斯·李的构想。1991年8月6日，蒂姆·伯纳斯·李在位于欧洲粒子物理研究所（CERN）的NeXT计算机上，正式公开运行世界上第一个Web网站（），建立起基本的互联网基础概念和技术体系，由此开启了网络信息时代的序幕。

在这里插入图片描述

伯纳斯·李的提案包含了网络的基本概念并逐步建立了所有必要的工具：

提出HTTP (Hypertext Transfer Protocol) 超文本传输协议，允许用户通过单击超链接访问资源；

提出使用HTML超文本标记语言(Hypertext Markup Language)作为创建网页的标准；

创建了统一资源定位器URL (Uniform Resource Locator)作为网站地址系统，就是沿用至今的 URL格式；

创建第一个Web浏览器，称为万维网浏览器，这也是一个Web编辑器；

创建第一个Web服务器（）以及描述项目本身的第一个Web页面。

2.特点

HTTP 协议一共有五大特点：

支持客户/服务器模式。

简单快速：客户向服务器请求服务时，只需传送请求方法和路径。

灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type（Content-Type是HTTP包中用来表示内容类型的标识）加以标记。

无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。

无状态：无状态是指协议对于事务处理没有记忆能力，服务器不知道客户端是什么状态。即我们给服务器发送 HTTP 请求之后，服务器根据请求，会给我们发送数据过来，但是，发送完，不会记录任何信息（Cookie和Session孕育而生，后期再讲）。

二、TCP/IP协议

我们经常听到一句话就是：HTTP是一个基于TCP/IP协议簇来传递数据。

如何理解上面那句话？我们来看看TCP/IP四层模型就明白了。

在这里插入图片描述

从上图我们可以清晰的看到HTTP使用的传输层协议为TCP协议，而网络层使用的是IP协议（当然还使用了很多其他协议），所以说HTTP是一个基于TCP/IP协议簇来传递数据。

同样我们可以看到ping走的ICMP协议，这也就是为什么有时候我们开vps可以上网，但是ping google却ping不通的原因，因为走的是不同的协议。

那TCP/IP协议簇大致是如何工作的，我们再来看看下图：

在这里插入图片描述

我们可以看到在数据发送端是一层一层封装数据，数据接收端一层一层拆封，最后应用层获得数据。

三、建立TCP连接

我们知道了TCP/IP协议簇大致的工作原理之后，我们来看看HTTP是如何建立连接的。

1.TCP包头信息

前面咱们讲过HTTP是一个基于TCP/IP协议簇来传递数据，所以这HTTP建立连接也就是建立TCP连接，TCP如何建立连接，一起来看看TCP包信息结构吧。

在这里插入图片描述

TCP报文包=TCP头信息+TCP数据体，而在TCP头信息中包含了6种控制位（上图红色框中），这六种标志位就代表着TCP连接的状态：

URG：紧急数据（urgent data）—-这是一条紧急信息

ACK：确认已收到

PSH：提示接收端应用程序应该立即从tcp接受缓冲区中读走数据

RST：表示要求对方重新建立连接

SYN：表示请求建立一个连接

FIN：表示通知对方本端要关闭连接了

2.建立连接过程

转载注明出处：https://www.heiqu.com/wsfjjw.html

HTTP详解

相关推荐