02.Python网络爬虫第二弹《http和https协议》

  1.官方概念:

    HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方的概念解释,要想彻底理解,请客观目移下侧......)

  2.白话概念:

    HTTP协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式。我们可以将Server和Client进行拟人化,那么该协议就是Server和Client这两兄弟间指定的一种交互沟通方式。大家都看过智取威虎山中杨子荣和土匪们之间说的黑话吧:

      - 土匪:蘑菇,你哪路?什么价?(什么人?到哪里去?)

      - 杨子荣:哈!想啥来啥,想吃奶来了妈妈,想娘家的人,孩子他舅舅来了。(找同行)

      - 杨子荣:拜见三爷!

      - 土匪:天王盖地虎!(你好大的胆!敢来气你的祖宗?)

      - 杨子荣:宝塔镇河妖!(要是那样,叫我从山上摔死,掉河里淹死。)
      - 土匪:野鸡闷头钻,哪能上天王山!(你不是正牌的。)
      - 杨子荣:地上有的是米,喂呀,有根底!(老子是正牌的,老牌的。)
      - 土匪:拜见过阿妈啦?(你从小拜谁为师?)
      - 杨子荣:他房上没瓦,非否非,否非否!(不到正堂不能说。)
      - 土匪:嘛哈嘛哈?(以前独干吗?)
      - 杨子荣:正晌午说话,谁还没有家?(许大马棒山上。)
      - 土匪:好叭哒!(内行,是把老手)
      - 杨子荣:天下大耷拉!(不吹牛,闯过大队头。)
      - 座山雕:脸红什么?
      - 杨子荣:精神焕发!
      - 座山雕:怎么又黄了?
      - 杨子荣:防冷,涂的蜡!
      - 座山雕:晒哒晒哒。(谁指点你来的?)
      - 杨子荣:一座玲珑塔,面向青寨背靠沙!(是个道人。)

    是不是看到这里,有得童鞋终于知道了传说中的‘天王盖地虎’是真正含义了吧。此黑话其实就是杨子荣和土匪之间进行交互沟通的方式(协议)。

  3.HTTP工作原理:

    HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息。

                    

02.Python网络爬虫第二弹《http和https协议》

  4.HTTP四点注意事项:

    - HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

    - HTTP是无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。

    - HTTP是媒体独立的:这意味着,只要客户端和服务器知道如何处理的数据内容,任何类型的数据都可以通过HTTP发送。客户端以及服务器指定使用适合的MIME-type内容类型。

    - HTTP是无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。

  5.HTTP之URL:

    HTTP使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。URL是一种特殊类型的URI,包含了用于查找某个资源的足够的信息

URL,全称是UniformResourceLocator, 中文叫统一资源定位符,是互联网上用来标识某一处资源的地址。以下面这个URL为例,介绍下普通URL的各部分组成:从上面的URL可以看出,一个完整的URL包括以下几部分:

    - 协议部分:该URL的协议部分为“http:”,这代表网页使用的是HTTP协议。在Internet中可以使用多种协议,如HTTP,FTP等等本例中使用的是HTTP协议。在"HTTP"后面的“//”为分隔符

    - 域名部分:该URL的域名部分为“”。一个URL中,也可以使用IP地址作为域名使用

    - 端口部分:跟在域名后面的是端口,域名和端口之间使用“:”作为分隔符。端口不是一个URL必须的部分,如果省略端口部分,将采用默认端口

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwxfgz.html