笔记之Python网络数据采集

笔记之Python网络数据采集

非原创即采集

一念清净, 烈焰成池, 一念觉醒, 方登彼岸

网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息

通常, 有api可用, api会比写网络爬虫程序来获取数据更加方便.

Part1 创建爬虫 Chapter1 初建网络爬虫

一旦你开始采集网络数据, 就会感受到浏览器为我们所做的所有细节, 它解释了所有的html, css, JavaScript

网络浏览器是一个非常有用的应用, 它创建信息的数据包, 发送, 并把获取的数据解释成图像, 声音, 视频, 或文字. 但网络浏览器就是代码, 而代码是可以分解的, 可以分解成许多基本组件, 可重写, 重用, 以及做成我们想要的任何东西

“域名为kissg.me的服务器上<网络应用根地址>/pages目录下的html文件page1.html的源代码"

网络浏览器与爬虫程序的区别:

浏览器遇到html标签时, 会向服务器再发起对该资源的请求, 再用请求得到的资源渲染页面

爬虫程序并没有返回向服务器请求多个文件的逻辑, 它只能读取已经请求的单个html文件

BeautifulSoup通过定位html标签来格式化和组织复杂的网络信息, 以python对象展示xml结构信息

先调用response.read()获取网页的内容, 再将html内容传给BeautifulSoup对象, 形成的结构如下所示:

html <html><head>...</head><body>...</body></html> - head <head><title>A Useful Page<title></head> - title <title>A Useful Page</title> - body <body><h1>An Int...</h1><div>Lorem ip...</div></body> - h1 <h1>An Interesting Title</h1> - div <div>Lorem Ipsum dolor...</div>

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgjgwp.html