python爬虫(一)---BeautufulSoup

Beautiful Soup 是 python 的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup 已成为和 lxml、html6lib 一样出色的 python 解释器,为用户灵活地提供不同的解析策略或强劲的速度。

二、安装

pip install beautifulsoup4

三、使用

以一个简单例子讲解beautifulsoup使用。按F12或是右键单击选择检查可以打开开发者工具查看页面html,以下是网页

python爬虫(一)---BeautufulSoup

BeautifulSoup的使用

from bs4 import BeautifulSoup import requests url = "https://python123.io/ws/demo.html" r = requests.get(url) text = r.text soup = BeautifulSoup(text, "html.parser") print(soup.prettify()) #打印美化过的html代码 print(soup.title) #打印title标签下的内容 print(soup.body) #打印body标签下的内容 print(soup.p) #只打印了第一个p标签下的内容 print(soup.find_all("p")) #打印所有p标签,返回一个列表 print(soup.find("p")) #默认打印第一个p标签 print(soup.find("p",class_ = "course")) #根据属性找到第二个p标签,因为class是pyhon关键字,所以需要加上_区分 print(soup.find("a",id = "link2")) #找到id=“link2”的a标签

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwwxpw.html