beautiful soup的用法

日期：2021-08-26 栏目：程序人生浏览：次

　　一、beautiful soup 是Python的一个HTML或XML的解析库。

　　他提供一个简单的、Python式的函数来处理导航、搜索、修改分析数等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

　　beautiful soup 自动将输入文档转化为Unicode编码，输出文档转化为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时你仅仅需要说明一下原始的编码方式就可以了。

from bs4 import BeautifulSoup soup=BeautifulSoup(\'<p>hello</p>\',\'lxml\')
print(soup.p.string)
# 返回了p标签的内容

html=‘<html> <head><title>story</title></head> <body><div>
<p class=\'t1\' name=\'t2\'>我的天，蒙蔽了</p>
</div></body>\'

from bs4 import BeautifulSoup
soup=BeautifulSoup(html,\'lxml\')
print(soup.prettiful())　　　　#例子的html节点没有闭合缺少标签</html> 　　返回的完整html不是prettiful做的是初始化BeautifulSoup时就完成了
print(soup.title.string)　　#返回标题的内容
print(soup.title) #返回的是<title>story</title>
print(soup.head) #<head><title>story</title></head>
prinp(soup.p)　　　　#<p>我的天，蒙蔽了</p>
#当有多个属性时，此种方法只能获取第一个匹配的节点

转载注明出处：https://www.heiqu.com/zyxjsf.html

beautiful soup的用法

相关推荐