一、beautiful soup 是Python的一个HTML或XML的解析库。
他提供一个简单的、Python式的函数来处理导航、搜索、修改分析数等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
beautiful soup 自动将输入文档转化为Unicode编码,输出文档转化为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时你仅仅需要说明一下原始的编码方式就可以了。
from bs4 import BeautifulSoup
soup=BeautifulSoup(\'<p>hello</p>\',\'lxml\')
print(soup.p.string)
# 返回了p标签的内容
html=‘<html>
<head><title>story</title></head>
<body><div>
<p class=\'t1\' name=\'t2\'>我的天,蒙蔽了</p>
</div></body>\'
from bs4 import BeautifulSoup
soup=BeautifulSoup(html,\'lxml\')
print(soup.prettiful()) #例子的html节点没有闭合 缺少标签</html> 返回的完整html不是prettiful做的是初始化BeautifulSoup时就完成了
print(soup.title.string) #返回标题的内容
print(soup.title)
#返回的是<title>story</title>
print(soup.head) #<head><title>story</title></head>
prinp(soup.p) #<p>我的天,蒙蔽了</p>
#当有多个属性时,此种方法只能获取第一个匹配的节点