beautiful soup的用法

  一、beautiful soup 是Python的一个HTML或XML的解析库。

  他提供一个简单的、Python式的函数来处理导航、搜索、修改分析数等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

  beautiful soup 自动将输入文档转化为Unicode编码,输出文档转化为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时你仅仅需要说明一下原始的编码方式就可以了。

from bs4 import BeautifulSoup soup=BeautifulSoup(\'<p>hello</p>\',\'lxml\')
print(soup.p.string)
# 返回了p标签的内容

html=‘<html> <head><title>story</title></head> <body><div>
<p class=\'t1\' name=\'t2\'>我的天,蒙蔽了</p>
</div></body>\'

from bs4 import BeautifulSoup
soup=BeautifulSoup(html,\'lxml\')
print(soup.prettiful())    #例子的html节点没有闭合 缺少标签</html>   返回的完整html不是prettiful做的是初始化BeautifulSoup时就完成了
print(soup.title.string)  #返回标题的内容
print(soup.title) #返回的是<title>story</title>
print(soup.head) #<head><title>story</title></head>
prinp(soup.p)    #<p>我的天,蒙蔽了</p>
#当有多个属性时,此种方法只能获取第一个匹配的节点

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyxjsf.html