Python爬虫之Beautiful Soup解析库的使用(五)

Python爬虫之Beautiful Soup解析库的使用

 

Beautiful Soup-介绍


Python第三方库,用于从HTML或XML中提取数据
官方:

安装:pip install beautifulsoup4

 

Beautiful Soup-语法

soup = BeautifulSoup(html_doc,'html.parser‘,from_encoding='utf-8' )

第一个参数:html文档字符串

第二个参数:html解析器

第三个参数:html文档的编码

 

Beautiful Soup-使用


标签选择器操作

注意:只会返回一个指定的标签,这也是标签选择器的特性

选择元素

from bs4 import BeautifulSoup html_doc=''' <div> <a href="http://www.likecs.com/pc/home?sign=360_79aabe15"></a> <nav data-mod="nnav"> <div> <ul> <li data-index="0"><a href="http://www.likecs.com/pc/home?ch=youlike&sign=360_79aabe15" target="_blank" data-ch="youlike">推荐<span></span></a></li><li data-index="1"><a href="http://www.likecs.com/pc/home?ch=good_safe2toera&sign=360_79aabe15" target="_blank" data-ch="good_safe2toera">新时代<span></span></a></li><li data-index="2"><a href="http://www.likecs.com/pc/home?ch=fun&sign=360_79aabe15" target="_blank" data-ch="fun">娱乐<span></span></a></li><li data-index="3"><a href="/pc/home? data-index="4"><a href="http://www.likecs.com/pc/home?ch=economy&sign=360_79aabe15" target="_blank" data-ch="economy">财经<span></span></a></li> ''' soup = BeautifulSoup(html_doc,'lxml')
#将html代码自动补全,并按html代码格式返回 print(soup.prettify())
#输出第一个a标签 print(soup.a)
#输出第一个span标签 print(soup.span)

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyfwxy.html