Python爬虫之Beautiful Soup解析库的使用
Beautiful Soup-介绍
Python第三方库,用于从HTML或XML中提取数据
官方:
安装:pip install beautifulsoup4
Beautiful Soup-语法
soup = BeautifulSoup(html_doc,'html.parser‘,from_encoding='utf-8' )
第一个参数:html文档字符串
第二个参数:html解析器
第三个参数:html文档的编码
Beautiful Soup-使用
标签选择器操作
注意:只会返回一个指定的标签,这也是标签选择器的特性
选择元素
from bs4 import BeautifulSoup
html_doc='''
<div> <a href="http://www.likecs.com/pc/home?sign=360_79aabe15"></a> <nav data-mod="nnav"> <div> <ul> <li data-index="0"><a href="http://www.likecs.com/pc/home?ch=youlike&sign=360_79aabe15" target="_blank" data-ch="youlike">推荐<span></span></a></li><li data-index="1"><a href="http://www.likecs.com/pc/home?ch=good_safe2toera&sign=360_79aabe15" target="_blank" data-ch="good_safe2toera">新时代<span></span></a></li><li data-index="2"><a href="http://www.likecs.com/pc/home?ch=fun&sign=360_79aabe15" target="_blank" data-ch="fun">娱乐<span></span></a></li><li data-index="3"><a href="/pc/home?
data-index="4"><a href="http://www.likecs.com/pc/home?ch=economy&sign=360_79aabe15" target="_blank" data-ch="economy">财经<span></span></a></li>
'''
soup = BeautifulSoup(html_doc,'lxml')
#将html代码自动补全,并按html代码格式返回
print(soup.prettify())
#输出第一个a标签
print(soup.a)
#输出第一个span标签
print(soup.span)