最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的《python网络爬虫与信息提取》,是由北京理工的副教授嵩天老师讲的,感觉讲的很清晰,课件也很详细。
学习爬虫,怎么也绕不开requests库和BeautifulSoup库,先说下BeautifulSoup库:
BeautifulSoup库通俗来说是【解析、遍历、维护“标签树”(例如html、xml等格式的数据对象)的功能库 】
一个简单的使用BeautifulSoup库的demo:
# coding:utf-8 from bs4 import BeautifulSoup import requests url = \'\' r =http://www.likecs.com/ requests.get(url) demo = r.text # 服务器返回响应 soup = BeautifulSoup(demo, "html.parser") """ demo 表示被解析的html格式的内容 html.parser表示解析用的解析器 """ print(soup) # 输出响应的html对象 print(soup.prettify()) # 使用prettify()格式化显示输出