网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。通过分析和过滤HTML 代码,实现对图片、文字等资源的获取。
2.python类库之BeautifulSoup
利用python写爬虫,可以使用urllib2等库结合正则表达式来实现。但是正则表达式比较复杂。不小心会进入死循环。BeautifulSoup是一个更强大的工具,可以方便的提取出HTML或XML标签中的内容。
现在使用的版本是BS4,可以直接通过pip或easy_install来安装:
$pip install beautifulsoup4