0.14.0.2841爬虫框架

Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据,目前已经有很多企业用于生产环境。对于它的更多介绍,可以查阅相关资料(官方网站:)。

我们根据官网提供的安装指南,来一步步安装,主要参考了页面的介绍:

Requirements¶   Python 2.5, 2.6, 2.7 (3.x is not yet supported)   Twisted 2.5.0, 8.0 or above (Windows users: you’ll need to install Zope.Interface and maybe pywin32 because of this Twisted bug)   w3lib   lxml or libxml2 (if using libxml2, version 2.6.28 or above is highly recommended)   simplejson (not required if using Python 2.6 or above)   pyopenssl (for HTTPS support. Optional, but highly recommended)  

下面记录一下从安装Python到安装scrapy的过程,最后,通过执行命令进行抓取数据来验证我们所做的安装配置工作。

准备工作


操作系统:RHEL 5
Python版本:Python-2.7.2
zope.interface版本:zope.interface-3.8.0
Twisted版本:Twisted-11.1.0
libxml2版本:libxml2-2.7.4.tar.gz
w3lib版本:w3lib-1.0
Scrapy版本:Scrapy-0.14.0.2841


安装配置


1、安装zlib

首先检查一下你的系统中是否已经安装zlib,该库是一个与数据压缩相关的工具包,scrapy框架依赖于该工具包。我使用的RHEL 5系统,查看是否安装:

[root@localhost scrapy]# rpm -qa zlib    zlib-1.2.3-3  

我的系统已经默认安装了,安装的话,可以跳过该步骤。如果没有安装的话,可以到上下载,并进行安装。假如下载的是zlib-1.2.5.tar.gz,安装命令如下所示:

[root@localhost scrapy]# tar -xvzf zlib-1.2.5.tar.gz   [root@localhost zlib-1.2.5]# cd zlib-1.2.5   [root@localhost zlib-1.2.5]# make   [root@localhost zlib-1.2.5]# make install  

2、安装Python

我的系统中已经安装的Python 2.4,根据官网要求和建议,我选择了Python-2.7.2,下载地址如下所示:

(需要代理)

我下载了Python的源代码,重新编译后,进行安装,过程如下所示:

[root@localhost scrapy]# tar -zvxf Python-2.7.2.tgz   [root@localhost scrapy]# cd Python-2.7.2   [root@localhost Python-2.7.2]# ./configure   [root@localhost Python-2.7.2]# make   [root@localhost Python-2.7.2]# make install  

默认情况下,Python程序被安装到/usr/local/lib/python2.7。

如果你的系统中没有安装过Python,此时通过命令行执行一下:

[root@localhost scrapy]# python   Python 2.7.2 (default, Dec  5 2011, 22:04:07)    [GCC 4.1.1 20070105 (Red Hat 4.1.1-52)] on linux2   Type "help", "copyright", "credits" or "license" for more information.   >>>  

表示最新安装的Python已经可以使用了。

如果你的系统中还有其他版本的Python,例如我的系统中2.4版本的,所以要做一个符号链接:

[root@localhost python2.7]# mv /usr/bin/python /usr/bin/python.bak   [root@localhost python2.7]# ln -s /usr/local/bin/python /usr/bin/python  

这样操作以后,在执行python,就生效了。
3、安装setuptools

这里主要是安装一个用来管理Python模块的工具,如果已经安装就跳过该步骤。如果你需要安装,可以参考下面的链接:



不过,在安装Python-2.7.2以后,可以看到Python的解压缩包里面有一个setup.py脚本,使用这个脚本可以安装Python一些相关的模块,执行命令:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/48e8bec62c235e3a6393aca518c63e75.html