Hadoop在Windows环境下的部署

经过一整天的折腾,参考了网上很多资料,我机器上的Hadoop似乎是配置成功了。下面分享一下详细的配置过程。也祝愿大家在配置的过程中少走弯路。

注意:本文的配置环境是:

CygWin最新版本2.769下载地址 Window7-64bit JDK1.6.0_31-win64 (JRE6)下载地址 Eclipse-Indigo.. Hadoop 0.20.2 (注意:0.20.203版本不可用,会导致tasktracker无法启动)下载地址

-----------------------------------------华丽分割------------------------------------

环境安装&配置:

1.JDK,我的安装目录:C/Java,安装后视图

Hadoop在Windows环境下的部署



安装好了JDK,然后配置JAVA_HOME环境变量:

Hadoop在Windows环境下的部署

然后,把JDK下面的BIN目录追加到环境变量PATH后面。


2.CygWin,安装过程中记得选择所需的包,这里需要的是:

Net Category下的:openssh,openssl

BaseCategory下的:sed (若需要Eclipse,必须sed)

Devel Category下的:subversion(建议安装)。具体请参考下面的图示:

Hadoop在Windows环境下的部署


Hadoop在Windows环境下的部署


Hadoop在Windows环境下的部署



安装完成后,把CygWin的bin目录以及usr/sbin 追加到系统环境变量PATH中。


3.Hadoop

把下载的hadoop-0.20.2.tar.gz解压到指定目录。我把解压后的Hadoop程序放到了Cygwin根目录下的hadoop文件夹中。具体如下图示:

(不要使用0.20.203版本的Hadoop!!!)

Hadoop在Windows环境下的部署



下面开始配置Hadoop。需要配置的文件:(hadoop/conf目录下)

hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml

第一个文件 hadoop-env.sh

Hadoop在Windows环境下的部署


把里面的JAVA_HOME改掉,注意export前面的#号要去掉。

而且必须要使用linux的路径表达方式。我的jdk路径是 C:\JAVA\jdk1.6.0_31,在CygWin中对应的路径为: /cygdrive/c/java/jdk1.6.0_31


第二个文件:core-site.xml

首先删除它,然后把hadoop/src/core目录下的core-default.xml文件复制到conf目录下,并命名为core-site.xml。然后修改其中的fs.default.name变量,如下所示。

(确保端口号(我的是9100)未被占用)

Hadoop在Windows环境下的部署



第三个文件:hdfs-site.xml

首先把它删除,然后复制src/hdfs目录下的hdfs-default.xml到conf目录下,并改名为hdfs-site.xml

然后修改dfs.replication变量,如下图示:

该变量意思是文件系统中文件的复本数量。在单独的一个数据节点上运行时,HDFS无法将块复制到三个数据节点上。

Hadoop在Windows环境下的部署



第四个文件:mapred-site.xml

首先删除它,然后复制src/mapred目录下的mapred-default.xml到conf目录下,并改名为mapred-site.xml,然后修改其mapred.job.tracker变量:

(同样确保端口号未被占用)

Hadoop在Windows环境下的部署

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/1f5aee7460235383f8aac633ccc74da6.html