Hadoop环境安装配置(2)

1)下载并解压hadoop-0.20.203.0.修给解压文件夹名字为hadoop-0.20.203

2)按上述所示将hadoop-0.20.203/bin路径加到PATH环境变量中

sudo gedit/etc/profile

3)修改配置文件,配置文件都在hadoop-0.20.203/conf目录下。

a.进到/hadoop-0.20.203/conf/hadoop-env.sh中,解注释JAVA_HOME

修改为:JAVA_HOME=/home/hadoop/jdk1.6

b.修改core-site.xml文件配置如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的临时文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>

c、修改hdfs-site.xml文件如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-节点个数配置,根据你自己的节点来设定->
<value>2</value>
</property>
</configuration>

d、修改mapred-site.xml文件如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
</property>
</configuration>

e、在masters和slave文件中分别配置主节点和各个数据节点:

masters:中写入namenode

slaves: 写入datanode1

datanode2

4)将hadoop-0.20.203目录拷贝到datanode1和datanode2节点上。

使用命令:ssh datanode1

sudo scp hadoop@namenode /home/hadoop/hadoop-020.203 /home/hadoop/

exit

ssh datanode2

sudo scp hadoop@namenode /home/hadoop/hadoop-020.203 /home/hadoop/

exit

5)格式化hdfs系统 在主节点下执行hadoop fs namenode -format

start-all.sh 启动hadoop服务,关闭的话用stop-all.sh

在主节点下输入jps验证:

10492 Jps

2132 JobTracker

1817 NameNode

2980

2059 SecondaryNameNode

在数据节点datanode1和datanode2中输入jps验证进程是否启动。

出现上述结果则表明hadoop环境配置成功了。

6.在hadoop集群环境中运行wordcount程序。

1)hadoop中附带了小事例可以验证集群环境。

hadoop-0.20.203/hadoop-examples-0.20.203.0.jar有wordcount事例程序。

2)新建一个test.txt文件,在里面拷入文字。放到/home/hadoop/下,保证你的hadoop下的bin目录已经加到PATH环境变量中,否则无法直接执行hadoop命令

3)通过命令hadoop fs -put /home/hadoop/test.txt /  将test.txt传到hdfs文件系统中

4)执行命令

hadoop-0.20.203/hadoop-examples-0.20.203.0.jar wordcount /test.txt /out 将会在集群中运行词频统计程序

5)查看输出结果

hadoop fs -cat /out/part-r-00000 既可以看到词频统计的结果,也可以通过

hadoop fs -get /out/part-r-00000 /home/hadoop/out.txt将运行结果下载到本地文件系统中查看。

6)当运行下个程序时需要将输出结果文件夹里的内容清空,否则会出现错误。

hadoop fs -rmr /out

至此hadoop集群运行环境基本配置完成!!!!

linux

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/6710dd51b3730c3af07a70a8b5dafc7b.html