1)下载并解压hadoop-0.20.203.0.修给解压文件夹名字为hadoop-0.20.203
2)按上述所示将hadoop-0.20.203/bin路径加到PATH环境变量中
sudo gedit/etc/profile
3)修改配置文件,配置文件都在hadoop-0.20.203/conf目录下。
a.进到/hadoop-0.20.203/conf/hadoop-env.sh中,解注释JAVA_HOME
修改为:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的临时文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-节点个数配置,根据你自己的节点来设定->
<value>2</value>
</property>
</configuration>
d、修改mapred-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
</property>
</configuration>
e、在masters和slave文件中分别配置主节点和各个数据节点:
masters:中写入namenode
slaves: 写入datanode1
datanode2
4)将hadoop-0.20.203目录拷贝到datanode1和datanode2节点上。
使用命令:ssh datanode1
sudo scp hadoop@namenode /home/hadoop/hadoop-020.203 /home/hadoop/
exit
ssh datanode2
sudo scp hadoop@namenode /home/hadoop/hadoop-020.203 /home/hadoop/
exit
5)格式化hdfs系统 在主节点下执行hadoop fs namenode -format
start-all.sh 启动hadoop服务,关闭的话用stop-all.sh
在主节点下输入jps验证:
10492 Jps
2132 JobTracker
1817 NameNode
2980
2059 SecondaryNameNode
在数据节点datanode1和datanode2中输入jps验证进程是否启动。
出现上述结果则表明hadoop环境配置成功了。
6.在hadoop集群环境中运行wordcount程序。
1)hadoop中附带了小事例可以验证集群环境。
hadoop-0.20.203/hadoop-examples-0.20.203.0.jar有wordcount事例程序。
2)新建一个test.txt文件,在里面拷入文字。放到/home/hadoop/下,保证你的hadoop下的bin目录已经加到PATH环境变量中,否则无法直接执行hadoop命令
3)通过命令hadoop fs -put /home/hadoop/test.txt / 将test.txt传到hdfs文件系统中
4)执行命令
hadoop-0.20.203/hadoop-examples-0.20.203.0.jar wordcount /test.txt /out 将会在集群中运行词频统计程序
5)查看输出结果
hadoop fs -cat /out/part-r-00000 既可以看到词频统计的结果,也可以通过
hadoop fs -get /out/part-r-00000 /home/hadoop/out.txt将运行结果下载到本地文件系统中查看。
6)当运行下个程序时需要将输出结果文件夹里的内容清空,否则会出现错误。
hadoop fs -rmr /out
至此hadoop集群运行环境基本配置完成!!!!