12/07/13 15:20:22 INFO input.FileInputFormat: Total input paths to process : 2
12/07/13 15:20:22 INFO mapred.JobClient: Running job: job_201207131429_0001
12/07/13 15:20:23 INFO mapred.JobClient: map 0% reduce 0%
12/07/13 15:20:32 INFO mapred.JobClient: map 100% reduce 0%
12/07/13 15:20:44 INFO mapred.JobClient: map 100% reduce 100%
12/07/13 15:20:46 INFO mapred.JobClient: Job complete: job_201207131429_0001
12/07/13 15:20:46 INFO mapred.JobClient: Counters: 17
12/07/13 15:20:46 INFO mapred.JobClient: Job Counters
12/07/13 15:20:46 INFO mapred.JobClient: Launched reduce tasks=1
12/07/13 15:20:46 INFO mapred.JobClient: Launched map tasks=2
12/07/13 15:20:46 INFO mapred.JobClient: Data-local map tasks=2
12/07/13 15:20:46 INFO mapred.JobClient: FileSystemCounters
12/07/13 15:20:46 INFO mapred.JobClient: FILE_BYTES_READ=79
12/07/13 15:20:46 INFO mapred.JobClient: HDFS_BYTES_READ=50
12/07/13 15:20:46 INFO mapred.JobClient: FILE_BYTES_WRITTEN=228
12/07/13 15:20:46 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=41
12/07/13 15:20:46 INFO mapred.JobClient: Map-Reduce Framework
12/07/13 15:20:46 INFO mapred.JobClient: Reduce input groups=5
12/07/13 15:20:46 INFO mapred.JobClient: Combine output records=6
12/07/13 15:20:46 INFO mapred.JobClient: Map input records=2
12/07/13 15:20:46 INFO mapred.JobClient: Reduce shuffle bytes=45
12/07/13 15:20:46 INFO mapred.JobClient: Reduce output records=5
12/07/13 15:20:46 INFO mapred.JobClient: Spilled Records=12
12/07/13 15:20:46 INFO mapred.JobClient: Map output bytes=82
12/07/13 15:20:46 INFO mapred.JobClient: Combine input records=8
12/07/13 15:20:46 INFO mapred.JobClient: Map output records=8
12/07/13 15:20:46 INFO mapred.JobClient: Reduce input records=6
(5)完成之后,查看结果:
root@Master:/opt/hadoop/bin# ./hadoop fs -cat /user/root/output/part-r-00000
Bye 1
GoodBye 1
Hadoop 2
Hello 2
World 2
root@Master:/opt/hadoop/bin# jps
3049 TaskTracker
2582 DataNode
2849 JobTracker
10386 Jps
2361 NameNode
2785 SecondaryNameNode
OK 以上部分,已完成了 ubuntu下单机hadoop的搭建。
--------------------------------------------------------
下面我们进行集群的搭建(3台ubuntu服务器)
参考
1、三台机器:已安装jdk,添加hadoop用户
ubuntu 10.2.128.46 master
ubuntu1 10.2.128.20 slave1
ubuntu2 10.2.128.120 slave2
修改三台机器所有的/etc/hosts文件如下:
127.0.0.1 localhost
10.2.128.46 master.Hadoop
10.2.128.20 slave1.Hadoop
10.2.128.120 slave2.Hadoop
以下操作均在Hadoop用户下操作
2、生成SSH证书,配置SSH加密key
su - hadoop //切换到hadoop用户
ssh-keygen -t rsa -P "" //生成ssh key
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys //设置允许ssh访问
在namenode(Master)上
hadoop@Master:~/.ssh$ scp authorized_keys Slave1.Hadoop:/home/hadoop/.ssh/
hadoop@Master:~/.ssh$ scp authorized_keys Slave2.Hadoop:/home/hadoop/.ssh/
测试:ssh node2或者ssh node3(第一次需要输入yes)。
如果不须要输入密码则配置成功,如果还须要请检查上面的配置能不能正确。
hadoop@Master:~/.ssh$ ssh Slave1.Hadoop
Welcome to Ubuntu precise (development branch)
hadoop@Master:~/.ssh$ ssh Slave2.Hadoop
Welcome to Ubuntu precise (development branch)
2、hadoop-0.20.2.tar.gz 拷贝到/home/linuxidc/install_Hadoop目录下
可采用的方法
1 ) 安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。并且安装路径要一致,如果我们用HADOOP_HOME指代安装的根路径,通常,集群里的所有机器的
HADOOP_HOME路径相同。
2 ) 如果集群内机器的环境完全一样,可以在一台机器上配置好,然后把配置好的软件即hadoop-0.20.203整个文件夹拷贝到其他机器的相同位置即可。
3 ) 可以将Master上的Hadoop通过scp拷贝到每一个Slave相同的目录下,同时根据每一个Slave的Java_HOME 的不同修改其hadoop-env.sh 。