Ubuntu下Hadoop单机部署及分布式集群部署(3)

12/07/13 15:20:22 INFO input.FileInputFormat: Total input paths to process : 2
12/07/13 15:20:22 INFO mapred.JobClient: Running job: job_201207131429_0001
12/07/13 15:20:23 INFO mapred.JobClient:  map 0% reduce 0%
12/07/13 15:20:32 INFO mapred.JobClient:  map 100% reduce 0%
12/07/13 15:20:44 INFO mapred.JobClient:  map 100% reduce 100%
12/07/13 15:20:46 INFO mapred.JobClient: Job complete: job_201207131429_0001
12/07/13 15:20:46 INFO mapred.JobClient: Counters: 17
12/07/13 15:20:46 INFO mapred.JobClient:   Job Counters
12/07/13 15:20:46 INFO mapred.JobClient:     Launched reduce tasks=1
12/07/13 15:20:46 INFO mapred.JobClient:     Launched map tasks=2
12/07/13 15:20:46 INFO mapred.JobClient:     Data-local map tasks=2
12/07/13 15:20:46 INFO mapred.JobClient:   FileSystemCounters
12/07/13 15:20:46 INFO mapred.JobClient:     FILE_BYTES_READ=79
12/07/13 15:20:46 INFO mapred.JobClient:     HDFS_BYTES_READ=50
12/07/13 15:20:46 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=228
12/07/13 15:20:46 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=41
12/07/13 15:20:46 INFO mapred.JobClient:   Map-Reduce Framework
12/07/13 15:20:46 INFO mapred.JobClient:     Reduce input groups=5
12/07/13 15:20:46 INFO mapred.JobClient:     Combine output records=6
12/07/13 15:20:46 INFO mapred.JobClient:     Map input records=2
12/07/13 15:20:46 INFO mapred.JobClient:     Reduce shuffle bytes=45
12/07/13 15:20:46 INFO mapred.JobClient:     Reduce output records=5
12/07/13 15:20:46 INFO mapred.JobClient:     Spilled Records=12
12/07/13 15:20:46 INFO mapred.JobClient:     Map output bytes=82
12/07/13 15:20:46 INFO mapred.JobClient:     Combine input records=8
12/07/13 15:20:46 INFO mapred.JobClient:     Map output records=8
12/07/13 15:20:46 INFO mapred.JobClient:     Reduce input records=6


(5)完成之后,查看结果:
root@Master:/opt/hadoop/bin# ./hadoop fs -cat /user/root/output/part-r-00000
Bye     1
GoodBye 1
Hadoop  2
Hello   2
World   2

root@Master:/opt/hadoop/bin# jps
3049 TaskTracker
2582 DataNode
2849 JobTracker
10386 Jps
2361 NameNode
2785 SecondaryNameNode

OK 以上部分,已完成了 ubuntu下单机hadoop的搭建。

--------------------------------------------------------
下面我们进行集群的搭建(3台ubuntu服务器)

参考

1、三台机器:已安装jdk,添加hadoop用户
ubuntu 10.2.128.46 master
ubuntu1 10.2.128.20 slave1
ubuntu2 10.2.128.120 slave2

修改三台机器所有的/etc/hosts文件如下:
127.0.0.1       localhost
10.2.128.46     master.Hadoop
10.2.128.20     slave1.Hadoop
10.2.128.120    slave2.Hadoop

以下操作均在Hadoop用户下操作
2、生成SSH证书,配置SSH加密key

su - hadoop                         //切换到hadoop用户
  ssh-keygen -t rsa -P ""             //生成ssh key
  cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys  //设置允许ssh访问

在namenode(Master)上
hadoop@Master:~/.ssh$ scp authorized_keys Slave1.Hadoop:/home/hadoop/.ssh/
hadoop@Master:~/.ssh$ scp authorized_keys Slave2.Hadoop:/home/hadoop/.ssh/

测试:ssh node2或者ssh node3(第一次需要输入yes)。
如果不须要输入密码则配置成功,如果还须要请检查上面的配置能不能正确。
hadoop@Master:~/.ssh$ ssh Slave1.Hadoop
Welcome to Ubuntu precise (development branch)
hadoop@Master:~/.ssh$ ssh Slave2.Hadoop
Welcome to Ubuntu precise (development branch)

2、hadoop-0.20.2.tar.gz 拷贝到/home/linuxidc/install_Hadoop目录下
可采用的方法
1 ) 安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。并且安装路径要一致,如果我们用HADOOP_HOME指代安装的根路径,通常,集群里的所有机器的
HADOOP_HOME路径相同。
2 ) 如果集群内机器的环境完全一样,可以在一台机器上配置好,然后把配置好的软件即hadoop-0.20.203整个文件夹拷贝到其他机器的相同位置即可。
3 ) 可以将Master上的Hadoop通过scp拷贝到每一个Slave相同的目录下,同时根据每一个Slave的Java_HOME 的不同修改其hadoop-env.sh 。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/65caa80911f473a1a9bbf3ece3e096e7.html