接上篇编译完Hadoop-2.2.0,下面详细的介绍下如何在Ubuntu12.04-64 server安装并配置Hadoop集群。
再次强调:我们从Apache官方网站下载的Hadoop2.2是linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译。编译的详细步骤参见:编译hadoop2.2.0
为了方便阐述,我们这里搭建一个有三台主机的小集群。
三台主机的OS:Ubuntu 12.04-64 server
三台机器的分工如下:
Master: NameNode/ResouceManager
Slave1:DataNode/NodeManager
Slave2: DataNode/NodeManager
假定三台虚拟机的IP地址如下,后面会用到。
Master
:129.1.77.6
Slave1: 129.1.77.5
Slave2: 129.1.77.7
下面开始Hadoop的安装与配置;
1.首先在三台机器上创建相同的用户(这是Hadoop的基本要求)
创建用户的步骤如下:
(1) sudo addgroup hadoop
(2) sudo adduser --ingroup hadoop haduser
编辑/etc/sudoers编辑文件,在root ALL=(ALL)ALL行下添加haduser ALL=(ALL)ALL。如果不添加这行,haduser将不能执行sudo操作。
2.接下来的工作:
1)
确保三台机器上已经安装了jdk,并正确配置了环境变量,jdk的安装见 ;
2)在三台主机上安装了OpenSSH,并正确配置SSH可以无密码登录;
3.下面安装ssh
3.1一般系统是默认安装了ssh命令的。如果没有,或者版本比较老,则可以重新安装:
sodu apt-get install ssh
3.2设置local无密码登陆
安装完成后会在~目录(当前用户主目录,即这里的/home/haduser)下产生一个隐藏文件夹.ssh(ls -a 可以查看隐藏文件)。如果没有这个文件,自己新建即可(mkdir .ssh)。
具体步骤如下:
1、 进入.ssh文件夹
2、 ssh-keygen -t rsa 之后一路回车(产生秘钥)
3、 把id_rsa.pub 追加到授权的 key 里面去(cat id_rsa.pub >> authorized_keys)
4、 重启 SSH 服务命令使其生效
注意:以上操作在每台机器上面都要进行。
3.4 此时已经可以进行ssh的无密码登陆,查看是否可以从master主机无密码登录slave,输入命令:
$:ssh slave1
$:ssh slave2
4.在三台主机上分别设置:/etc/hosts 和/etc/hostname
hosts这个文件用于定义主机名和IP地址之间的映射关系。
127.0.0.1 localhost
129.1.77.6 master
129.1.77.5 slave1
129.1.77.7 slave2
hostname这个文件用于定义Ubuntu的主机名:如:master(或者slave1等)
5.以上正确完成之后便可进入Hadoop的安装
以下操作以haduser登录进行操作。
由于hadoop集群中每个机器上面的配置基本相同,所以我们先在namenode上面进行配置部署,然后再复制到其他节点。所以这里的安装过程相当于在每台机器上面都要执行。但需要注意的是集群中64位系统和32位系统的问题。
5.1、 下载并解压
hadoop-2.2.0.tar.gz
文件
将在64位机器上编译好的
hadoop-2.2.0拷贝
到/home/hduser/hadoop路径下。
5.2、HDFS安装配置
1)
配置/home/hduser/hadoop/etc/hadoop/hadoop-env.sh
替换exportJAVA_HOME=${JAVA_HOME}为如下:
export JAVA_HOME=/usr/jdk1.7.0_45 (以自己的jdk为准)
同样,配置
yarn-env.sh,在里面加入:
export JAVA_HOME=/usr/jdk1.7.0_45 (以自己的jdk为准)
2)配置etc/hadoop/core-site.xml文件内容:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000/</value>
<description>The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri's scheme determines the config property (fs.SCHEME.impl) naming the FileSystem implementation class. The uri's authority is used to determine the host, port, etc. for a filesystem.</description>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop-${user.name}</value>
<description></description>
</property>
</configuration>
3)配置etc/hadoop/hdfs-site.xml文件内容:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>