XenServer安装配置Hadoop 0.20.203实例

一、XenServer安装

1.搭建完全的Hadoop分布式计算平台,至少需要2~3台机器,这需要了解Hadoop的组成,从HDFS的角度包括NameNode(NN)和DataNode(DN),从Map/Reduce的角度包括JobTracker(JT)和TaskTracker(TT),其中NN和JT所在的主机称为Master,可以分机器部署也可以部署在一台机器上,除此之外的DN和TT称为Slaves。如果是搭建单机环境,以上四部分也可以部署在同一台机器上,因为手上有一台4G内存的机器,所以我们进行完全分布式部署。

2.之所以选择Xenserver,是因为比Vmware Sphere更易于安装配置,而且最重要的是免费,最新版是5.6,提供了XenMotion(相当于VMotion)、Convert、存储管理等高级功能,可惜免费授权不提供XenServer的HA功能,用于实际业务系统缺少了一层保障。安装光盘的ISO免费下载,裸机直接安装,然后在Windows上安装XenCenter,使用XenCenter连接上装有XenServer的服务器以后,需要先获得免费授权,否则这台服务器只能使用30天,点击‘Tools’-‘License Manager’,在弹出的窗口中选中需要制作授权文件的XenServer,然后选‘Request Activation Keys...’,会弹出网页,要求输入一些信息,提交后会有包含授权文件的邮件发到邮箱里,还在在‘License Manager’窗口中,选‘Apply Activation Keys...’,选择授权文件,这样,XenServer就可以使用一年了。最后的效果如下图:

XenServer安装配置Hadoop 0.20.203实例

3.开始在XenServer中安装虚拟机,只要先装一台,其他的机器可有由模板生成,我习惯使用CentOS 5.5 X86_64,安装过程跟VMware没什么区别,你可以用你所知道的方法把ISO文件挂到XenCenter上,包括NFS,CIFS,ISCSI等等,当然也可以直接用光盘:)

安装完成以后,关闭虚拟机,点击右键‘Convert to Template’,然后从模板中生成3个虚拟机实例,启动以后配置相应的IP地址和主机名,这三台机器要能互相解析:

210.45.176.49 hadoop1.ahau.edu.cn hadoop1 NameNode和JobTracker Master主机

210.45.176.50 hadoop2.ahau.edu.cn hadoop2 DataNode和TaskTracker Slave主机

210.45.176.46 hadoop3.ahau.edu.cn hadoop3 DataNode和TaskTracker Slave主机

二、配置SSH、JAVA

4.在三台机器上增加用户grid,用于Hadoop的配置和运行,并且都配置互相SSH 免密码登录,分别制作一对ssh密钥,以hadoop1上的命令为例

$ssh-keygen –t rsa ##生成ssh密钥对

$ssh-copy-id –i ~/.ssh/id_rsa.pub grid@hadoop2 ##把自己的公钥分别加到其他机器的authorized_keys文件中

互相加完以后不要忘记把自己的公钥也加到authorized_keys里,否则启动Hadoop时会有提示,很讨厌

$cat ~/.ssh/id_rsa.pub >> authorized_keys

5.在三台机器上安装JAVA环境,从Oracle的网站上下载最新的jdk,jdk-6u25-linux-x64.bin,在Hadoop1上安装,安装路径为/usr/local/jdk1.6.0_25,三台机器的安装路径最好一致,方便以后配置

三、配置Hadoop

6.在Hadoop1上下载Hadoop,稳定版为0.20.203,解压到/home/grid/hadoop目录下,修改conf/hadoop-env.sh,至少要设置JAVA_HOME为JAVA的安装路径

7.Hadoop的配置文件被分为三个,均在conf目录下,core-site.xml,hdfs-site.xml和mapred-site.xml,这三个文件的配置示例在src/core/core-default.xml,src/hdfs/hdfs-default.xml,src/mapred/mapred-default.xml中,同时也是默认配置,不要直接修改这三个目录中的文件,如果需要修改将他们复制到conf目录下的对应文件后再修改

8.配置core-site.xml,添加如下行:

<configuration>

<property>
<name>hadoop.tmp.dir</name>
<value>/home/grid/hadoop/tmp</value> ##设定Hadoop的临时目录
<description> </description>
</property>

<property>
<name>fs.default.name</name>
<value>hdfs://hadoop1.ahau.edu.cn:9100</value> ##设置文件系统的路径
</property>

</configuration>

9.配置hdfs-site.xml,添加如下行:

<configuration>

<property>
<name>dfs.relplication</name> ##HDFS的副本数,默认为3,如果DataNode的数量小于这个值会有问题
<value>2</value>
</property>

</configuration>

10.配置mapred-site.xml,添加如下行:

<configuration>

<property>
<name>mapred.job.tracker</name>
<value>hadoop1.ahau.edu.cn:9200</value> ##设置MapReduce Job运行的主机和端口
</property>

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/pszdz.html