在VMware Workstation的Ubuntu下安装和配置Hadoop与Gang(3)

日期：2020-05-31 栏目：程序人生浏览：次

3.安装和配置Hadoop

　　先从Hadoop官网或者镜像网站上下载Hadoop的相应版本，下面是下载地址：

　　我下载的是hadoop-0.20.203.0rc1.tar.gz，然后直接复制粘贴到Ubuntu的Desktop上，再在/usr目录下建立hadoop文件夹，

　　将hadoop-0.20.203.0rc1.tar.gz文件直接解压到到/usr/hadoop目录下。　　　　　　

在VMware Workstation的Ubuntu下安装和配置Hadoop与Gang

　　解压之后，需要配置系统环境变量：

　　运行命令 sudo gedit /etc/profile

　　添加如下内容（注意HADOOPHOME是自己的hadoop-0.20.203.0rc1.tar.gz文件解压所在路径）：

export HADOOPHOME=/usr/hadoop/hadoop-0.20.203.0 export PATH=$HADOOPHOME/bin:$PATH

　　添加完之后source /etc/profile，以保存更改。

　　然后需要更改hadoop文件夹的所属者，将所属者赋予当前用户，我的当前用户是zwl（这个步骤很重要，否则集群运行时会提示权限不够），输入下面这个条命令（后面的zwl表示当前用户名，/usr/hadoop表示要修改的文件夹）：

　　sudo chown -hR zwl /usr/hadoop

　　接下来需要配置/usr/hadoop/hadoop-0.20.203.0/conf/hadoop-env.sh文件：

　　在该文件中添加内容：

export JAVA_HOME=/usr/lib/java/jdk1.6.0_45

　　最后需要修改/usr/hadoop/hadoop-0.20.203.0/conf/目录下的core-site.xml、hdfs-site.xml、mapred-site.xml这三个文件：

　　三个文件的内容修改为下：

core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/configuration.xsl"?>

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

在进行这些配置之后需要安装ssh，依次输入命令

　　sudo apt-get install ssh

　　sudo apt-get install rsync

　　完成之后输入命令

　　ssh localhost

　　如果没有提示错误则安装成功（默认的.ssh文件夹在 /home/用户名/ 这个路径下，它是隐藏文件，快捷键Ctrl+H可以显示隐藏文件），然后需要为ssh设置免密码登录和设置权限，依次输入下面几条命令：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
chmod 700 ~/.ssh
chmod 644 ~/.ssh/authorized_keys

　　完成之后再输入ssh localhost如果不需要输入密码的话则配置ssh免密码登录成功。

　　现在就可以启动hadoop集群了：

　　先进入到目录/usr/hadop/hadoop-0.20.203.0命令下，输入命令进行格式化:

　　bin/hadoop namenode -format

　　然后启动集群：bin/start-all.sh,，如果提示以下信息则表示安装成功：

在VMware Workstation的Ubuntu下安装和配置Hadoop与Gang

　　关闭集群可以通过命令bin/stop-all.sh来关闭。

　　hadoop集群启动之后就可以向它提交作业了，一般提交作业先需要将输入文件上传到HDFS，再将整个作业进行提交：

　　以自带的wordcount程序为例：

　　先进入到hadoop目录下面，输入命令：

bin/hadoop dfs -put /usr/test.txt /home/testin

　　这条命令要注意两个参数：/usr.text.txt 是需要单词计数的源文件所在路径，/home/testin是HDFS读取输入文件所在路径

　　然后就可以提交了:

bin/hadoop jar hadoop-examples-*.jar wordcount /home/testin /home/testout

　　这条命令主要注意后面两个路径，第一个路径是输入所在路径，第二个路径是作业执行的输出结果路径。

　　至此hadoop集群的安装和配置已经完成，接下来需要安装和配置Ganglia

转载注明出处：http://www.heiqu.com/19630.html

在VMware Workstation的Ubuntu下安装和配置Hadoop与Gang(3)

相关推荐