Hadoop2.6.0单机/伪分式安装部署(2)

  通过 可下载Hadoop稳定版 hadoop-2.x.y.tar.gz 文件都是编译好的,建议同时下载hadoop-2.x.y.tar.gz.mds,此mds文件是为了检验在下载和移动文件过程中文件的完整性。

  通过验证文件的md5值去检验文件的完整性:

1 $ cat ./hadoop-2.6.0.tar.gz.mds | grep 'MD5' 2 $ md5sum ./hadoop-2.6.0.tar.gz | tr 'a-z' 'A-Z'

  文件验证无误,将文件解压到安装目录:

1 $ cd /usr/lcoal #切换到压缩文件所在目录 2 $ sudo tar -zxf ./hadoop-2.6.0.tar.gz ./ #解压文件 3 $ sudo mv ./hadoop-2.6.0 ./hadoop #将文件名改为较容易辨认的 4 $ chown -R hadoop ./hadoop #修改文件权限

  在.bashrc文件中配置hadoop相关环境变量:

Hadoop2.6.0单机/伪分式安装部署

  生效环境变量,并验证Hadoop安装成功。

1 $ source ~/.bashrc 2 $ hadoop version

Hadoop单机/伪分布配置   单机Hadoop

  Hadoop 默认模式为非分布式模式,无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。

  注:单机、伪分布、集群的区别:

    单机:故名思意,Hadoop运行再单台服务器上,并且此时的Hadoop读取的是本地的文件系统,并没有使用自己的HDFS。

    伪分布:单机版集群,单台服务器既是NameNode,也是DataNode,并且也只有这一个DataNode,文件是从HDFS读取。

    集群:单机和伪分布说了集群就简单了。一般单独分配一台服务器作为NameNode,并且NameNode一般不会同时配置为DataNode,DataNode一般在其他服务器上,另外对大型集群,为体现Hadoop集群的高可用性,也会单独设置一台服务器作为集群的SecondaryNameNode,也就是NameNode的备份,主要用于NameNode失效时的快速恢复。

 伪分布Hadoop

  Hadoop 伪分布式的方式是在单节点上运行的,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件,Hadoop 进程以分离的 Java 进程来运行。

  Hadoop 的配置文件位于 $HADOOP_HOME/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。另外如果要启动YARN,需要再修改 mapred-site.xmlyarn-site.xml 两个配置文件。

  通过编辑器或 vim 对xml配置文件进行修改。

  修改 core-site.xml 配置文件:

1 <configuration> 2 <property> 3 <name>hadoop.tmp.dir</name> 4 <value>file:/usr/local/hadoop/tmp</value> 5 <description>Abase for other temporary directories.</description> 6 </property> 7 <property> 8 <name>fs.defaultFS</name> 9 <value>hdfs://localhost:9000</value> 10 </property> 11 </configuration>

  修改 hdfs-site.xml  配置文件:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/ed88761829bca082bac6e2cde6cdcbb1.html