通过 可下载Hadoop稳定版 hadoop-2.x.y.tar.gz 文件都是编译好的,建议同时下载hadoop-2.x.y.tar.gz.mds,此mds文件是为了检验在下载和移动文件过程中文件的完整性。
通过验证文件的md5值去检验文件的完整性:
1 $ cat ./hadoop-2.6.0.tar.gz.mds | grep 'MD5' 2 $ md5sum ./hadoop-2.6.0.tar.gz | tr 'a-z' 'A-Z'
文件验证无误,将文件解压到安装目录:
1 $ cd /usr/lcoal #切换到压缩文件所在目录 2 $ sudo tar -zxf ./hadoop-2.6.0.tar.gz ./ #解压文件 3 $ sudo mv ./hadoop-2.6.0 ./hadoop #将文件名改为较容易辨认的 4 $ chown -R hadoop ./hadoop #修改文件权限
在.bashrc文件中配置hadoop相关环境变量:
生效环境变量,并验证Hadoop安装成功。
1 $ source ~/.bashrc 2 $ hadoop version
Hadoop单机/伪分布配置 单机HadoopHadoop 默认模式为非分布式模式,无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。
注:单机、伪分布、集群的区别:
单机:故名思意,Hadoop运行再单台服务器上,并且此时的Hadoop读取的是本地的文件系统,并没有使用自己的HDFS。
伪分布:单机版集群,单台服务器既是NameNode,也是DataNode,并且也只有这一个DataNode,文件是从HDFS读取。
集群:单机和伪分布说了集群就简单了。一般单独分配一台服务器作为NameNode,并且NameNode一般不会同时配置为DataNode,DataNode一般在其他服务器上,另外对大型集群,为体现Hadoop集群的高可用性,也会单独设置一台服务器作为集群的SecondaryNameNode,也就是NameNode的备份,主要用于NameNode失效时的快速恢复。
伪分布HadoopHadoop 伪分布式的方式是在单节点上运行的,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件,Hadoop 进程以分离的 Java 进程来运行。
Hadoop 的配置文件位于 $HADOOP_HOME/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。另外如果要启动YARN,需要再修改 mapred-site.xml 和 yarn-site.xml 两个配置文件。
通过编辑器或 vim 对xml配置文件进行修改。
修改 core-site.xml 配置文件:
1 <configuration> 2 <property> 3 <name>hadoop.tmp.dir</name> 4 <value>file:/usr/local/hadoop/tmp</value> 5 <description>Abase for other temporary directories.</description> 6 </property> 7 <property> 8 <name>fs.defaultFS</name> 9 <value>hdfs://localhost:9000</value> 10 </property> 11 </configuration>
修改 hdfs-site.xml 配置文件: