详解Hadoop 运行环境搭建过程(2)

注:

1.每次开机时修改一下/etc/resolv.conf文件设置网关

安装hadoop,形成hadoop集群安装单个hadoop

①解压,配置环境变量

②配置文件

对于本地模式,因为本地模式直接运行jvm上,所以不需要对配置文件做配置
对于伪分布式与完全分布式的常见相关配置集中在以下文件中

HDFShadoop-env.shcore-site.xml ---> nameNode节点 + hadoop 运行时产生文件的存储目录hdfs-site.xml 副本数 + SecondaryNameNode地址Yarnyarn-env.sh yarn-site.xml reducer 获取数据的方式 + 指定 YARN 的 ResourceManager 的地址 + 日志信息上传到 HDFS 系统上MapReducemapred-env.sh mapred-site.xml 指定 mr 运行在 yarn 上 + 历史服务器 对于xxx-env.sh 就是考虑JAVA_HOME。hadoop-env.sh添加JAVA_HOME,yarn可以辨别JAVA_HOME,mapreduce-env.sh可以不用配置,当然也可以全部都配置

常见的具体配置

<property><name>fs.defaultFS</name><value>hdfs://hadoop001:9000</value>
</property><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>伪分布式 副本1,无SecondaryNameNode节点<property><name>dfs.replication</name><value>3</value></property><property><name>dfs.namenode.secondary.http-address</name>
<value>hadoop004:50090</value></property><!-- reducer 获取数据的方式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定 YARN 的 ResourceManager 的地址 --><property><name>yarn.resourcemanager.hostname</name><value>hadoop001</value></property>
<!-- 日志聚集功能使能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 日志保留时间设置 7 天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><!-- 指定 mr 运行在 yarn 上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property>
<!-- 配置历史服务器--><property><name>mapreduce.jobhistory.address</name><value>hadoop001:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop001:19888</value>
</property>

编写集群分发脚本

1) scp:secure copy 安全拷贝

(a)将 hadoop001 中/opt/module 目录下的软件拷贝到 hadoop002 上。