详解Hadoop 运行环境搭建过程(2)
注:
1.每次开机时修改一下/etc/resolv.conf文件设置网关
安装hadoop,形成hadoop集群安装单个hadoop
①解压,配置环境变量
②配置文件
对于本地模式,因为本地模式直接运行jvm上,所以不需要对配置文件做配置
对于伪分布式与完全分布式的常见相关配置集中在以下文件中
HDFShadoop-env.shcore-site.xml ---> nameNode节点 + hadoop 运行时产生文件的存储目录hdfs-site.xml 副本数 + SecondaryNameNode地址Yarnyarn-env.sh yarn-site.xml reducer 获取数据的方式 + 指定 YARN 的 ResourceManager 的地址 + 日志信息上传到 HDFS 系统上MapReducemapred-env.sh mapred-site.xml 指定 mr 运行在 yarn 上 + 历史服务器 对于xxx-env.sh 就是考虑JAVA_HOME。hadoop-env.sh添加JAVA_HOME,yarn可以辨别JAVA_HOME,mapreduce-env.sh可以不用配置,当然也可以全部都配置
常见的具体配置
<property><name>fs.defaultFS</name><value>hdfs://hadoop001:9000</value> </property><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-2.7.2/data/tmp</value> </property>伪分布式 副本1,无SecondaryNameNode节点<property><name>dfs.replication</name><value>3</value></property><property><name>dfs.namenode.secondary.http-address</name> <value>hadoop004:50090</value></property><!-- reducer 获取数据的方式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定 YARN 的 ResourceManager 的地址 --><property><name>yarn.resourcemanager.hostname</name><value>hadoop001</value></property> <!-- 日志聚集功能使能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 日志保留时间设置 7 天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><!-- 指定 mr 运行在 yarn 上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property> <!-- 配置历史服务器--><property><name>mapreduce.jobhistory.address</name><value>hadoop001:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop001:19888</value> </property>
编写集群分发脚本
1) scp:secure copy 安全拷贝
(a)将 hadoop001 中/opt/module 目录下的软件拷贝到 hadoop002 上。