打怪升级之小白的大数据之旅(四十三)<Hadoop运行模式(集群搭建)> (7)

第一步:配置yarn-site.xml

# 还是进入etc配置文件 cd /$HADOOP_HOME/etc/hadoop # 编辑配置文件 vim yarn-site.xml # 编辑内容 <!-- 开启日志聚集 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 访问路径--> <property> <name>yarn.log.server.url</name> <value>:19888/jobhistory/logs</value> </property> <!-- 保存的时间7天 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>

第二步:分发配置

xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

第三步:关闭NodeManager 、ResourceManager和HistoryServer

在hadoop103上执行: stop-yarn.sh 在hadoop102上执行: mapred --daemon stop historyserver

第四步:启动NodeManager 、ResourceManage、Timelineserver和HistoryServer

在hadoop103上执行:start-yarn.sh 在hadoop103上执行:yarn --daemon start timelineserver 在hadoop102上执行:mapred --daemon start historyserver

第五步:删除HDFS上已经存在的输出文件

hdfs dfs -rm -R /user/atguigu/output

第六步:执行WordCount程序

# 重复我们前面测试集群是否成功的那个案例,记得在input中放入测试数据文件 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

第七步:查看日志,

:19888/jobhistory 配置集群的时间同步

时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间

因为我们的集群是一个整体,所以必须保证所以服务器是一摸一样的,这样才可以完美地进行各项任务

第一步:时间服务器配置(必须root用户)

在102上关闭ntp服务和自启动 sudo systemctl stop ntpd sudo systemctl disable ntpd

第二步:修改ntp配置文件

# 修改ntp配置文件 sudo vim /etc/ntp.conf、 # 将下面这个的注释删除# 目的是为了设置其他节点都以这台服务器的时间为基准 restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap # 将下面内容进行注释,目的是集群在局域网中,不使用其他互联网上的时间 #server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst # 添加下面的内容,目的是当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步 server 127.127.1.0 fudge 127.127.1.0 stratum 10

第三步:修改/etc/sysconfig/ntpd 文件

sudo vim /etc/sysconfig/ntpd # 添加下面内容,目的是让硬件时间与系统时间一起同步 SYNC_HWCLOCK=yes

第四步:重启服务

systemctl start ntpd systemctl enable ntpd

第五步:其他机器配置(必须root用户)

# 其他服务器设置定时脚本,我这里每10分钟同步一次时间 crontab -e # 编写定时任务 */10 * * * * /usr/sbin/ntpdate hadoop102 总结

本章节的细节点比较多,在两年前,只要是能完美完成集群搭建的人,在公司都是横着走的,当然今天这是我们大数据人员必不可少的技能

历史服务器和日志的聚集是为了日后我们工作中可以很方便地管理我们的集群,当然了,在我们学习这些知识点的时候,没有必要开启服务,因为它耗费资源,时间同步也是一样。当然,在我们的工作中,是必须要开启的哈

一定注意集群启动的位置,我已经强调了很多遍了,下一章,我会对一些常见问题进行总结,大家根据需要进行查看

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgysss.html