操作流程(请谨慎处理,做好double check!!!)
1.备份主节点 的current 目录
2.在second namenode 上执行./Hadoop-daemon.sh start namenode -checkpoint
3.等待30-40分钟,待checkpoint 完成后。到主节点上的current文件check fsimage 的修改时间,看是否已经同步成功。
然后执行./hadoop-daemon.sh stop namenode ,停止second Namenode
4.修改主节点的conf 目录下的 hadoop-env.sh 文件,修改其中的JVM参数。注意提前做好实验和计算估计
5.在主节点上 执行 ./hadoop-daemon.sh stop namenode,如果不成功就 kill -9 PID
6.重启NameNode ./hadoop-daemon.sh start namenode
1).加载元数据文件fsimage(~10 min)
2).加载操作日志edits(1~2 min)
3).存储元数据到fsimage(3~4 min)
7.查看nameNode 日志,等待块汇报信息完成(10~15 min)
8.手动触发一次Full GC ,将重启过程中old区临时对象回收
9.服务正常后,发送邮件说明集群恢复正常
10.后续定期观察邮件报表的GC情况
Tracking
TimeReasonPriorityImportanceDesc.befor GCafter GC处理人反馈
相关阅读:
Ubuntu 13.04上搭建Hadoop环境