解放运维的双手,谈自动化运维管理平台设计 (3)

这个不多说,数据库中的数据往往是企业的核心资产。数据库日志反映着数据库的每一步每一个事务的操作,以及数据库运行的监控状况,进行日志监控和分析时,数据库日志是不可缺少的。

四、设备日志

设备日志往往是比较容易忽略的。但设备日志可以直观地反映出设备运行的状况,以及设备出现问题的时候,可以通过日志快速准确地找到原因。如交换机日志、防火墙日志等。通过防火墙日志可以看出系统是否遭受攻击,交换机日志可以看到网络流量是否呈现陡增陡降等突发状况。实时监控和管理设备日志是日志管理的重要工作之一。

4知识库

在基础数据中,我们单独设立知识库这样一个模块,主要包含事件库、问题库、经典案例库、解决方案库等。

事件库主要是在运维工作中遇到的一些运维事件或是事故,在事件库中详细记录事件的原因和处理过程。如果涉及到需求变更或是需要修改系统进行解决的,此时由事件库进入到问题库。

问题库涉及到问题解决流程,问题解决的过程中,可能涉及到应用变更发布等。通过问题库的统计可以侧面反馈系统的状况。

经典案例库记录了解决经典问题的方式和方法。例如记录了防火墙故障,交换机故障时如何从查找原因到排故到解决的过程,以供解决类似故障处理参考。

解决方案库主要存放一些经典的解决方案如Nginx+Tomcat+Redis的部署方案、MySQL的HA、Oracle的RAC等等解决方案。以便在构建新的系统的时候可以快速地选择解决方案。

基础数据为以后的运维工作做铺垫,基础数据的收集一定要全面,不能遗漏,否则就是以后运维的一个潜在问题点。

监控模块

监控模块主要分为以下几个部分:

解放运维的双手,谈自动化运维管理平台设计

1系统监控

主要监控系统层面的健康状况如内存、CPU告警、硬盘存储不足等等,系统层面的监控可以快速反应系统问题,运维工程师可以提前处理可能出现的系统问题。

2网络监控

通过进行网络监控,包括网络的正常性,是否联通,网络访问量是否陡增陡降等,来监控和预防网络问题带来的故障。

3应用监控

主要监控应用的可用性如Tomcat的端口、Nginx的端口、错误日志等等。应用出现问题导致应用不可用,都可以通过应用监控及时发现。

4数据库监控

主要监控数据库的可用性,通过监控数据库状态,日志是否有警告错误,表空间等方面来监控数据库可用与否。

5业务数据监控

通过业务数据监控以监控系统中是否含有业务逻辑错误的情况。例如:每一笔订单支付成功都应该有对应的支付流水号和物流流水号。通过监控数据库中的数据,来观察是否已经生成支付流水和物流流水。

6全链路监控

通过全链路监控可以明确地看到业务操作的每一步正确与否。

7第三方监控

以上6种监控基本都是从公司内部进行监控的,如果是公司级别的网络问题或是服务器大面积故障,可能就难以通过内部监控得到信息,此时需要借第三方云监控进行协助监控,如监控宝、听云等产品。

通过监控可以主动及时地得到系统的故障信息,在与业务部门的沟通中,化被动告知为主动监控,也为解决故障赢得宝贵的时间,这样可以把影响范围和影响时间降至最低。

灾备管理平台

解放运维的双手,谈自动化运维管理平台设计

灾备管理,有条件的话可以两地三中心,即同城实时,异地延迟备份。注意一定不能全部都是实时备份,否则在出现问题的时候,尤其是数据篡改实时同步到备份端的话,也将是错误的数据。所以一定要有实时和延迟的策略。另外备份层面可以分数据库备份、文件备份(如应用程序包等)、虚拟机备份和存储级别的备份。

有备份就一定要有验证,而且验证要持续不间断,有计划地实施。只要通过验证可用的备份集才能保障系统的可用性。

在灾备管理模块存储各种系统的应急预案,这样在出现灾难性故障的时候,可以迅速启动应急预案,进行灾难处理。

自动化运维和安全

1安全

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzwxff.html