1.2.1.3 监控报警
监控是指对在线服务和非服务的在线服务器和相应的进程进行状态检测,当出现宕机或者某项服务进程僵死之后,能够在尽量短的时间获得该信息,然后通过报警系统将信息发送到一线运维人员。所以,监控报警,直接影响宕机时间。监控报警,主要从以下几个方面展开:
(1) 监控主机CPU使用情况,负载情况。
(2) 监控主机内存使用情况。
(3) 监控主机IO外设,主要以磁盘为主。如磁盘的读写、磁盘使用量等。
(4) 监控主机网卡使用情况。网卡是否损坏,是否招到DDOS攻击。
(5) 监控应用进程,包括web server ,应用服务器等。
(6) 监控数据库使用情况。包括用户的请求数、缓存使用量等。
(7) 监控交换设备的使用情况。网络入、出的流量。
(8) 监控IDC机房温度、湿度等。
(9) 防火墙、入侵检测等安全检测、监控等。
通过上面的各项监控、得到相应数值,应用监控绘图软件,把相应的数值绘画出来,现有监控绘图软件有mrtg、cacti、nagios等。然后设置一个报警阈值,如果超过该阈值,那么通过报警系统,比如短信、msn、邮件、甚至是声音完成报警功能。典型的报警系统如图3-2-1-3所示。
图3-2-1-3
如图3-2-1-3所示,监控服务器从servers上收集系统信息,如果发现系统的某项状态指数超过预设的阈值,则发送邮件到运维人员。同时,把相应的报警信息发送到短信运营商的短信网关服务器,然后短信网关服务器发送短信到运维人员手机中,完成短信报警。上述报警过程,传送邮件报警信息,是基于TCP/IP协议,而传送短信报警信息,是基于gprs网络。