使用Nagios打造专业的业务状态监控 (3)

max_check_attempts:重试几次来最终确定服务的状态,例如我们一个服务挂了,需要重试3次才会确定这个服务确实是挂了,然后发邮件或短信通知我们

check_interval:检查频率配置,在服务正常的情况下多长时间轮训检查一次,这里为了更及时的反馈结果我们配置一分钟一次

retry_interval:当服务状态发生变更的时候多长时间轮序检查一次,我们也给配置一分钟一次

contact_groups:定义联系人组,当发生故障需要报警时,发送报警给哪个组,这个组的配置文件在/usr/local/nagios/etc/objects/contacts.cfg

contact_groups我们配置了admins,接下来看下contacts.cfg的配置 define contact{ contact_name sa ; Short name of user use generic-contact ; Inherit default values from generic-contact template (defined above) alias Nagios Admin ; Full name of user service_notification_period 24x7 host_notification_period 24x7 service_notification_options w,u,c,r host_notification_options d,u,r host_notification_commands notify-host-by-email,notify-host-by-sms service_notification_commands notify-service-by-email,notify-service-by-sms email ops-coffee@domain.com pager 15821212121,15822222222 } define contactgroup{ contactgroup_name admins alias Nagios Administrators members sa }

contactgroup就是我们定义的联系人组admins

admins组管理了成员sa联系人

sa联系人定义了主机和服务的命令,例如这里我们定义的notify-host-by-email,notify-host-by-sms发邮件和发短信的命令,这个命令的定义位置跟我们check_http的定义都在文件/usr/local/nagios/etc/objects/commands.cfg文件内

全部配置完成后重启nagios服务,会看到监控已经正常

使用Nagios打造专业的业务状态监控

Nagstamon插件

介绍一款配合nagios用起来非常棒的插件Nagstamon,Nagstamon是一款nagios的桌面小工具(实际上现在不仅仅能配合nagios使用,还能配合zabbix等使用),启动后常驻系统托盘,当nagios监控状态发生变化时会及时的跳出来并发出声音警告,能够更加及时的获取业务状态。

配置如下:

使用Nagios打造专业的业务状态监控

Update interval能够配置多长时间取一次nagios的状态,我们这里调整为1s

当出现报警时桌面直接飙红,给你心跳加速的感觉

使用Nagios打造专业的业务状态监控

写在最后

业务状态监控作为Zabbix之类过程监控的补充,并不能替代过程监控系统,在我们过程监控不是很完善的情况下很有用,目前我们有相当一部分的报警都首先发现于这套业务状态监控

选择Nagios主要是她比较纯粹,专注状态监控(有插件实现过程记录),且对Nagios比较熟悉了。Nagios看似配置复杂,几个配置文件环环相扣,实际上理清楚配置文件之间的关系就会发现配置合理且简单

部署的状态监控节点越多覆盖地区越多用户状态获取就越准确,但由于网络环境复杂,我们也不可能在每个省市、节点部署监控系统来监控项目的状态,如有必要可以考虑一些商业监控方案,能够做到全球节点监控,但相应的成本可能就会增加,要综合权衡

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpxzwd.html