该部分演示如何安装 Nagios 并绑定 Ganglia。我们将向 Nagios 添加两个特性,帮助您监视标准集群、网格、云(以及任何扩展计算的功能)。这两个特性的作用是:
监视网络交换机 监视资源管理器在本例中,我们将监视 TORQUE。完成之后,您将拥有一个控制监视整个数据中心系统的框架。
Nagios 与 Ganglia 一样,常用于 HPC 和其他环境,但是 Nagios 更加关注警告机制,Ganglia 则更加关注收集和跟踪指标。Nagios 以前只是从目标主机收集信息,但最近开发了可以在主机上运行代理的插件。Nagios 内置了一个通知系统。
现在我们安装 Nagios 并安装基本的 HPC Linux? 监视系统集群以满足不同的监视需求:
应用程序开发人员现在可以看到队列的饱和程度和运行作业的可用节点。 系统失败时会警告 NOC,并在 Nagios Web 界面看到闪烁的红点。如果节点异常或者温度太高,NOC 还将收到电子邮件通知。 系统工程师可以绘制数据,报告集群利用率,制定未来采购硬件的决策。