Ganglia 和 Nagios,第 2 部分: 使用 Nagios 监视企业集

简介: 这是使用开源工具 Ganglia 和 Nagios 手动监视数据中心 系列 的第二篇文章。在第 2 部分中,将学习如何安装和配置 Nagios、常见的开源计算机系统、观察托管和服务的网络监视应用程序软件,并学习如何在出现问题时警告用户。本文还演示如何结合 Nagios 和 Ganglia(接 Ganglia 和 Nagios,第 1 部分:用 Ganglia 监视企业集群  ),如何为 Nagios 标准集群、网格、云添加两个额外特性,以帮助监视网络交换机和资源管理器。

第 1 部分回顾

数据中心正在不断增长,而管理职员却在缩减,因此公司迫切需要监视计算资源的工具。本系列的第 1 部分讨论了结合使用 Ganglia 和 Nagios 的好处,然后向您展示了如何使用自定义的监视脚本安装和扩展 Ganglia。

回顾 Ganglia 和 Nagios,第 1 部分:用 Ganglia 监视企业集群 中的多个监视 定义(取决于运行的环境):

如果在集群上运行应用程序,您会想:“我的作业何时运行?何时完成?相比上一次它的执行如何?” 如果是网络操作中心的操作员,您会想:“什么时候会看到红灯,表示需要修复某些内容或者需要安排某个服务?” 如果在系统工程组,您会想:“我们的机器如何执行?所有的服务功能都正常吗?趋势是什么?我们如何更好地利用计算资源?”

您可以找到代码来监视希望监视的内容,也可以 从开源代码中找到类似功能。使用开源监视工具最困难的地方在于,实现安装后如何找出最适合所在环境的配置。开源(和商业)监视软件有两个主要问题如下:

没有任何工具可以监视您所需的一切内容。 要让工具完全适应您的需求需要做许多自定义工作。

Ganglia 是一个监视数据中心的工具,频繁用于高性能计算环境中(但是对于其他环境,比如云、渲染场、寄存中心,它的吸引力也是很大的)。它更重视收集标准然后随时跟踪,而 Nagios 主要关注警告机制。Ganglia 用来请求代理在每个主机上运行,以收集主机信息,但是通过 Ganglia 的欺骗机制,现在可以轻松获取所有标准。Ganglia 没有内置的通知机制,但是它可以在目标主机上支持可扩展的内置代理。

学习了第 1 部分之后,您可能已经安装了 Ganglia,也能回答不同用户组可能咨询的监视问题。您也可能已经配置了基本的 Ganglia 设置,使用 Python 模块扩展 IPMI(Intelligent Platform Management Interface,智能平台管理界面)的功能,并使用 Ganglia 主机欺骗机制监视 IPMI。

现在,让我们了解一下 Nagios。

linux

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/3621b1c4dc40b343d88d75a2d364ca6f.html