Ganglia 和 Nagios,第 2 部分: 使用 Nagios 监视企业集(7)

扩展 Nagios:报告监视 TORQUE 的作业

可以根据 TORQUE 编写许多脚本来确定该队列系统的运行方式。在该扩展中,假设您已经安装了 TORQUE。TORQUE 是一个可以与 Moab 和 Maui 结合使用的资源管理器。可以参考 Colin Morey 编写的 开源 Nagios 插件

下载并将其放在 /usr/local/nagios/libexec 目录,确定它可以执行。我必须稍微修改代码,将安装 Nagios 的目录从 use lib "/usr/nagios/libexec"; 更改为 use lib "/usr/local/nagios/libexec";。我还必须将 my $qstat = '/usr/bin/qstat' ; 更改为 qstat 命令。我的命令如下所示:my $qstat = '/opt/torque/x86_64/bin/qstat' ;。

验证它能运行(我使用的队列名为 dque):

[root@redhouse libexec]# ./check_pbs.pl -Q dque -tw 20 -tm 50 check_pbs.pl Critical: dque on localhost checked, Total number of jobs higher than 50. Total jobs:518, Jobs Queued:518, Jobs Waiting:0, Jobs Halted:0 |exectime=9340us  

您可以使用 -h 选项显示更多要监视的内容。现在将它放置到配置文件 /usr/local/nagios/etc/dallas/torque.cfg

define service { use generic-service host_name localhost service_description TORQUE Queues check_command check_pbs!20!50 } define command { command_name check_pbs command_line $USER1$/check_pbs.pl -Q dque -tw $ARG1$ -tm $ARG2$ }  

重启 Nagios 之后,将在 localhost 下显示该服务。


图 6. TORQUE 服务在 Nagios 重启后出现

在我的例子中,我收到了一个严重警告,因为我的队列中有 518 个作业!

显然,跟踪 TORQUE 和脚本有很多方式。您可以使用 pbsnodes 通知节点状态。人们应该更关心节点的运行位置以及运行的作业。这个小示例将展示各种可能性,以及如何在很短的时间内完成监视解决方案。

结束语

阅读了该系列之后,系统管理员应该能够轻松运行 Ganglia 和 Nagios,以前所未有的方式监视其数据中心。这两个包的范围非常广泛。我们在这里接触的只是与集群、网格和云基础结构相关的内容。

设置该监视解决方案的大部分时间都用于配置要监视的服务。许多现有的替代解决方案都是平台而不是成品。换句话说,它们提供框架来支持插件,但很少有预先建好的插件。大部分插件的工作由管理员和用户完成,这些工作往往非常繁琐。实际上,这就是大部分数据中心监视的内容。

Ganglia 和 Nagios 不仅仅是一个插件平台。

linux

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/3621b1c4dc40b343d88d75a2d364ca6f.html