可以根据 TORQUE 编写许多脚本来确定该队列系统的运行方式。在该扩展中,假设您已经安装了 TORQUE。TORQUE 是一个可以与 Moab 和 Maui 结合使用的资源管理器。可以参考 Colin Morey 编写的 开源 Nagios 插件。
下载并将其放在 /usr/local/nagios/libexec 目录,确定它可以执行。我必须稍微修改代码,将安装 Nagios 的目录从 use lib "/usr/nagios/libexec"; 更改为 use lib "/usr/local/nagios/libexec";。我还必须将 my $qstat = '/usr/bin/qstat' ; 更改为 qstat 命令。我的命令如下所示:my $qstat = '/opt/torque/x86_64/bin/qstat' ;。
验证它能运行(我使用的队列名为 dque):
[root@redhouse libexec]# ./check_pbs.pl -Q dque -tw 20 -tm 50 check_pbs.pl Critical: dque on localhost checked, Total number of jobs higher than 50. Total jobs:518, Jobs Queued:518, Jobs Waiting:0, Jobs Halted:0 |exectime=9340us您可以使用 -h 选项显示更多要监视的内容。现在将它放置到配置文件 /usr/local/nagios/etc/dallas/torque.cfg:
define service { use generic-service host_name localhost service_description TORQUE Queues check_command check_pbs!20!50 } define command { command_name check_pbs command_line $USER1$/check_pbs.pl -Q dque -tw $ARG1$ -tm $ARG2$ }重启 Nagios 之后,将在 localhost 下显示该服务。
图 6. TORQUE 服务在 Nagios 重启后出现
在我的例子中,我收到了一个严重警告,因为我的队列中有 518 个作业!
显然,跟踪 TORQUE 和脚本有很多方式。您可以使用 pbsnodes 通知节点状态。人们应该更关心节点的运行位置以及运行的作业。这个小示例将展示各种可能性,以及如何在很短的时间内完成监视解决方案。
阅读了该系列之后,系统管理员应该能够轻松运行 Ganglia 和 Nagios,以前所未有的方式监视其数据中心。这两个包的范围非常广泛。我们在这里接触的只是与集群、网格和云基础结构相关的内容。
设置该监视解决方案的大部分时间都用于配置要监视的服务。许多现有的替代解决方案都是平台而不是成品。换句话说,它们提供框架来支持插件,但很少有预先建好的插件。大部分插件的工作由管理员和用户完成,这些工作往往非常繁琐。实际上,这就是大部分数据中心监视的内容。
Ganglia 和 Nagios 不仅仅是一个插件平台。