在启动集群服务以后,请确保应用程序已启动并正在运行,该应用程序提供的所有服务应该可用,并且客户端能够连接。
验证应用程序进程已启动并正在运行,并且该应用程序需要的所有资源(卷组、文件系统、逻辑卷和 IP 地址)都可用。
强烈建议您测试已定义的每个应用程序服务器的启动和停止脚本。取决于运行这些脚本的节点,可能需要对其做出一些修改。必须小心编写启动脚本,以使应用程序能够从任何以前的异常终止中恢复。停止脚本必须使应用程序能够正确关闭,使数据保持同步,并释放所有资源。
可以使用应用程序进程监视或自定义应用程序监视来监视应用程序的状态。
应用程序进程监视
此类监视使用 RSCT 功能在应用程序进程级别工作,并且非常易于配置。用于监视的值高度依赖于应用程序的特征。建议使用以下指导原则:
确保已定义了一个应用程序服务器。 确保使用命令 ps –el 的输出来指定要监视的进程名称。 确保指定了正确的进程所有者。 确保指定了正确的实例数量。 应该选择足够长的稳定间隔,以使应用程序能够从任何以前的异常关闭中恢复。 确保正确设置了重新启动计数。您不会希望尝试无限期地重新启动某个永远不会在一个节点上启动的应用程序;相反,您应该尝试启动故障转移。 确保正确设置了重新启动间隔。如果此间隔非常短,则重新启动计数器将会重置,并且故障转移或通知操作可能在应该发生的时候没有发生。 如果需要在应用程序发生故障的情况下采取任何特殊措施,可以将这些措施包括在在用于清理方法的脚本中。自定义应用程序监视:
您必须编写自己的脚本来监视与您的应用程序相关的所有参数。应该在无法使用应用程序进程监视的时候使用此方法。如果应用程序工作正常,确保您的脚本返回退出代码 0。
在监视集群时,您可能希望查看资源组和拓扑的状态。资源组可以处于以下状态中的某一种状态:在线、离线、获取、释放、错误、临时错误或未知。
可以使用命令 /usr/es/sbin/cluster/utilities/clfindres 或 clRGinfo 来确定资源组的状态。两种方法的结果应该完全相同,因为 /usr/es/sbin/cluster/utilities/clfindres 调用 clRGinfo。
此命令的最常用标志包括:
-t 如果希望显示某个自定义资源组的停留时间和延迟退回计时器设置,则使用此标志。
-p 如果希望显示某个资源组的优先级覆盖位置 (priority override location),则使用此标志。
有关这些标志的进一步详细信息,请参阅 HACMP for AIX 5L V5.1 Adminstration and Troubleshooting Guide, SC23-4862-02 中的第 7 章“Starting and Stopping Cluster Services”。
示例 10 显示了此命令在带 –p 标志运行时的输出。
示例 10 示例 clRGinfo -p 输出
始终可以使用命令 /usr/es/sbin/cluster/utilities/cltopinfo 来检查集群拓扑,如示例 11 所示。
示例 11 Cltopinfo 示例输出
Cluster Description of Cluster:bubu Cluster Security Level:Standard There are 6 node(s) and 7 network(s) defined NODE p630n01: Network net_diskhb_01 Network net_diskhb_02 p630n01_hdisk30_01 /dev/hdisk30 Network net_ether_01 gp01 10.1.1.1 Network net_ether_02 n02a1 192.168.11.132 n04a1 192.168.11.134 n03a1 192.168.11.133 n06a1 192.168.11.136 n05a1 192.168.11.135 n01a1 192.168.11.131 p630n01 192.168.100.31 n01bt1 172.16.100.31 Network net_rs232_01 Network net_rs232_02 Network net_rs232_03 NODE p630n02: Network net_diskhb_01可以使用不同的标志来对输出进行格式设置。请参见此命令的手册页面。
有关可用于集群状态监视的工具的详细描述,请参阅 HACMP for AIX 5L V5.1 Adminstration and Troubleshooting Guide, SC23-4862-02 的第 8 章“Monitoring an HACMP Cluster”。