GPFS 是 IBM 提供的一种共享文件系统。由于 GPFS 的复杂性,使得人们在使用时会遇到各种类型的问题。对于 GPFS 的使用者,掌握基本的诊断方法,不仅可以帮您快速解决一些并不严重的问题及时恢复 GPFS 正常运行起来,同时,对于 IBM 直接提供支持的用户,本文介绍一些初步问题诊断方法可以帮助您快速提交问题报告给 IBM 服务团队,从而加速解决问题的过程。本文基于作者对 GPFS 测试和使用的经验,按照由易到难的诊断步骤和方法进行讲解,总结了一些在诊断 GPFS 问题上的经验和建议,同时结合一些实例按照文中介绍的诊断方法进行问题诊断,供读者参考。
GPFS 的概述
GPFS 是 IBM 公司提供的一个共享文件系统,它允许所有的集群节点可以并行访问整个文件系统。GPFS 允许客户共享文件,这些文件分布在不同节点的不同硬盘上,GPFS 还提供了 UNIX 文件系统接口并且支持 UNIX 文件系统的工具,用户可以在 Linux 集群中像使用普通文件系统一样使用 GPFS 文件系统,能够很好地应用在 Linux/UNIX 集群中。
在 GPFS 的长期运行中可能会出现一些问题,本文主要针对在使用 GPFS 中常见问题的一些诊断方法进行探讨。
问题诊断步骤与方法
初步检查
在装有 GPFS 文件系统的环境中出现问题时,我们在求助 IBM Service 团队前,可先自行进行些初步检查。既可以快速修复一些简单问题,也可向 Service 人员提供更详尽的问题描述信息来协助他们加快解决问题。我们一般有下面的几种常见检查方法。
1. 首先检查该问题仅仅出现在一个节点还是多个节点上并明确问题节点 :
通常判断某节点是否有问题的方法如下:
在 GPFS 集群中的某个可访问节点上运行 mmgetstate – a,该命令可以显示集群中所有节点的状态,只要不是”active”状态的节点,都不是健康的节点。如下例所示,可见节点 node2 和 node3 都出现了问题: