基于 Linux 集群环境上 GPFS 的问题诊断(7)

日期：2020-06-01 栏目：程序人生浏览：次

查看跟踪进程：

　　通过查看是否有 lxtrace 进程，可以知道跟踪进程的状态。

　　重现问题并截获跟踪信息

　　在对跟踪属性进行设置并启动跟踪功能后，就需要重现问题发生的过程。在这个过程中，GPFS 才会根据新的跟踪属性记录更详细的信息到日志文件。

　　在重现了问题后，可以有两种方式截获跟踪信息：

　　1. mmtrace stop:

　　该命令停止在当前跟踪文件中的信息记录，并停止继续跟踪；

　　2. mmtrace:

　　该命令停止在当前跟踪文件中的信息记录，但同时产生一个新的跟踪文件继续跟踪记录。以此来保证跟踪文件不会由于过多的信息而被重写，从而丢掉有用的信息。

　　有些时候，在截获跟踪信息的同时，还需要通过额外的设置产生一些 internaldump 文件来帮助分析 GPFS 相关的问题。默认情况下，是不会生成 internaldump 文件的。命令如下：

　　mmchconfig traceGenDump=yes – i

　　案例分析

　　在基于 Linux 操作系统平台、GPFS 文件系统的集群运行过程中，出现了问题。该集群环境信息如下：

　　有 3 个节点，分别命名为：node1, node2, node3；

　　有 3 个 GPFS 文件系统，分别命名为：/col1, /col2, /col3；

　　在 CNFS 客户机上有 9 个挂载点，NFS 客户端通过 CNFS IP 同时往 3 个 GPFS 文件系统中传送数据；

　　诊断过程

　　1. 首先查看各节点状态 :

　node1:~　#　mmgetstate　-a　
　Node　number　Node　name　　　　GPFS　state　
　------------------------------------------------------------------　
　　　　1　　　node3　　　　　arbitrating　
　　　　2　　　node2　　　　　arbitrating　
　　　　3　　　node1　　　　　active　

转载注明出处：https://www.heiqu.com/26954.html

基于 Linux 集群环境上 GPFS 的问题诊断(7)

相关推荐