基于 Linux 集群环境上 GPFS 的问题诊断(7)

查看跟踪进程:

  通过查看是否有 lxtrace 进程,可以知道跟踪进程的状态。

  重现问题并截获跟踪信息

  在对跟踪属性进行设置并启动跟踪功能后,就需要重现问题发生的过程。在这个过程中,GPFS 才会根据新的跟踪属性记录更详细的信息到日志文件。

  在重现了问题后,可以有两种方式截获跟踪信息:

  1. mmtrace stop:

  该命令停止在当前跟踪文件中的信息记录,并停止继续跟踪;

  2. mmtrace:

  该命令停止在当前跟踪文件中的信息记录,但同时产生一个新的跟踪文件继续跟踪记录。以此来保证跟踪文件不会由于过多的信息而被重写,从而丢掉有用的信息。

  有些时候,在截获跟踪信息的同时,还需要通过额外的设置产生一些 internaldump 文件来帮助分析 GPFS 相关的问题。默认情况下,是不会生成 internaldump 文件的。命令如下:

  mmchconfig traceGenDump=yes – i

  案例分析

  在基于 Linux 操作系统平台、GPFS 文件系统的集群运行过程中,出现了问题。该集群环境信息如下:

  有 3 个节点,分别命名为:node1, node2, node3;

  有 3 个 GPFS 文件系统,分别命名为:/col1, /col2, /col3;

  在 CNFS 客户机上有 9 个挂载点,NFS 客户端通过 CNFS IP 同时往 3 个 GPFS 文件系统中传送数据;

  诊断过程

  1. 首先查看各节点状态 :

 node1:~ # mmgetstate -a 
 Node number Node name    GPFS state 
 ------------------------------------------------------------------ 
    1   node3     arbitrating 
    2   node2     arbitrating 
    3   node1     active 

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/26954.html