关于GWAS的质量控制步骤顺序疑问?不同指导不同文献的建议各不相同。

    事情是这样的,刚开始接触GWAS就一定会接触到数据质量控制这个东西。我们可以看到网络上各种各样的指导,都是分为individual quality control and snp quanlity control。具体哪个优先,各有各的说法。结合陈燕博主给的建议,主流行还是先进行individual QC再进行SNPs QC。接着,我们知道两部分QC各有多个小步骤,那么分析这些步骤的顺序应该怎么走才比较合适呢?我根据不同tutorial尝试了3种不同的办法,结果还是有区别。以下疑问是陈燕博主帮忙解答的,再次表示感谢。博主的博客就是宝藏,有入门的小白建议多看看,链接:https://www.cnblogs.com/chenwenyan/p/11803311.html 。

 

 

一、       方法1(基因公司imputation前质控步骤):

    指令:plink --bfile data --mind 0.1 --geno 0.05 --maf 0.01 --hwe 0.0001 --make-bed --out data_qc.

    查看日志文件可见:

 

关于GWAS的质量控制步骤顺序疑问?不同指导不同文献的建议各不相同。

 

 

        3.      问题:

               (1)             同样一长串的方法,我将指令改为:plink --bfile data --chr 1-22 --geno 0.05 --hwe 0.0001 --maf 0.01 --mind 0.1 --make-bed --out qc2.结果一样。接着换成:plink --bfile data --mind 0.1 --hwe 0.0001 --geno 0.05 --maf 0.01 --chr 1-22 --make-bed --out qc3.结果与qc1\qc2都是一样的(479367个SNP和1189个体)。也就是说如果一次性输入一长串质量控制指令,无论顺序是怎样的,结果都一样?

     答案:是的,一长串命令上去以后,PLINK 会按照他们默认的顺序执行命令。

               (2)  上述三个指令,我们在日志log中的分析过程都可以看到,它是按照--chr --mind --geno --hwe --maf对结果进行一步一步的展示。

               (3)  是不是平时真实分析步骤都是一连串直接写上去的?答案:是的。

二、       方法2(根据方法1的log展示的分析步骤,每个指令一步一步进行):

     我按照这样方法1 日志展示的步骤进行一步一步分析:

                   1)      plink --bfile data --chr 1-22 --make-bed --out step1

                   2)      plink --bfile step1 --mind 0.01 --make-bed --out step2

                   3)      plink --bfile step2 --geno 0.05 --make-bed --out step3

                   4)      plink --bfile step3 --maf 0.01 --make-bed --out step4

                   5)      plink --bfile step4 --hwe 0.0001 --make-bed --out step5

         2.      得出的结果是:479367个SNP和1189个体(与方法1相同)。

三、       方法3(用方法2相同阈值,但步骤不同):

          1.      我按照这样方法1 日志展示的步骤进行一步一步分析:

                   1)      plink --bfile data -- geno 0.05 --make-bed --out step1

                   2)      plink --bfile step1 -- maf 0.01 --make-bed --out step2

                   3)      plink --bfile step2 -- hwe 0.0001 --make-bed --out step3

                   4)      plink --bfile step3 -- chr 1-22 --make-bed --out step4

                   5)      plink --bfile step4 -- mind 0.01 --make-bed --out step5

          2.      得出的结果是:479811个SNP和1153个体(与方法1和2完全不同)。

                     原因:这个步骤和“方法1和2”的区别在于方法3是先进行SNP QC ,再进行样本QC

四、问题:

   1.      我看群主的帖子步骤是:

          1)         先--mind --het --check.

          2)         然后--hwe --geno --maf.

   2.      MAT的GWAS_Tutorial-master的步骤又不一样:

           --geno --mind --sex --maf --hwe --het.

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyzxwj.html