事情是这样的,刚开始接触GWAS就一定会接触到数据质量控制这个东西。我们可以看到网络上各种各样的指导,都是分为individual quality control and snp quanlity control。具体哪个优先,各有各的说法。结合陈文燕博主给的建议,主流行还是先进行individual QC再进行SNPs QC。接着,我们知道两部分QC各有多个小步骤,那么分析这些步骤的顺序应该怎么走才比较合适呢?我根据不同tutorial尝试了3种不同的办法,结果还是有区别。以下疑问是陈文燕博主帮忙解答的,再次表示感谢。博主的博客就是宝藏,有入门的小白建议多看看,链接:https://www.cnblogs.com/chenwenyan/p/11803311.html 。
一、 方法1(基因公司imputation前质控步骤):
指令:plink --bfile data --mind 0.1 --geno 0.05 --maf 0.01 --hwe 0.0001 --make-bed --out data_qc.
查看日志文件可见:
3. 问题:
(1) 同样一长串的方法,我将指令改为:plink --bfile data --chr 1-22 --geno 0.05 --hwe 0.0001 --maf 0.01 --mind 0.1 --make-bed --out qc2.结果一样。接着换成:plink --bfile data --mind 0.1 --hwe 0.0001 --geno 0.05 --maf 0.01 --chr 1-22 --make-bed --out qc3.结果与qc1\qc2都是一样的(479367个SNP和1189个体)。也就是说如果一次性输入一长串质量控制指令,无论顺序是怎样的,结果都一样?
答案:是的,一长串命令上去以后,PLINK 会按照他们默认的顺序执行命令。
(2) 上述三个指令,我们在日志log中的分析过程都可以看到,它是按照--chr --mind --geno --hwe --maf对结果进行一步一步的展示。
(3) 是不是平时真实分析步骤都是一连串直接写上去的?答案:是的。
二、 方法2(根据方法1的log展示的分析步骤,每个指令一步一步进行):
我按照这样方法1 日志展示的步骤进行一步一步分析:
1) plink --bfile data --chr 1-22 --make-bed --out step1
2) plink --bfile step1 --mind 0.01 --make-bed --out step2
3) plink --bfile step2 --geno 0.05 --make-bed --out step3
4) plink --bfile step3 --maf 0.01 --make-bed --out step4
5) plink --bfile step4 --hwe 0.0001 --make-bed --out step5
2. 得出的结果是:479367个SNP和1189个体(与方法1相同)。
三、 方法3(用方法2相同阈值,但步骤不同):
1. 我按照这样方法1 日志展示的步骤进行一步一步分析:
1) plink --bfile data -- geno 0.05 --make-bed --out step1
2) plink --bfile step1 -- maf 0.01 --make-bed --out step2
3) plink --bfile step2 -- hwe 0.0001 --make-bed --out step3
4) plink --bfile step3 -- chr 1-22 --make-bed --out step4
5) plink --bfile step4 -- mind 0.01 --make-bed --out step5
2. 得出的结果是:479811个SNP和1153个体(与方法1和2完全不同)。
原因:这个步骤和“方法1和2”的区别在于方法3是先进行SNP QC ,再进行样本QC
四、问题:
1. 我看群主的帖子步骤是:
1) 先--mind --het --check.
2) 然后--hwe --geno --maf.
2. MAT的GWAS_Tutorial-master的步骤又不一样:
--geno --mind --sex --maf --hwe --het.