例9.假定从分布函数未知的F(x)和G(x)的总体中分别抽出25个和20个观察值的随即样品,其数据由下表所示。现检验F(x)和G(x)是否相同。
R语言代码:
X<-scan( )
0.61 0.29 0.06 0.59 -1.73 -0.74 0.51 -0.56
1.64 0.05 -0.06 0.64 -0.82 0.37 1.77
2.36 1.31 1.05 -0.32 -0.40 1.06 -2.47
0.39 1.09 -1.28
Y<-scan( )
2.20 1.66 1.38 0.20 0.36 0.00
0.96 1.56 0.44 1.50 -0.30 0.66
2.31 3.29 -0.27 -0.37 0.38 0.70
0.52 -0.71
ks.test(X,Y)
P值>0.05,无法拒绝原假设,说明F(x)和G(x)分布函数相同。
3.2.2.列联表数据的检验
例10.为了研究吸烟是否与患肺癌相关,对63位肺癌患者及43名非肺癌患者(对照组)调查了其中的吸烟人数,得到2x2列联表,如下表所示
解:
进行Pearson卡方检验
R语言代码:
x<-c(60, 3, 32, 11)
dim(x)<- c(2,2)
chisq.test(x,correct = F)
P值<0.05,拒绝原假设,认为吸烟与患肺癌相关。
例11.某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的结果,将33例HBsAg阳性孕妇随即分为预防注射组和对照组,结果由下表所示,问两组新生儿的HBV总体感染率有无差别?
解: 最小期望值T=(11*9)/33=3 < 5 ,因此不能使用卡方检验,使用fisher检验,在R语言中使用fisher.test( )
fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,
control = list(), or = 1, alternative = "two.sided",
conf.int = TRUE, conf.level = 0.95)
#其中x是具有二维列联表形式的矩阵或是由因子构成的对象,y是由因子构成的对象,当x是矩阵时,此值无效。workspace的输入值时一整数,其整数表示用于网络算法空间的大小。hybrid为逻辑变量,FALSE(缺省值)表示精确计算概率,TRUE表示用混合算法计算概率。alternative为备择,有"two.sided"(缺失值)双边,"less"单边小于,"greater"单边大于,conf.int逻辑变量,当conf.int=TRUE(缺省值),给出 区间估计。conf.level为置信水平,缺省值为0.95,其余参数见在线说明。
R语言代码:
x<-c(4,5,18,6); dim(x)<-c(2,2)
fisher.test(x)
可见P值>0.05,接受原假设,认为两变量是独立的,即两组新生儿的HBV总体感染率无差别
例12.某胸科医院同时用甲乙两种方法测定202份痰样本中的抗酸杆菌,结果如下表所示,问甲、乙两种方法检出率有无差异。