结果分析:大多数点置信区间(两条虚线之间)范围内,点基本在一条直线上,我们可以认为此样本基本符合正太分布
这个州 Nevada 的估计值:
这个州 Nevada 的实际值:
结论:这个州的估计和实际差别很大,在实际应用中可以当离群点删掉
错误:种类\'list\'目前没有在\'greater\'里实现
修正:这里是为什么呢??
后来仔细检查了语句,单词大小写错了
(2)独立性
states<-as.data.frame(state.x77[,c("Murder",
"Population","Illiteracy","Income","Frost")])
fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states) #回归分析
解释:Murder是预测变量,Population+Illiteracy+Income+Frost是解释变量
durbinWatsonTest(fit2)
结论分析:我们希望p-value的值越大越好,如何很大,就说明不相关,即互相独立,基本上我们可以认为这些变量是互相独立的
(3)线性
states<-as.data.frame(state.x77[,c("Murder",
"Population","Illiteracy","Income","Frost")])
fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)
par(mfrow=c(2,2))
crPlots(fit2) #画成分残差图
结果分析:虚线是直线,是最小二乘法估计,我们需要看实线是否与虚线基本重合,若基本重合,我们认为是呈线性关系的
(4)同方差性
ncvTest(fit2)
结果分析:跟上面一样,P值越大越好,P越大说明其是同方差性的,满足假设
2.3 线性模型假设的综合验证
install.packages("gvlma")
library(gvlma)
states<-as.data.frame(state.x77[,c("Murder",
"Population","Illiteracy","Income","Frost")])
fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states) #回归分析
解释:Murder是预测变量,Population+Illiteracy+Income+Frost是解释变量
gvmodel<-gvlma(fit2)
summary(gvmodel)
结果分析:这里后面都是acceptable,若是不接受,要一个个检查上面四个图
2.3.1 多重共线性
vif(fit2)