R语言--回归分析1(回归分析、回归诊断、模型综合验证) (2)

R语言--回归分析1(回归分析、回归诊断、模型综合验证)

结果分析:Murder与Population和Illiteracy的关系后面的Pr(>|t|)小于0.05,后面有星星,说明他们之间的关系是显著的,Murder与Income和Frost的关系后面的Pr(>|t|)大于0.05,后面也没有星星,说明其关系不显著,并且Income和Frost前面的系数 Estimate是正的,说明其与Murder是正相关,但是从上面的散点图可以看出,估计出来的直线是向下的,即呈现负相关性,所以可以认为Murder与Income和Frost没什么关系

错误:下标出界

R语言--回归分析1(回归分析、回归诊断、模型综合验证)

修正:检查列名是否写正确

R语言--回归分析1(回归分析、回归诊断、模型综合验证)

1.1 有交互项的多元线性回归

交互项:响应变量与其中一个预测变量的关系还依赖另外一个预测变量的水平

fit3<-lm(mpg~hp+wt+hp:wt,data=mtcars)  #回归分析,交互项用冒号 :连接

summary(fit3)

R语言--回归分析1(回归分析、回归诊断、模型综合验证)

结果分析:可以看出mpg与hp和wt以及它们的交互项hp:wt都是有关系的,后面有星星,三颗星表示关系是最好的

2 回归诊断

states<-as.data.frame(state.x77[,c("Murder",

"Population","Illiteracy","Income","Frost")])

fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)  #回归分析

解释:Murder是预测变量,Population+Illiteracy+Income+Frost是解释变量

summary(fit2)

confint(fit2)   #给出区间估计,95%的可能

R语言--回归分析1(回归分析、回归诊断、模型综合验证)

2.1 标准方法

dat<-women  #确定数据集

fit<-lm(height~weight,data=dat)  #做回归分析

summary(fit) 

opar<-par(no.readonly = T)

par(mfrow=c(2,2))  #画图

plot(fit) 

R语言--回归分析1(回归分析、回归诊断、模型综合验证)

结果分析:右上角是Q-Q图,反应样本的正态性,样本散点图呈一条直线,基本认定是服从正太假设的;左上图是观察样本的线性问题的,很明显这个呈现是二次曲线,不满足线性;左下角图是观察样本的同方差性,如果是同方差性,这个线会在散点图的上下两侧波动,这个图是符合的;右下角图是独立性,观察离群值

dat<-women

fit1<-lm(weight~height+I(height^2),data=dat)

opar<-par(no.readonly = T)

par(mfrow=c(2,2))

plot(fit1)

R语言--回归分析1(回归分析、回归诊断、模型综合验证)

结果分析:右上角是Q-Q图,反应样本的正态性,样本散点图呈一条直线,基本认定是服从正太假设的;左上图是观察样本的线性问题的,这次是拟合weightheight平方之间的关系,可以看出基本满足线性;左下角图是观察样本的同方差性,如果是同方差性,这个线会在散点图的上下两侧波动,这个图是符合的;右下角图是独立性,观察离群值

2.2 改进方法

library(car)

1)正态性

states<-as.data.frame(state.x77[,c("Murder",

"Population","Illiteracy","Income","Frost")])

fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)  #回归分析

解释:Murder是预测变量,Population+Illiteracy+Income+Frost是解释变量

summary(fit2)

par(mfrow=c(1,1)) #把绘图区域恢复

qqplot(fit2,labels=row.names(states),id.mentod="identify",

simulate=T,main="QQ plot")

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwppxf.html