异常点VS高杠杆点VS强影响点(Outlier,High Leverage Point,Influential Point) (2)

异常点VS高杠杆点VS强影响点(Outlier,High Leverage Point,Influential Point)

异常点VS高杠杆点VS强影响点(Outlier,High Leverage Point,Influential Point)

H被称为帽子矩阵,因为其相当于给y戴上了一顶帽子来预测y的值。

[公式]

是权重,当

[公式]

较大时,说明第

[公式]

个观测值对第

[公式]

个拟合值有较大的影响。

它的均值为

[公式]

3,判断是否是强影响点

(1)Cook距离法(Cook\'s D):

异常点VS高杠杆点VS强影响点(Outlier,High Leverage Point,Influential Point)

。Cook距离直接总结了去除某一个数据点之后,其他样本拟合值的变化,相当于综合了残差和杠杆值的信息。可用R的cooks.distance()方法计算出Cook\'s D。

如果 Di 大于 0.5,那么第i个观测值可能是强影响点,需要对其进行进一步查看。

如果 Di 大于 1,那么第i个观测值很可能就是强影响点。

如果 Di 小于 0.5,那么第i个观测值不是强影响点。

(2)Dffits(Difference in Fits):比较去除某一个数据点和包含此数据点的预测值y的变化。可以调用R的influence.measures()做诊断。

(3)Dfbetas:比较去除某一个数据点和包含此数据点的每个变量参数的变化。可以调用R的influence.measures()做诊断。

 

另外,可用R的influencePlot()方法将异常点、高杠杆点和强影响点整合到同一张图中

异常点VS高杠杆点VS强影响点(Outlier,High Leverage Point,Influential Point)

 

此外,用statsodels包可以一并计算出异常点、高杠杆点和强影响点的信息:

异常点VS高杠杆点VS强影响点(Outlier,High Leverage Point,Influential Point)

三,处理

1,强影响点并不一定是不好的,而是说如果某个点影响特别大,那么需要进一步调查,比如说看是否需要对变量进行转换。

2,如果发现异常点,首先检查其是否是错误导致的,比如输入错误,测量错误等等,如果是,那么直接删除。但是有时候异常点会提示重要的信息,因此如果异常点不是由错误导致的,则需要进一步的调查,不可简单删除了事。并且所有删除数据点的方法和理由都应该呈现在报告中。删除数据点后要与删除之前的模型作比较,看模型是否变得更好,并将两个模型都记录在报告中。

参考:https://cran.r-project.org/web/packages/olsrr/vignettes/influence_measures.html

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwgfsw.html