H被称为帽子矩阵,因为其相当于给y戴上了一顶帽子来预测y的值。
是权重,当较大时,说明第个观测值对第个拟合值有较大的影响。它的均值为
。3,判断是否是强影响点
(1)Cook距离法(Cook\'s D):
。Cook距离直接总结了去除某一个数据点之后,其他样本拟合值的变化,相当于综合了残差和杠杆值的信息。可用R的cooks.distance()方法计算出Cook\'s D。如果 Di 大于 0.5,那么第i个观测值可能是强影响点,需要对其进行进一步查看。
如果 Di 大于 1,那么第i个观测值很可能就是强影响点。
如果 Di 小于 0.5,那么第i个观测值不是强影响点。
(2)Dffits(Difference in Fits):比较去除某一个数据点和包含此数据点的预测值y的变化。可以调用R的influence.measures()做诊断。
(3)Dfbetas:比较去除某一个数据点和包含此数据点的每个变量参数的变化。可以调用R的influence.measures()做诊断。
另外,可用R的influencePlot()方法将异常点、高杠杆点和强影响点整合到同一张图中:
此外,用statsodels包可以一并计算出异常点、高杠杆点和强影响点的信息:
三,处理
1,强影响点并不一定是不好的,而是说如果某个点影响特别大,那么需要进一步调查,比如说看是否需要对变量进行转换。
2,如果发现异常点,首先检查其是否是错误导致的,比如输入错误,测量错误等等,如果是,那么直接删除。但是有时候异常点会提示重要的信息,因此如果异常点不是由错误导致的,则需要进一步的调查,不可简单删除了事。并且所有删除数据点的方法和理由都应该呈现在报告中。删除数据点后要与删除之前的模型作比较,看模型是否变得更好,并将两个模型都记录在报告中。
参考:https://cran.r-project.org/web/packages/olsrr/vignettes/influence_measures.html