数据挖掘之异常检测(一) (2)

数据挖掘之异常检测(一)

 

因为值到N(0,1)分布中心的距离 c 直接与该值的概率相关,因此可以使用它作为检测对象(值)是否是离群点的基础。

2.2  多元正态分布的离群点

由于不同变量(属性)之间的相关性,多元正态分布并不关于它的中心对称,如下图,该分布均值为(0,0),协方差矩阵为
                                                                       

数据挖掘之异常检测(一)

 

                                   

数据挖掘之异常检测(一)

 什么是协方差矩阵: 协方差矩阵

如果我们打算用一个简单的阀值来决定一个对象是否是离群点,可以用 Mahalanobis 距离,它是是一种考虑数据分布形状的距离度量。

2.3  异常检测的混合模型方法

数据用两个分布的混合模型建模,一个分布为普通数据;另一个为离群点

  初始时将所有对象放入普通对象集,而异常对象集为空。然后用一个迭代过程将对象从普通集转移到异常集,只要该转移能提高数据的总似然(数据和模型之间的相似度)。

假定数据集D包含来自两个概率分布的对象:M是大多数(正常)对象的分布,A是异常对象的分布,则数据的总概率分布可以记作:D(x) = (1 - λ) + λA(x)

其中,x是一个对象,λ是一个0 - 1之间的数,给出离群点的期望比例。M由数据估计,A通常取均匀分布。初始时刻 t = 0,M0 = D,A0为空。在任意时刻 t,整个数据集的似然和对数似然分别为以下两式:

                                     

数据挖掘之异常检测(一)

 

 

PD、PMt 和 PAt 分别是 D、Mt 和 At 的概率分布函数。

  因为正常对象的数量比异常对象大得多,因此当一个对象移动到异常集后,正常的分布变化不大。这时,每个正常对象对正常对象的总似然的贡献保持相对不变。

  另外,如果假定异常服从均匀分布,则移动到异常集的每个对象对异常的似然贡献一个固定的量。这样,当一个对象移动到异常集时,数据总似然的改变粗略等于该对象在均匀分布下的概率(用λ加权)减去该对象在正常数据点的分布下的概率(用1-λ加权)。从而,异常集由这样一些对象组成,这些对象在均匀分布下的概率明显比在正常对象分布下的概率高。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wspsjg.html