DBSCAN密度聚类算法 (2)

    第二个是距离的度量问题,即如何计算某样本和核心对象样本的距离。在DBSCAN中,一般采用最近邻思想,采用某一种距离度量来衡量样本距离,比如欧式距离。这和KNN分类算法的最近邻思想完全相同。对应少量的样本,寻找最近邻可以直接去计算所有样本的距离,如果样本量较大,则一般采用KD树或者球树来快速的搜索最近邻。如果大家对于最近邻的思想,距离度量,KD树和球树不熟悉,建议参考之前写的另一篇文章K近邻法(KNN)原理小结

    第三种问题比较特殊,某些样本可能到两个核心对象的距离都小于$\epsilon$,但是这两个核心对象由于不是密度直达,又不属于同一个聚类簇,那么如果界定这个样本的类别呢?一般来说,此时DBSCAN采用先来后到,先进行聚类的类别簇会标记这个样本为它的类别。也就是说DBSCAN的算法不是完全稳定的算法。

4. DBSCAN聚类算法

    下面我们对DBSCAN聚类算法的流程做一个总结。

    输入:样本集D=$(x_1,x_2,...,x_m)$,邻域参数$(\epsilon, MinPts)$, 样本距离度量方式

    输出: 簇划分C. 

    1)初始化核心对象集合$\Omega = \emptyset$, 初始化聚类簇数k=0,初始化未访问样本集合$\Gamma$ = D,  簇划分C = $\emptyset$

    2) 对于j=1,2,...m, 按下面的步骤找出所有的核心对象:

      a) 通过距离度量方式,找到样本$x_j$的$\epsilon$-邻域子样本集$N_{\epsilon}(x_j)$

      b) 如果子样本集样本个数满足$|N_{\epsilon}(x_j)| \geq MinPts$, 将样本$x_j$加入核心对象样本集合:$\Omega = \Omega \cup \{x_j\}$

    3)如果核心对象集合$\Omega = \emptyset$,则算法结束,否则转入步骤4.

    4)在核心对象集合$\Omega$中,随机选择一个核心对象$o$,初始化当前簇核心对象队列$\Omega_{cur} = \{o\}$, 初始化类别序号k=k+1,初始化当前簇样本集合$C_k =  \{o\}$, 更新未访问样本集合$\Gamma = \Gamma -  \{o\}$

    5)如果当前簇核心对象队列$\Omega_{cur} = \emptyset$,则当前聚类簇$C_k$生成完毕, 更新簇划分C=$\{C_1,C_2,...,C_k\}$, 更新核心对象集合$\Omega = \Omega - {C_k}$, 转入步骤3。否则更新核心对象集合$\Omega = \Omega - {C_k}$。

    6)在当前簇核心对象队列$\Omega_{cur}$中取出一个核心对象$o^{\'}$,通过邻域距离阈值$\epsilon$找出所有的$\epsilon$-邻域子样本集$N_{\epsilon}(o^{\'})$,令$\Delta = N_{\epsilon}(o^{\'}) \cap \Gamma $, 更新当前簇样本集合$C_k =C_k \cup \Delta$, 更新未访问样本集合$\Gamma = \Gamma - \Delta$,  更新$\Omega_{cur} = \Omega_{cur} \cup (\Delta \cap \Omega) - {o\'}$,转入步骤5.

    输出结果为: 簇划分C=$\{C_1,C_2,...,C_k\}$

5. DBSCAN小结

    和传统的K-Means算法相比,DBSCAN最大的不同就是不需要输入类别数k,当然它最大的优势是可以发现任意形状的聚类簇,而不是像K-Means,一般仅仅使用于凸的样本集聚类。同时它在聚类的同时还可以找出异常点,这点和BIRCH算法类似。

    那么我们什么时候需要用DBSCAN来聚类呢?一般来说,如果数据集是稠密的,并且数据集不是凸的,那么用DBSCAN会比K-Means聚类效果好很多。如果数据集不是稠密的,则不推荐用DBSCAN来聚类。

    下面对DBSCAN算法的优缺点做一个总结。

    DBSCAN的主要优点有:

    1) 可以对任意形状的稠密数据集进行聚类,相对的,K-Means之类的聚类算法一般只适用于凸数据集。

    2) 可以在聚类的同时发现异常点,对数据集中的异常点不敏感。

    3) 聚类结果没有偏倚,相对的,K-Means之类的聚类算法初始值对聚类结果有很大影响。

    DBSCAN的主要缺点有:

    1)如果样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差,这时用DBSCAN聚类一般不适合。

    2) 如果样本集较大时,聚类收敛时间较长,此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。

    3) 调参相对于传统的K-Means之类的聚类算法稍复杂,主要需要对距离阈值$\epsilon$,邻域样本数阈值MinPts联合调参,不同的参数组合对最后的聚类效果有较大影响。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzxwjd.html