DBSCAN密度聚类算法 (2)

日期：2022-06-04 栏目：程序人生浏览：次

　　　　第二个是距离的度量问题，即如何计算某样本和核心对象样本的距离。在DBSCAN中，一般采用最近邻思想，采用某一种距离度量来衡量样本距离，比如欧式距离。这和KNN分类算法的最近邻思想完全相同。对应少量的样本，寻找最近邻可以直接去计算所有样本的距离，如果样本量较大，则一般采用KD树或者球树来快速的搜索最近邻。如果大家对于最近邻的思想，距离度量，KD树和球树不熟悉，建议参考之前写的另一篇文章K近邻法(KNN)原理小结。

　　　　第三种问题比较特殊，某些样本可能到两个核心对象的距离都小于$\epsilon$，但是这两个核心对象由于不是密度直达，又不属于同一个聚类簇，那么如果界定这个样本的类别呢？一般来说，此时DBSCAN采用先来后到，先进行聚类的类别簇会标记这个样本为它的类别。也就是说DBSCAN的算法不是完全稳定的算法。

4. DBSCAN聚类算法

　　　　下面我们对DBSCAN聚类算法的流程做一个总结。

　　　　输入：样本集D=$(x_1,x_2,...,x_m)$，邻域参数$(\epsilon, MinPts)$, 样本距离度量方式

　　　　输出：簇划分C.　

　　　　1）初始化核心对象集合$\Omega = \emptyset$, 初始化聚类簇数k=0，初始化未访问样本集合$\Gamma$ = D, 簇划分C = $\emptyset$

　　　　2) 对于j=1,2,...m, 按下面的步骤找出所有的核心对象：

　　　　　　a) 通过距离度量方式，找到样本$x_j$的$\epsilon$-邻域子样本集$N_{\epsilon}(x_j)$

　　　　　　b) 如果子样本集样本个数满足$|N_{\epsilon}(x_j)| \geq MinPts$，将样本$x_j$加入核心对象样本集合：$\Omega = \Omega \cup \{x_j\}$

　　　　3）如果核心对象集合$\Omega = \emptyset$，则算法结束，否则转入步骤4.

　　　　4）在核心对象集合$\Omega$中，随机选择一个核心对象$o$，初始化当前簇核心对象队列$\Omega_{cur} = \{o\}$, 初始化类别序号k=k+1，初始化当前簇样本集合$C_k = \{o\}$, 更新未访问样本集合$\Gamma = \Gamma - \{o\}$

　　　　5）如果当前簇核心对象队列$\Omega_{cur} = \emptyset$，则当前聚类簇$C_k$生成完毕, 更新簇划分C=$\{C_1,C_2,...,C_k\}$, 更新核心对象集合$\Omega = \Omega - {C_k}$，转入步骤3。否则更新核心对象集合$\Omega = \Omega - {C_k}$。

　　　　6）在当前簇核心对象队列$\Omega_{cur}$中取出一个核心对象$o^{\'}$,通过邻域距离阈值$\epsilon$找出所有的$\epsilon$-邻域子样本集$N_{\epsilon}(o^{\'})$，令$\Delta = N_{\epsilon}(o^{\'}) \cap \Gamma $, 更新当前簇样本集合$C_k =C_k \cup \Delta$, 更新未访问样本集合$\Gamma = \Gamma - \Delta$, 更新$\Omega_{cur} = \Omega_{cur} \cup (\Delta \cap \Omega) - {o\'}$，转入步骤5.

　　　　输出结果为：簇划分C=$\{C_1,C_2,...,C_k\}$

5. DBSCAN小结

　　　　和传统的K-Means算法相比，DBSCAN最大的不同就是不需要输入类别数k，当然它最大的优势是可以发现任意形状的聚类簇，而不是像K-Means，一般仅仅使用于凸的样本集聚类。同时它在聚类的同时还可以找出异常点，这点和BIRCH算法类似。

　　　　那么我们什么时候需要用DBSCAN来聚类呢？一般来说，如果数据集是稠密的，并且数据集不是凸的，那么用DBSCAN会比K-Means聚类效果好很多。如果数据集不是稠密的，则不推荐用DBSCAN来聚类。

　　　　下面对DBSCAN算法的优缺点做一个总结。

　　　　DBSCAN的主要优点有：

　　　　1）可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集。

　　　　2）可以在聚类的同时发现异常点，对数据集中的异常点不敏感。

　　　　3）聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。

　　　　DBSCAN的主要缺点有：

　　　　1）如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合。

　　　　2）如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。

　　　　3）调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值$\epsilon$，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

转载注明出处：https://www.heiqu.com/zzxwjd.html

DBSCAN密度聚类算法 (2)

相关推荐