2》原始K-Means算法的缺陷:结果好坏依赖于对初始聚类中心的选择、容易陷入局部最优解、对K值的选择没有准则可依循、对异常数据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡
3》K-Means的变体
Bradley和Fayyad等:降低对中心的依赖,能适用于大规模数据集
Dhillon等:调整迭代过程中重新计算中心方法,提高性能
Zhang等:权值软分配调整迭代优化过程
Sarafis:将遗传算法应用于目标函数构建中
Berkh in等:应用扩展到了分布式聚类
还有:采用图论的划分思想,平衡聚类结果,将原始算法中的目标函数对应于一个各向同性的高斯混合模型
5)优缺点
优点:应用最为广泛;收敛速度快;能扩展以用于大规模的数据集
缺点:倾向于识别凸形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大
3、基于约束的聚类算法 3.1约束对个体对象的约束、对聚类参数的约束;均来自相关领域的经验知识
3.2重要应用对存在障碍数据的二维空间按数据进行聚类,如COD(Clustering with Obstructed Distance):用两点之间的障碍距离取代了一般的欧式距离
3.3不足通常只能处理特定应用领域中的特定需求
4、用于高维数据的聚类算法 4.1困难来源因素1)无关属性的出现使数据失去了聚类的趋势
2)区分界限变得模糊
4.2解决方法1)对原始数据降维
2)子空间聚类
CACTUS:对原始空间在二维平面上的投影
CLIQUE:结合基于密度和网格的聚类思想,借鉴Apriori算法
3)联合聚类技术
特点:对数据点和属性同时进行聚类
文本:基于双向划分图及其最小分割的代数学方法
4.3不足:不可避免地带来了原始数据信息的损失和聚类准确性的降低
5、机器学习中的聚类算法 5.1两个方法1)人工神经网络方法
自组织映射:向量化方法,递增逐一处理;映射至二维平面,实现可视化
基于投影自适应谐振理论的人工神经网络聚类
2)基于进化理论的方法
缺陷:依赖于一些经验参数的选取,并具有较高的计算复杂度
模拟退火:微扰因子;遗传算法(选择、交叉、变异)
5.2优缺点优点:利用相应的启发式算法获得较高质量的聚类结果
缺点:计算复杂度较高,结果依赖于对某些经验参数的选择
下面附上个人对聚类算法的选择及比较的理解: