层次聚类(划分聚类)
聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小;属于无监督学习。
算法步骤
1.初始化的k个中心点
2.为每个样本根据距离分配类别
3.更新每个类别的中心点(更新为该类别的所有样本的均值)
4.重复上面两步操作,直到达到某个中止条件
层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止,传统的层次聚类算法主要分为两大类算法:
凝聚的层次聚类AGNES算法==>采用自底向上的策略。
agglomerative(凝聚) nesting(嵌套)
最初将每个对象作为一个簇,然后这些簇根据某些准则(两个簇之间的相似度度量方式)被一步一步合并,两个簇间的距离可以由这两个不同簇中距离最近的数据点的相似度来确定;聚类的合并过程反复进行直到所有的对象满足簇数目。