初识机器学习——吴恩达《Machine Learning》学习笔记（十三）

日期：2022-05-19 栏目：程序人生浏览：次

无监督学习（Unsupervised learning) 无监督学习介绍(Unsupervised learning introdution)

无监督学习：数据并没有任何的标签，通过算法，找出隐含在这些数据中的结构。聚类算法是一种无监督学习算法。

聚类(clustering)分析将数据划分成有意义或有用的簇。聚类分析是一种分类的多元统计分析方法。按照个体或样品的特征将它们分类，使同一类别内的个体具有尽可能高的同质性(homogeneity)，而类别之间则应具有尽可能高的异质性(heterogeneity)。

聚类的应用：市场划分(Market segmentation)、社交网络分析(Social network analysis)、组织计算机集群(Organize computing clusters)、天文学数据分析(astronomical data analysis)等

K-means算法

K-means算法是目前最热门的、应用最广泛的一共聚类算法。K-means算法是一种迭代算法。

随机初始化K个聚类中心。
重复：
1、聚类样本分配。把各样本x分配到最近的聚类中心。
2、移动族类中心。每个中心分配各x之后，对每个中心k分配的各x求平均，然后赋值给μ(k)，相当于更新了聚类中心。

直到聚类中心不再改变。

如果遇到没有点的聚类中心，怎么办？最直接的做法是，把那个聚类中心移除掉！实际上很少会出现这种情况。大写的K表示簇类中心的个数，而小写的k则表示簇类中心的下标。