K-Means算法原理
1.随机选择K点作为分类中心点。
2.将每个点分配到最近的类,从而形成K类。
3.重新计算每个类别的中心点。比如同一类别有10个点,那么新的中心点就是这10个点的中心点,一个简单的方法就是取平均值。
K-Means算法比喻说明
1、选组长
每个人都随机选择K个组长,谁离得近,就是那个队列的人(计算距离,近的人聚在一起)。
随着时间的推移,组长的位置在变化(根据算法重新计算中心点),直到选择真正的中心组长(重复,直到准确率最高)。
2、Kmeans和Knn的区别
Kmeans开班选组长,风水轮流转,直到选出***中心组长。
Knn小弟加队,离那个班比较近,就是那个班。
十、数据挖掘算法:EM(聚类)
EM的英语是ExpectationMaximization,因此EM算法又称最大期望算法,也是一种聚类算法。
EM和K-Means的区别:
EM是计算概率,KMeans是计算距离。
EM属于软聚类,同一样本可能属于多个类别;K-Means属于硬聚类,一个样本只能属于一个类别。因此,前者可以发现一些隐藏的数据。
EM算法原理
先估计一个大概率的可能参数,然后根据数据不断调整,直到找到最终确认参数。
EM算法比喻说明:菜称重
很少有人用称重菜肴,然后计算一半的重量来平分。
大多数人的方法是:
1、先把一部分分成菜A,然后把剩下的分成菜B。
2、观察菜A和B里的菜是否一样多,哪个多就匀一点到少。
3、然后观察碟子里的A和B是否一样多,重复,直到重量没有变化。
其中,数据挖掘之后就需要把收集的有用的数据进行可视化处理方便人们直观感受数据的变化和重要性,通常数据分析师都会选择一些可视化辅助工具帮助自己更好的完成数据分析工作,比如基础的可视化工具有Excel、PPT和Xmind,但是对于企业来说,这些可视化工具提供的功能都太单一了,不能很好的满足可视化效果,很多数据分析师会选择Smartbi这款可视化工具,集齐数据挖掘、数据分析、数据可视化功能于一体的数据可视化工具,有着更方便的拖拉拽操作,能处理亿级的数据量,还有着可视化效果更好的自助仪表盘,能更好的满足现代企业报表需求。
到这里十大算法已经简单介绍完成了。事实上,一般来说,常用算法已经被封装到仓库中,只要new生成相应的模型。数据分析师不仅要学会怎么收集有用的数据,也要对数据进行深度分析做出对企业更有利的决策,选择可视化工具Smartbi能有效的提升数据分析师的生产力。这些是一些结合个人经验和网上资料的心得体会,希望能对你学习数据挖掘有帮助。