一个优秀的数据分析师不仅要掌握基本的统计、数据库、数据分析方法、思维、数据分析工具和技能,还要掌握一些数据挖掘的思路,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。
数据挖掘主要分为三类:分类算法、聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘算法的介绍都是深奥难懂的。今天我就用我的理解给大家介绍一下数据挖掘十大经典算法的原理,帮助大家快速理解。
数据挖掘算法分类
1、连接分析:PageRank。
2、相关分析:Apriori。
3、分类算法:C4.5,简单的贝叶斯,SVM,KNN,Adaboost,CART。
4、聚类算法:K-Means,EM。
一、PageRank
论文被引用的次数越多,其影响就越大。
网页入口越多,入链质量越高,网页质量越高。
PageRank原理
网页的影响=阻尼影响+所有入链集合页面的加权影响之和。
一个网页的影响:所有进入链的页面的加权影响之和。
一个网页对其他网页的影响是:自身影响/链接数量。
并非所有用户都是通过跳转链接来上网的,还有其他方式,比如直接输入网站访问。
因此需要设置阻尼因子,代表用户根据跳转链接上网的概率。
PageRank比喻说明
1、微博
一个人的微博粉丝数量不一定等于他的实际影响力,还要看粉丝的质量。
如果是僵尸粉没用,但是如果是很多大V或者明星关注的话,影响力很大。
2、店铺经营
顾客较多的店铺质量较好,但要看顾客是否是托。
3、兴趣
对感兴趣的人或事投入相对较多的时间,对其相关的人和事也投入一定的时间。被关注的人或事越多,其影响力/受众就越大。
关于阻尼因子
1、通过邻居的影响来判断你的影响,但是如果你不能通过邻居来访问你,并不意味着你没有影响力,因为可以直接访问你,所以引入了阻尼因子的概念。
2、海洋除了河流流经外,还有雨水,但下雨是随机的。
3、提出阻尼系数,或者解决一些网站显然有大量的链(链),但影响很大。
出链例子:hao123导航网页,出链多,入链少。
入链例子:百度谷歌等搜索引擎,入链很多,出链很少。
二、Apriori(相关分析)
关联挖掘关系,从消费者交易记录中发现商品之间的关系。
Apriori原理
1、支持度
商品组合出现的次数与总次数之比。
五次购买,四次购买牛奶,牛奶支持度为4/5=0.8。
五次购买,三次购买牛奶+面包,牛奶+面包支持3/5=0.6。
2、置信度
购买商品A,购买商品B的概率有多大,发生A时发生B的概率有多大。
买了四次牛奶,其中两次买了啤酒,(牛奶->啤酒)的可信度是2/4=0.5。
三次买啤酒,其中两次买牛奶,(啤酒->牛奶)的可信度为2/3-0.67。
3、提升度
衡量商品A的出现,提高商品B出现概率的程度。
提升度(A->B)=置信度(A->B)/支持度(B)。
提升度>1,有提升;提升度=1,无变化;提升度1,下降。
4、项集频繁
项集:可以是单一商品,也可以是商品组合。
频繁的项集是支持度大于最小支持度的项集(MinSupport)。
计算过程
(1)从K=1开始,经常筛选项集。
(2)在结果中,组合K+1项集,重新筛选。
(3)循环1,2步。K-1项集的结果是最终结果,直到找不到结果。
扩展:FP-Growth算法。
Apriori算法需要多次扫描数据库,性能低,不适合大数据量。
FP-growth算法,通过构建FP树的数据结构,将数据存储在FP树中,只需在构建FP树时扫描数据库两次,后续处理就不需要再访问数据库。
比喻:啤酒和纸尿裤一起卖。
沃尔玛通过数据分析发现,在美国有婴儿的家庭中,母亲通常在家照顾孩子,父亲去超市买尿布。
父亲在买纸尿裤的时候,经常会搭配几瓶啤酒来奖励自己。因此,超市试图推出一种将啤酒和纸尿裤放在一起的促销手段,这实际上大大增加了纸尿裤和啤酒的销量。
三、数据挖掘算法:AdaBoost
AdaBoost原理
简单来说,多个弱分类器训练成强分类器。
将一系列弱分类器作为不同权重比组合的最终分类选择。
计算过程
1、基本权重初始化。
2、奖励权重矩阵,通过现有的分类器计算错误率,选择错误率最低的分类器。
3、通过分类器权重公式,减少正确的样本分布,增加错误的样本分布,获得新的权重矩阵和当前k轮的分类器权重。
4、将新的权重矩阵带入上述步骤2和3,重新计算权重矩阵。
5、迭代N轮,记录每轮最终分类器的权重,获得强分类器。
AdaBoost算法比喻说明
1、利用错题提高学习效率
做对的题,下次少做点,反正都会。
下次多做错题,集中在错题上。
随着学习的深入,错题会越来越少。
2、合理跨境提高利润
苹果公司,软硬件结合,占据了手机市场的大部分利润,两个领域的知识结合产生了新的收益。
四、数据挖掘算法:C4.5(决策树)
决策就是对一个问题有多个答案,选择答案的过程就是决策。
C4.5算法用于产生决策树,主要用于分类。
C4.5计算信息增益率(ID3算法计算信息增益)。
C4.5算法原理
C4.5算法选择最有效的方法对样本集进行分裂,分裂规则是分析所有属性的信息增益率。
信息增益率越大,意味着这个特征分类的能力越强,我们应该优先选择这个特征进行分类。
比喻说明:挑西瓜。