一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解

​一个优秀的数据分析师不仅要掌握基本的统计、数据库、数据分析方法、思维、数据分析工具和技能,还要掌握一些数据挖掘的思路,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。

大数据分析师技能图谱.png

数据挖掘主要分为三类:分类算法、聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘算法的介绍都是深奥难懂的。今天我就用我的理解给大家介绍一下数据挖掘十大经典算法的原理,帮助大家快速理解。

数据挖掘算法分类

1、连接分析:PageRank。

2、相关分析:Apriori。

3、分类算法:C4.5,简单的贝叶斯,SVM,KNN,Adaboost,CART。

4、聚类算法:K-Means,EM。

一、PageRank

论文被引用的次数越多,其影响就越大。

网页入口越多,入链质量越高,网页质量越高。

PageRank原理

网页的影响=阻尼影响+所有入链集合页面的加权影响之和。

一个网页的影响:所有进入链的页面的加权影响之和。

一个网页对其他网页的影响是:自身影响/链接数量。

并非所有用户都是通过跳转链接来上网的,还有其他方式,比如直接输入网站访问。

因此需要设置阻尼因子,代表用户根据跳转链接上网的概率。

PageRank比喻说明

1、微博

一个人的微博粉丝数量不一定等于他的实际影响力,还要看粉丝的质量。

如果是僵尸粉没用,但是如果是很多大V或者明星关注的话,影响力很大。

2、店铺经营

顾客较多的店铺质量较好,但要看顾客是否是托。

3、兴趣

对感兴趣的人或事投入相对较多的时间,对其相关的人和事也投入一定的时间。被关注的人或事越多,其影响力/受众就越大。

关于阻尼因子

1、通过邻居的影响来判断你的影响,但是如果你不能通过邻居来访问你,并不意味着你没有影响力,因为可以直接访问你,所以引入了阻尼因子的概念。

2、海洋除了河流流经外,还有雨水,但下雨是随机的。

3、提出阻尼系数,或者解决一些网站显然有大量的链(链),但影响很大。

出链例子:hao123导航网页,出链多,入链少。

入链例子:百度谷歌等搜索引擎,入链很多,出链很少。

二、Apriori(相关分析)

关联挖掘关系,从消费者交易记录中发现商品之间的关系。

Apriori原理

1、支持度

商品组合出现的次数与总次数之比。

五次购买,四次购买牛奶,牛奶支持度为4/5=0.8。

五次购买,三次购买牛奶+面包,牛奶+面包支持3/5=0.6。

2、置信度

购买商品A,购买商品B的概率有多大,发生A时发生B的概率有多大。

买了四次牛奶,其中两次买了啤酒,(牛奶->啤酒)的可信度是2/4=0.5。

三次买啤酒,其中两次买牛奶,(啤酒->牛奶)的可信度为2/3-0.67。

3、提升度

衡量商品A的出现,提高商品B出现概率的程度。

提升度(A->B)=置信度(A->B)/支持度(B)。

提升度>1,有提升;提升度=1,无变化;提升度1,下降。

4、项集频繁

项集:可以是单一商品,也可以是商品组合。

频繁的项集是支持度大于最小支持度的项集(MinSupport)。

计算过程

(1)从K=1开始,经常筛选项集。

(2)在结果中,组合K+1项集,重新筛选。

(3)循环1,2步。K-1项集的结果是最终结果,直到找不到结果。

扩展:FP-Growth算法。

Apriori算法需要多次扫描数据库,性能低,不适合大数据量。

FP-growth算法,通过构建FP树的数据结构,将数据存储在FP树中,只需在构建FP树时扫描数据库两次,后续处理就不需要再访问数据库。

比喻:啤酒和纸尿裤一起卖。

沃尔玛通过数据分析发现,在美国有婴儿的家庭中,母亲通常在家照顾孩子,父亲去超市买尿布。

父亲在买纸尿裤的时候,经常会搭配几瓶啤酒来奖励自己。因此,超市试图推出一种将啤酒和纸尿裤放在一起的促销手段,这实际上大大增加了纸尿裤和啤酒的销量。

三、数据挖掘算法:AdaBoost

AdaBoost原理

简单来说,多个弱分类器训练成强分类器。

将一系列弱分类器作为不同权重比组合的最终分类选择。

计算过程

1、基本权重初始化。

2、奖励权重矩阵,通过现有的分类器计算错误率,选择错误率最低的分类器。

3、通过分类器权重公式,减少正确的样本分布,增加错误的样本分布,获得新的权重矩阵和当前k轮的分类器权重。

4、将新的权重矩阵带入上述步骤2和3,重新计算权重矩阵。

5、迭代N轮,记录每轮最终分类器的权重,获得强分类器。

AdaBoost算法比喻说明

1、利用错题提高学习效率

做对的题,下次少做点,反正都会。

下次多做错题,集中在错题上。

随着学习的深入,错题会越来越少。

2、合理跨境提高利润

苹果公司,软硬件结合,占据了手机市场的大部分利润,两个领域的知识结合产生了新的收益。

四、数据挖掘算法:C4.5(决策树)

 

决策就是对一个问题有多个答案,选择答案的过程就是决策。

C4.5算法用于产生决策树,主要用于分类。

C4.5计算信息增益率(ID3算法计算信息增益)。

C4.5算法原理

C4.5算法选择最有效的方法对样本集进行分裂,分裂规则是分析所有属性的信息增益率。

信息增益率越大,意味着这个特征分类的能力越强,我们应该优先选择这个特征进行分类。

比喻说明:挑西瓜。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgdpss.html