一文弄懂数据挖掘的十大算法，数据挖掘算法原理讲解

日期：2022-10-06 栏目：程序人生浏览：次

一个优秀的数据分析师不仅要掌握基本的统计、数据库、数据分析方法、思维、数据分析工具和技能，还要掌握一些数据挖掘的思路，帮助我们挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之一。

大数据分析师技能图谱.png

数据挖掘主要分为三类：分类算法、聚类算法和相关规则，基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘算法的介绍都是深奥难懂的。今天我就用我的理解给大家介绍一下数据挖掘十大经典算法的原理，帮助大家快速理解。

数据挖掘算法分类

1、连接分析：PageRank。

2、相关分析：Apriori。

3、分类算法：C4.5，简单的贝叶斯，SVM，KNN，Adaboost，CART。

4、聚类算法：K-Means，EM。

一、PageRank

论文被引用的次数越多，其影响就越大。

网页入口越多，入链质量越高，网页质量越高。

PageRank原理

网页的影响=阻尼影响+所有入链集合页面的加权影响之和。

一个网页的影响：所有进入链的页面的加权影响之和。

一个网页对其他网页的影响是：自身影响/链接数量。

并非所有用户都是通过跳转链接来上网的，还有其他方式，比如直接输入网站访问。

因此需要设置阻尼因子，代表用户根据跳转链接上网的概率。

PageRank比喻说明

1、微博

一个人的微博粉丝数量不一定等于他的实际影响力，还要看粉丝的质量。

如果是僵尸粉没用，但是如果是很多大V或者明星关注的话，影响力很大。

2、店铺经营

顾客较多的店铺质量较好，但要看顾客是否是托。

3、兴趣

对感兴趣的人或事投入相对较多的时间，对其相关的人和事也投入一定的时间。被关注的人或事越多，其影响力/受众就越大。

关于阻尼因子

1、通过邻居的影响来判断你的影响，但是如果你不能通过邻居来访问你，并不意味着你没有影响力，因为可以直接访问你，所以引入了阻尼因子的概念。

2、海洋除了河流流经外，还有雨水，但下雨是随机的。

3、提出阻尼系数，或者解决一些网站显然有大量的链（链），但影响很大。

出链例子：hao123导航网页，出链多，入链少。

入链例子：百度谷歌等搜索引擎，入链很多，出链很少。

二、Apriori(相关分析)

关联挖掘关系，从消费者交易记录中发现商品之间的关系。

Apriori原理

1、支持度

商品组合出现的次数与总次数之比。

五次购买，四次购买牛奶，牛奶支持度为4/5=0.8。

五次购买，三次购买牛奶+面包，牛奶+面包支持3/5=0.6。

2、置信度

购买商品A，购买商品B的概率有多大，发生A时发生B的概率有多大。

买了四次牛奶，其中两次买了啤酒，(牛奶->啤酒)的可信度是2/4=0.5。

三次买啤酒，其中两次买牛奶，(啤酒->牛奶)的可信度为2/3-0.67。

3、提升度

衡量商品A的出现，提高商品B出现概率的程度。

提升度(A->B)=置信度(A->B)/支持度(B)。

提升度>1，有提升；提升度=1，无变化；提升度1，下降。

4、项集频繁

项集：可以是单一商品，也可以是商品组合。

频繁的项集是支持度大于最小支持度的项集(MinSupport)。

计算过程

（1）从K=1开始，经常筛选项集。

（2）在结果中，组合K+1项集，重新筛选。

（3）循环1,2步。K-1项集的结果是最终结果，直到找不到结果。

扩展：FP-Growth算法。

Apriori算法需要多次扫描数据库，性能低，不适合大数据量。

FP-growth算法，通过构建FP树的数据结构，将数据存储在FP树中，只需在构建FP树时扫描数据库两次，后续处理就不需要再访问数据库。

比喻：啤酒和纸尿裤一起卖。

沃尔玛通过数据分析发现，在美国有婴儿的家庭中，母亲通常在家照顾孩子，父亲去超市买尿布。

父亲在买纸尿裤的时候，经常会搭配几瓶啤酒来奖励自己。因此，超市试图推出一种将啤酒和纸尿裤放在一起的促销手段，这实际上大大增加了纸尿裤和啤酒的销量。

三、数据挖掘算法：AdaBoost

AdaBoost原理

简单来说，多个弱分类器训练成强分类器。

将一系列弱分类器作为不同权重比组合的最终分类选择。

计算过程

1、基本权重初始化。

2、奖励权重矩阵，通过现有的分类器计算错误率，选择错误率最低的分类器。

3、通过分类器权重公式，减少正确的样本分布，增加错误的样本分布，获得新的权重矩阵和当前k轮的分类器权重。

4、将新的权重矩阵带入上述步骤2和3，重新计算权重矩阵。

5、迭代N轮，记录每轮最终分类器的权重，获得强分类器。

AdaBoost算法比喻说明

1、利用错题提高学习效率

做对的题，下次少做点，反正都会。

下次多做错题，集中在错题上。

随着学习的深入，错题会越来越少。

2、合理跨境提高利润

苹果公司，软硬件结合，占据了手机市场的大部分利润，两个领域的知识结合产生了新的收益。

四、数据挖掘算法：C4.5(决策树)

决策就是对一个问题有多个答案，选择答案的过程就是决策。

C4.5算法用于产生决策树，主要用于分类。

C4.5计算信息增益率(ID3算法计算信息增益)。

C4.5算法原理

C4.5算法选择最有效的方法对样本集进行分裂，分裂规则是分析所有属性的信息增益率。

信息增益率越大，意味着这个特征分类的能力越强，我们应该优先选择这个特征进行分类。

比喻说明：挑西瓜。

转载注明出处：https://www.heiqu.com/zgdpss.html

一文弄懂数据挖掘的十大算法，数据挖掘算法原理讲解

相关推荐