一文弄懂数据挖掘的十大算法，数据挖掘算法原理讲解 (2)

日期：2022-10-06 栏目：程序人生浏览：次

拿到一个西瓜，先判断它的线条。如果很模糊，就觉得不是好瓜。如果很清楚，就觉得是好瓜。如果稍微模糊一点，就考虑它的密度。如果密度大于一定值，就认为是好瓜，否则就是坏瓜。

五、数据挖掘算法：CART(决策树)

CART：Clasification And Regresion Tree，中文叫分类回归树，可以分类也可以回归。

什么是分类树？回归树？

分类树：处理离散数据，即数据类型有限的数据，输出样本类别。

回归树：可以预测连续值，输出一个值，值可以在一定范围内获得。

回归问题和分类问题的本质是一样的，就是对一个输入做一个输出预测，其区别在于输出变量的类型。

CART算法原理

CART分类树

类似于C4.5算法，但属性选择的指标是基尼系数。

基尼系数反映了样本的不确定性。基尼系数越小，样本之间的差异越小，不确定性越低。

分类是一个降低不确定性的过程。CART在构建分类树时，会选择基尼系数最小的属性作为属性划分。

回归树的CART

以均方误差或绝对值误差为标准，选择均方误差或绝对值误差最小的特征。

分类和回归数的比喻说明

分类：预测明天是阴、晴还是雨。

回归：预测明天的温度。

六、数据挖掘算法：简单贝叶斯(条件概率)

简单贝叶斯是一种简单有效的常用分类算法，在未知物体出现的情况下，计算各类出现的概率，取概率最大的分类。

数据挖掘算法：简单贝叶斯(条件概率).png

算法原理

假设输入的不同特征是独立的，基于概率论原理，通过先验概率P(A)、P(B)和条件概率计算出P(A|B)。

P(A):先验概率，即在B事件发生前判断A事件概率。

P(B|A):条件概率，事件B在另一个事件A已经发生的条件下发生的概率。

P(A|B):后验概率，即B事件发生后重新评估A事件概率。

比喻说明:对患者进行分类

给定一个新病人，一个打喷嚏的建筑工人，计算他感冒的概率。

比喻说明.png

七、数据挖掘算法：SVM

SVM：SupportVectorMachine，中文名为支持向量机，是一种常见的分类方法，最初是为二分类问题设计的，在机器学习中，SVM是一种有监督的学习模式。

什么是监督学习和无监督学习？

监督学习：即在现有类别标签的情况下，对样本数据进行分类。

无监督学习:即在没有类别标签的情况下，样本数据按照一定的方法进行分类，即聚类。分类好的类别需要进一步分析，才能知道每个类别的特点。

SVM算法原理

找到间隔最小的样本点，然后拟合到这些样本点的距离和最大的线段/平面。

硬间隔：数据线性分布，直接给出分类。

软间隔：允许一定量的样本分类错误。

核函数：非线性分布的数据映射为线性分布的数据。

SVM算法比喻说明

1、分隔桌上的一堆红球和篮球。

桌上的红球和蓝球用一根线分成两部分。

2、分隔盒子里的一堆红球和篮球。

盒子里的红球和蓝球用平面分成两部分。

八、数据挖掘算法：KNN(聚类)

机器学习算法中最基本、最简单的算法之一，可以通过测量不同特征值之间的距离来分类。

KNN算法原理

计算待分类物体与其他物体之间的距离，预测K最近邻居数量最多的类别是该分类物体的类别。

计算步骤。

1.根据场景选择距离计算方法，计算待分类物体与其他物体之间的距离。

2.统计最近的K邻居。

3.对于K最近的邻居，最多的类别被预测为分类对象的类别。

KNN算法比喻：近朱者赤，近墨者黑。

九、数据挖掘算法：K-Means(聚类)

K-means是一种无监督学习、生成指定K类的聚类算法，将每个对象分配到最近的聚类中心。

转载注明出处：https://www.heiqu.com/zgdpss.html

一文弄懂数据挖掘的十大算法，数据挖掘算法原理讲解 (2)

相关推荐