一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解 (2)

拿到一个西瓜,先判断它的线条。如果很模糊,就觉得不是好瓜。如果很清楚,就觉得是好瓜。如果稍微模糊一点,就考虑它的密度。如果密度大于一定值,就认为是好瓜,否则就是坏瓜。

五、数据挖掘算法:CART(决策树)

CART:Clasification And Regresion Tree,中文叫分类回归树,可以分类也可以回归。

什么是分类树?回归树?

分类树:处理离散数据,即数据类型有限的数据,输出样本类别。

回归树:可以预测连续值,输出一个值,值可以在一定范围内获得。

回归问题和分类问题的本质是一样的,就是对一个输入做一个输出预测,其区别在于输出变量的类型。

CART算法原理

CART分类树

类似于C4.5算法,但属性选择的指标是基尼系数。

基尼系数反映了样本的不确定性。基尼系数越小,样本之间的差异越小,不确定性越低。

分类是一个降低不确定性的过程。CART在构建分类树时,会选择基尼系数最小的属性作为属性划分。

回归树的CART

以均方误差或绝对值误差为标准,选择均方误差或绝对值误差最小的特征。

分类和回归数的比喻说明

分类:预测明天是阴、晴还是雨。

回归:预测明天的温度。

六、数据挖掘算法:简单贝叶斯(条件概率)

 

简单贝叶斯是一种简单有效的常用分类算法,在未知物体出现的情况下,计算各类出现的概率,取概率最大的分类。

数据挖掘算法:简单贝叶斯(条件概率).png

算法原理

假设输入的不同特征是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率计算出P(A|B)。

P(A):先验概率,即在B事件发生前判断A事件概率。

P(B|A):条件概率,事件B在另一个事件A已经发生的条件下发生的概率。

P(A|B):后验概率,即B事件发生后重新评估A事件概率。

比喻说明:对患者进行分类

给定一个新病人,一个打喷嚏的建筑工人,计算他感冒的概率。

比喻说明.png

七、数据挖掘算法:SVM

SVM:SupportVectorMachine,中文名为支持向量机,是一种常见的分类方法,最初是为二分类问题设计的,在机器学习中,SVM是一种有监督的学习模式。

什么是监督学习和无监督学习?

监督学习:即在现有类别标签的情况下,对样本数据进行分类。

无监督学习:即在没有类别标签的情况下,样本数据按照一定的方法进行分类,即聚类。分类好的类别需要进一步分析,才能知道每个类别的特点。

SVM算法原理

找到间隔最小的样本点,然后拟合到这些样本点的距离和最大的线段/平面。

硬间隔:数据线性分布,直接给出分类。

软间隔:允许一定量的样本分类错误。

核函数:非线性分布的数据映射为线性分布的数据。

SVM算法比喻说明

1、分隔桌上的一堆红球和篮球。

桌上的红球和蓝球用一根线分成两部分。

2、分隔盒子里的一堆红球和篮球。

盒子里的红球和蓝球用平面分成两部分。

八、数据挖掘算法:KNN(聚类)

 

机器学习算法中最基本、最简单的算法之一,可以通过测量不同特征值之间的距离来分类。

KNN算法原理

计算待分类物体与其他物体之间的距离,预测K最近邻居数量最多的类别是该分类物体的类别。

计算步骤。

1.根据场景选择距离计算方法,计算待分类物体与其他物体之间的距离。

2.统计最近的K邻居。

3.对于K最近的邻居,最多的类别被预测为分类对象的类别。

KNN算法比喻:近朱者赤,近墨者黑。

九、数据挖掘算法:K-Means(聚类)

 

K-means是一种无监督学习、生成指定K类的聚类算法,将每个对象分配到最近的聚类中心。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgdpss.html