拿到一个西瓜,先判断它的线条。如果很模糊,就觉得不是好瓜。如果很清楚,就觉得是好瓜。如果稍微模糊一点,就考虑它的密度。如果密度大于一定值,就认为是好瓜,否则就是坏瓜。
五、数据挖掘算法:CART(决策树)
CART:Clasification And Regresion Tree,中文叫分类回归树,可以分类也可以回归。
什么是分类树?回归树?
分类树:处理离散数据,即数据类型有限的数据,输出样本类别。
回归树:可以预测连续值,输出一个值,值可以在一定范围内获得。
回归问题和分类问题的本质是一样的,就是对一个输入做一个输出预测,其区别在于输出变量的类型。
CART算法原理
CART分类树
类似于C4.5算法,但属性选择的指标是基尼系数。
基尼系数反映了样本的不确定性。基尼系数越小,样本之间的差异越小,不确定性越低。
分类是一个降低不确定性的过程。CART在构建分类树时,会选择基尼系数最小的属性作为属性划分。
回归树的CART
以均方误差或绝对值误差为标准,选择均方误差或绝对值误差最小的特征。
分类和回归数的比喻说明
分类:预测明天是阴、晴还是雨。
回归:预测明天的温度。
六、数据挖掘算法:简单贝叶斯(条件概率)
简单贝叶斯是一种简单有效的常用分类算法,在未知物体出现的情况下,计算各类出现的概率,取概率最大的分类。
算法原理
假设输入的不同特征是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率计算出P(A|B)。
P(A):先验概率,即在B事件发生前判断A事件概率。
P(B|A):条件概率,事件B在另一个事件A已经发生的条件下发生的概率。
P(A|B):后验概率,即B事件发生后重新评估A事件概率。
比喻说明:对患者进行分类
给定一个新病人,一个打喷嚏的建筑工人,计算他感冒的概率。
七、数据挖掘算法:SVM
SVM:SupportVectorMachine,中文名为支持向量机,是一种常见的分类方法,最初是为二分类问题设计的,在机器学习中,SVM是一种有监督的学习模式。
什么是监督学习和无监督学习?
监督学习:即在现有类别标签的情况下,对样本数据进行分类。
无监督学习:即在没有类别标签的情况下,样本数据按照一定的方法进行分类,即聚类。分类好的类别需要进一步分析,才能知道每个类别的特点。
SVM算法原理
找到间隔最小的样本点,然后拟合到这些样本点的距离和最大的线段/平面。
硬间隔:数据线性分布,直接给出分类。
软间隔:允许一定量的样本分类错误。
核函数:非线性分布的数据映射为线性分布的数据。
SVM算法比喻说明
1、分隔桌上的一堆红球和篮球。
桌上的红球和蓝球用一根线分成两部分。
2、分隔盒子里的一堆红球和篮球。
盒子里的红球和蓝球用平面分成两部分。
八、数据挖掘算法:KNN(聚类)
机器学习算法中最基本、最简单的算法之一,可以通过测量不同特征值之间的距离来分类。
KNN算法原理
计算待分类物体与其他物体之间的距离,预测K最近邻居数量最多的类别是该分类物体的类别。
计算步骤。
1.根据场景选择距离计算方法,计算待分类物体与其他物体之间的距离。
2.统计最近的K邻居。
3.对于K最近的邻居,最多的类别被预测为分类对象的类别。
KNN算法比喻:近朱者赤,近墨者黑。
九、数据挖掘算法:K-Means(聚类)
K-means是一种无监督学习、生成指定K类的聚类算法,将每个对象分配到最近的聚类中心。