Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介 (4)

clip_image011

1.3.2 基于实例的算法

基于实例的算法常常用来对决策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此,基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括 k-Nearest Neighbor (KNN),、学习矢量量化(Learning Vector Quantization LVQ)以及自组织映射算法(Self-Organizing MapSOM

clip_image013

1.3.3 正则化方法

正则化方法是其他算法(通常是回归算法)的延伸,根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括:Ridge RegressionLeast Absolute Shrinkage and Selection OperatorLASSO)以及弹性网络(Elastic Net)。

clip_image015

1.3.4 决策树学习

决策树算法根据数据的属性采用树状结构建立决策模型,决策树模型常常用来解决分类和回归问题。常见的算法包括:分类及回归树(Classification And Regression Tree CART)、 ID3 (Iterative Dichotomiser 3)C4.5Chi-squared Automatic Interaction Detection (CHAID)Decision Stump、机森林(Random Forest)、多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting MachineGBM)。

clip_image017

1.3.5 贝叶斯学习

贝叶斯方法算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。常见算法包括:朴素贝叶斯算法、平均单依赖估计(Averaged One-Dependence Estimators AODE)以及 Bayesian Belief NetworkBBN)。

clip_image019

1.3.6 基于核的算法

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzxygg.html