Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介 (7)

clip_image035

可以看出在Logistic Regression的运算场景下,SparkHadoop快了100倍以上!

MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤,MLlibSpark整个生态系统中的位置如图下图所示。

clip_image037

MLlib基于RDD,天生就可以与Spark SQLGraphXSpark Streaming无缝集成,以RDD为基石,4个子框架可联手构建大数据计算中心!

MLlibMLBase一部分,其中MLBase分为四部分:MLlibMLIML OptimizerMLRuntime

l  ML Optimizer会选择它认为最适合的已经在内部实现好了的机器学习算法和相关参数,来处理用户输入的数据,并返回模型或别的帮助分析的结果;

l  MLI 是一个进行特征抽取和高级ML编程抽象的算法实现的API或平台;

l  MLlibSpark实现一些常见的机器学习算法和实用程序,包括分类、回归、聚类、协同过滤、降维以及底层优化,该算法可以进行可扩充; MLRuntime 基于Spark计算框架,将Spark的分布式计算应用到机器学习领域。

clip_image039

3Spark MLlib架构解析

从架构图可以看出MLlib主要包含三个部分:

l  底层基础:包括Spark的运行库、矩阵库和向量库;

l  算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;

l  实用程序:包括测试数据的生成、外部数据的读入等功能。

clip_image041

3.1 MLlib的底层基础解析

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzxygg.html