大数据潮流下的机器学习及应用场景

  机器学习是一门人工智能的科学,能通过经验自动改进的计算机算法的研究。    

  机器学习是一个多学科交叉的领域,会涉及到计算机、信息学、数学、统计学、神经科学等。

  机器学习是大数据的核心技术,本质都是基于经验的算法处理。机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。

大数据潮流下的机器学习及应用场景

  在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求,就用该模型来测试其他的数据;如果达不到要求,就要调整算法来重新建立模型,再次进行评估。如此循环往复,最终获得满意的经验来处理其他的数据。

  机器学习技术和方法已经被成功应用到多个领域,比如今日头条的个性推荐系统,蚂蚁金服的金融反欺诈,讯飞的语音识别,自然语言处理和google的机器翻译,模式识别,智能控制、垃圾邮件等。

机器学习的分类  监督学习

  监督是从给定的训练数据集中学习一个模型,再用此模型预测,再将预测结果与实际结果进行比较,不断调整预测模型,直到达到一个预期的准确率。

  常见算法包括回归分析和统计分类。监督学习常用作训练神经网络和决策树。他们高度依赖事先确定的分类系统。如垃圾邮件、新闻资讯内容分类。

非监督学习

  非监督学习的训练集没有人为标注的结果,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。

大数据潮流下的机器学习及应用场景

  这类学习型的目标不是让效用函数最大化,而是找到训练数据中的近似点。聚类常常能发现那些与假设匹配的相当好的直观分类,如基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合和穷的聚合。

半监督学习

  介于监督学习与无监督学习间,产要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。学习算法试图对未标识数据进行建模,再对标识的数据进行预测,如图论推理算法或拉普拉斯支持向量机等。

机器学习常用算法 回归算法

  最小二乘法、逻辑回归、逐步式回归、多元自适诮回归样条以及要地散点平滑估计。

大数据潮流下的机器学习及应用场景

基于实例的算法

  常被称为“赢家通吃”学习。常用来对策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。

决策树学习

  根据数据的属性采用树状结构建立决策模型,常用来解决分类和回归问题。

大数据潮流下的机器学习及应用场景

贝叶斯学习

  主要用来解决分类和回归问题。朴素贝叶斯算法。

大数据潮流下的机器学习及应用场景

聚类、分类算法

大数据潮流下的机器学习及应用场景

聚类和分类是机器学习中两个常用的算法,聚类将数据分开为不同的集合,分类对新数据进行类别预测,下面将就两类算法进行介绍。
(1)什么是聚类
  聚类(Clustering)指将数据对象分组成为多个类或者簇(Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。

  其实,聚类在人们日常生活中是一种常见行为,即所谓的“物以类聚,人以群分”,其核心思想在于分组,人们不断地改进聚类模式来学习如何区分各个事物和人。

(2)什么是分类
  数据仓库、数据库或者其他信息库中有许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测即是其中的两种数据分析形式,可以用来抽取能够描述重要数据集合或预测未来数据趋势。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpzpys.html