这篇文档花了作者两个月的时间,终于在2014年的最后一天的前一天基本完成。通过这篇文章,作者希望对机器学习在国内的普及做一点贡献,同时也是作者本人自己对于所学机器学习知识的一个融汇贯通,整体归纳的提高过程。作者把这么多的知识经过自己的大脑思考,训练出了一个模型,形成了这篇文档,可以说这也是一种机器学习的过程吧(笑)。
作者所在的行业会接触到大量的数据,因此对于数据的处理和分析是平常非常重要的工作,机器学习课程的思想和理念对于作者日常的工作指引作用极大,几乎导致了作者对于数据价值的重新认识。想想半年前,作者还对机器学习似懂非懂,如今也可以算是一个机器学习的Expert了(笑)。但作者始终认为,机器学习的真正应用不是通过概念或者思想的方式,而是通过实践。只有当把机器学习技术真正应用时,才可算是对机器学习的理解进入了一个层次。正所谓再“阳春白雪”的技术,也必须落到“下里巴人”的场景下运用。目前有一种风气,国内外研究机器学习的某些学者,有一种高贵的逼格,认为自己的研究是普通人无法理解的,但是这样的理念是根本错误的,没有在真正实际的地方发挥作用,凭什么证明你的研究有所价值呢?作者认为必须将高大上的技术用在改变普通人的生活上,才能发挥其根本的价值。一些简单的场景,恰恰是实践机器学习技术的最好地方。
2.1机器学习的术语特征、样本、数据集、标记这些术语的说明:
特征、样本、数据集、标记这些术语的说明
特征(属性)所张成的空间叫做特征空间。
特征空间
例如我们把“色泽”、"根蒂“、”敲声“作为三个坐标轴,则它们张成一个用于描述西瓜的三围空间,每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,我们也把一个示例称为“特征向量”。
特征向量
回到我们上面的图,再来讲讲“训练数据”、“训练”、“标记”:
“训练数据”、“训练”、“标记”的术语解释
2.2机器学习的分类一般机器学习又可以分成以下几类:
监督学习
半监督学习
非监督学习
增强学习
2.2.1监督学习监督学习:训练数据(Training Data)可以告诉我们要找的那个模型的输入(Input)与输出(Output,也就是我们说的label)之间有什么样的关系。
给出的数据都有“答案”或“标记”
训练数据:"Java3y公众号"->好的公众号 , "Java4y公众号"->不好的公众号。
输出结果:好的公众号或者不好的公众号
在监听学习下又分为两种算法:
回归(Regression):结果是一个连续的数值(scalar),而非类别
分类(Classification):为训练数据进行分类别(多分类)
二分类:类别只有两种结果(YES OR NO)
回归例子:知道前几天的PM2.5数值,预测一下明天的PM2.5数值。
回归例子
二分类例子:判断一封邮件是垃圾邮件还是正常邮件。
判断是垃圾邮件还是正常邮件
多分类例子:将新闻帖子分类成不同的类别。
分类成不同的类别
2.2.2非监督学习非监督学习:训练数据(Training Data)没有对应“答案”或“标记”