这是我看过最好的「机器学习」科普文章了 (12)

日期：2022-06-26 栏目：程序人生浏览：次

　这篇文档花了作者两个月的时间，终于在2014年的最后一天的前一天基本完成。通过这篇文章，作者希望对机器学习在国内的普及做一点贡献，同时也是作者本人自己对于所学机器学习知识的一个融汇贯通，整体归纳的提高过程。作者把这么多的知识经过自己的大脑思考，训练出了一个模型，形成了这篇文档，可以说这也是一种机器学习的过程吧(笑)。

　　作者所在的行业会接触到大量的数据，因此对于数据的处理和分析是平常非常重要的工作，机器学习课程的思想和理念对于作者日常的工作指引作用极大，几乎导致了作者对于数据价值的重新认识。想想半年前，作者还对机器学习似懂非懂，如今也可以算是一个机器学习的Expert了(笑)。但作者始终认为，机器学习的真正应用不是通过概念或者思想的方式，而是通过实践。只有当把机器学习技术真正应用时，才可算是对机器学习的理解进入了一个层次。正所谓再“阳春白雪”的技术，也必须落到“下里巴人”的场景下运用。目前有一种风气，国内外研究机器学习的某些学者，有一种高贵的逼格，认为自己的研究是普通人无法理解的，但是这样的理念是根本错误的，没有在真正实际的地方发挥作用，凭什么证明你的研究有所价值呢？作者认为必须将高大上的技术用在改变普通人的生活上，才能发挥其根本的价值。一些简单的场景，恰恰是实践机器学习技术的最好地方。

2.1机器学习的术语

特征、样本、数据集、标记这些术语的说明：

特征、样本、数据集、标记这些术语的说明

特征(属性)所张成的空间叫做特征空间。

这是我看过最好的「机器学习」科普文章了

特征空间

例如我们把“色泽”、"根蒂“、”敲声“作为三个坐标轴，则它们张成一个用于描述西瓜的三围空间，每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，我们也把一个示例称为“特征向量”。

这是我看过最好的「机器学习」科普文章了

特征向量

回到我们上面的图，再来讲讲“训练数据”、“训练”、“标记”：

这是我看过最好的「机器学习」科普文章了

“训练数据”、“训练”、“标记”的术语解释

2.2机器学习的分类

一般机器学习又可以分成以下几类：

监督学习

半监督学习

非监督学习

增强学习

2.2.1监督学习

监督学习：训练数据(Training Data)可以告诉我们要找的那个模型的输入(Input)与输出(Output，也就是我们说的label)之间有什么样的关系。

给出的数据都有“答案”或“标记”

训练数据："Java3y公众号"->好的公众号， "Java4y公众号"->不好的公众号。
输出结果：好的公众号或者不好的公众号

在监听学习下又分为两种算法：

回归(Regression)：结果是一个连续的数值(scalar)，而非类别

分类(Classification)：为训练数据进行分类别(多分类)

二分类：类别只有两种结果(YES OR NO)

回归例子：知道前几天的PM2.5数值，预测一下明天的PM2.5数值。

回归例子

二分类例子：判断一封邮件是垃圾邮件还是正常邮件。

判断是垃圾邮件还是正常邮件

多分类例子：将新闻帖子分类成不同的类别。

分类成不同的类别

2.2.2非监督学习

非监督学习：训练数据(Training Data)没有对应“答案”或“标记”

转载注明出处：https://www.heiqu.com/zzsjpj.html

这是我看过最好的「机器学习」科普文章了 (12)

相关推荐