机器学习 :基础概念

日期：2021-10-04 栏目：程序人生浏览：次

本文是笔者学习李航老师的经典教材《统计学习方法》第一章的学习笔记，分享在此，作为机器学习系列的开篇文章，在本系列中，将会逐一总结介绍主要的机器学习算法的基本原理、基于Python的具体实现、使用sklearn等第三方库的调用实践。

1.统计学习的基本概念 1-1.统计学习的定义

统计学习是关于计算机基于数据构建概率统计模型，并运用模型对数据进行预测与分析的一门科学，又称统计机器学习。

1-2.统计学习的特点

1）建立在计算机及网络上；
2）以数据为研究对象；
3）用于对数据进行预测与分析；
4）应用统计方法构建模型并应用模型进行预测与分析；
5）是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。

1-3.统计学习的对象

对象就是数据。
数据的形式是多样的：结构化数据，非结构化的文字、图像、音频、视频等等。

1-4.统计学习的目的

用于对数据进行预测与分析，特别是对未知的新数据进行预测与分析。

1-5.统计学习的方法

主要分为四种：监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervised learning）、强化学习（reinforcement learning）。

1-6.统计学习的步骤

1）得到一个有限的训练数据集合；
2）确定包含所有可能的额模型的假设空间，即学习模型的集合；
3）确定模型选择的准则，即学习的策略；
4）实现求解最优模型的算法，即学习的算法；
5）通过学习方法选择最优模型；
6）利用学习的最优模型对新数据进行预测或分析。

2.监督学习 2-1.定义

监督学习利用训练数据集学习一个模型，再用这个模型对测试样本集进行预测。
监督学习分为学习和预测两个阶段。

机器学习 :基础概念

2-2.假设

监督学习中，假设训练数据与测试数据是独立同分布的。

2-3.过程

学习的过程就是找到一个从输入到输出的映射，这个映射就是模型。
模型可以表示概率模型和非概率模型，概率模型可表示为条件概率分布\(P(Y|X)\)，非概率模型可表示为决策函数\(Y=f(X)\)。
所有的模型的集合称为假设空间，由于模型是输入到输出的映射，因此假设空间就是从输入空间到输出空间的映射。

2-4.目的

学习的目的就是找到最好的模型。

3.统计学习的三要素

统计学习具有三要素：方法=模型+策略+算法

3-1.模型

模型就是要学习的条件概率分布或者决策函数。

3-2.策略

策略就是选取最优模型的准则和方法。

（1）损失函数

损失函数（loss function）度量模型一次预测的好坏。
以非概率模型为例，模型\(f\)会针对输入\(X\)给定输出\(f(X)\)，这个输出值与实际值Y之间可能有差异，用损失函数（或称代价函数）来度量这种差异的程度，记作\(L(Y,f(X))\)。
常用的损失函数：
1）0-1损失函数：

机器学习 :基础概念