机器学习 :基础概念

本文是笔者学习李航老师的经典教材《统计学习方法》第一章的学习笔记,分享在此,作为机器学习系列的开篇文章,在本系列中,将会逐一总结介绍主要的机器学习算法的基本原理、基于Python的具体实现、使用sklearn等第三方库的调用实践。

1.统计学习的基本概念 1-1.统计学习的定义

统计学习是关于计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析的一门科学,又称统计机器学习

1-2.统计学习的特点

1)建立在计算机及网络上;
2)以数据为研究对象;
3)用于对数据进行预测与分析;
4)应用统计方法构建模型并应用模型进行预测与分析;
5)是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。

1-3.统计学习的对象

对象就是数据
数据的形式是多样的:结构化数据,非结构化的文字、图像、音频、视频等等。

1-4.统计学习的目的

用于对数据进行预测与分析,特别是对未知的新数据进行预测与分析

1-5.统计学习的方法

主要分为四种:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)。

1-6.统计学习的步骤

1)得到一个有限的训练数据集合;
2)确定包含所有可能的额模型的假设空间,即学习模型的集合;
3)确定模型选择的准则,即学习的策略;
4)实现求解最优模型的算法,即学习的算法;
5)通过学习方法选择最优模型;
6)利用学习的最优模型对新数据进行预测或分析。

2.监督学习 2-1.定义

监督学习利用训练数据集学习一个模型,再用这个模型对测试样本集进行预测。
监督学习分为学习预测两个阶段。

机器学习 :基础概念

2-2.假设

监督学习中,假设训练数据与测试数据是独立同分布的

2-3.过程

学习的过程就是找到一个从输入到输出的映射,这个映射就是模型。
模型可以表示概率模型非概率模型,概率模型可表示为条件概率分布\(P(Y|X)\),非概率模型可表示为决策函数\(Y=f(X)\)
所有的模型的集合称为假设空间,由于模型是输入到输出的映射,因此假设空间就是从输入空间到输出空间的映射。

2-4.目的

学习的目的就是找到最好的模型

3.统计学习的三要素

统计学习具有三要素: 方法=模型+策略+算法

3-1.模型

模型就是要学习的条件概率分布或者决策函数。

3-2.策略

策略就是选取最优模型的准则和方法。

(1)损失函数

损失函数(loss function)度量模型一次预测的好坏。
以非概率模型为例,模型\(f\)会针对输入\(X\)给定输出\(f(X)\),这个输出值与实际值Y之间可能有差异,用损失函数(或称代价函数)来度量这种差异的程度,记作\(L(Y,f(X))\)
常用的损失函数:
1)0-1损失函数:

机器学习 :基础概念


2)平方损失函数:

机器学习 :基础概念


3)绝对损失函数:

机器学习 :基础概念


4)对数损失函数:

机器学习 :基础概念

损失函数取值越小,模型就越好。

(2)风险函数

风险函数度量平均意义下模型预测的好坏。
风险函数(risk function),其实就是损失函数的期望,也称为期望风险(expected risk)、期望损失(expected loss)

机器学习 :基础概念


学习的目的不是选择损失函数最小的模型,而是选择风险函数最小的模型

(3)经验风险

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zypswg.html