本文是笔者学习李航老师的经典教材《统计学习方法》第一章的学习笔记,分享在此,作为机器学习系列的开篇文章,在本系列中,将会逐一总结介绍主要的机器学习算法的基本原理、基于Python的具体实现、使用sklearn等第三方库的调用实践。
1.统计学习的基本概念 1-1.统计学习的定义统计学习是关于计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析的一门科学,又称统计机器学习。
1-2.统计学习的特点1)建立在计算机及网络上;
2)以数据为研究对象;
3)用于对数据进行预测与分析;
4)应用统计方法构建模型并应用模型进行预测与分析;
5)是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。
对象就是数据。
数据的形式是多样的:结构化数据,非结构化的文字、图像、音频、视频等等。
用于对数据进行预测与分析,特别是对未知的新数据进行预测与分析。
1-5.统计学习的方法主要分为四种:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)。
1-6.统计学习的步骤1)得到一个有限的训练数据集合;
2)确定包含所有可能的额模型的假设空间,即学习模型的集合;
3)确定模型选择的准则,即学习的策略;
4)实现求解最优模型的算法,即学习的算法;
5)通过学习方法选择最优模型;
6)利用学习的最优模型对新数据进行预测或分析。
监督学习利用训练数据集学习一个模型,再用这个模型对测试样本集进行预测。
监督学习分为学习和预测两个阶段。
监督学习中,假设训练数据与测试数据是独立同分布的。
2-3.过程学习的过程就是找到一个从输入到输出的映射,这个映射就是模型。
模型可以表示概率模型和非概率模型,概率模型可表示为条件概率分布\(P(Y|X)\),非概率模型可表示为决策函数\(Y=f(X)\)。
所有的模型的集合称为假设空间,由于模型是输入到输出的映射,因此假设空间就是从输入空间到输出空间的映射。
学习的目的就是找到最好的模型。
统计学习具有三要素: 方法=模型+策略+算法
3-1.模型模型就是要学习的条件概率分布或者决策函数。
3-2.策略策略就是选取最优模型的准则和方法。
(1)损失函数损失函数(loss function)度量模型一次预测的好坏。
以非概率模型为例,模型\(f\)会针对输入\(X\)给定输出\(f(X)\),这个输出值与实际值Y之间可能有差异,用损失函数(或称代价函数)来度量这种差异的程度,记作\(L(Y,f(X))\)。
常用的损失函数:
1)0-1损失函数:
2)平方损失函数:
3)绝对损失函数:
4)对数损失函数:
损失函数取值越小,模型就越好。
(2)风险函数风险函数度量平均意义下模型预测的好坏。
风险函数(risk function),其实就是损失函数的期望,也称为期望风险(expected risk)、期望损失(expected loss)。
学习的目的不是选择损失函数最小的模型,而是选择风险函数最小的模型。 (3)经验风险