机器学习（回归预测数值型数据）

日期：2022-09-28 栏目：程序人生浏览：次

之前介绍的分类的目标变量都是标称型数据，接下来我们将介绍连续型的数据并且作出预测，本篇介绍的是线性回归，接下来引入局部平滑技术，能够更好地拟合数据

本篇我们主要讨论欠拟合情况下的缩减的技术，探讨偏差和方差的概念。

优点：结构易于理解，计算上不复杂

缺点：对非线性的数据拟合不好

适合数值型和标称型数据

有回归方程，求回归方程的回归系数的过程就是回归，一旦有了回归系数，再给定了输入，做预测就非常容易。具体做法就是回归系数乘以输入数据，再将结果全部加到一起，就得到预测值

机器学习算法的基本任务就是预测，预测目标按照数据类型可以分为两类：一种是标称型数据（通常表现为类标签），另一种是连续型数据（例如房价或者销售量等等）。针对标称型数据的预测就是我们常说的分类，针对数值型数据的预测就是回归了。这里有一个特殊的算法需要注意，逻辑回归（logistic regression）是一种用来分类的算法，那为什么又叫“回归”呢？这是因为逻辑回归是通过拟合曲线来进行分类的。也就是说，逻辑回归只不过在拟合曲线的过程中采用了回归的思想，其本质上仍然是分类算法

这个简单的式子就叫回归方程，其中0.7和0.19称为回归系数，面积和房子的朝向称为特征。有了这些概念，我们就可以说，回归实际上就是求回归系数的过程。在这里我们看到，房价和面积以及房子的朝向这两个特征呈线性关系，这种情况我们称之为线性回归。当然还存在非线性回归，在这种情况下会考虑特征之间出现非线性操作的可能性（比如相乘或者相除），由于情况有点复杂，不在这篇文章的讨论范围之内。
　　简便起见，我们规定代表输入数据的矩阵为 $X X （维度为m*n，m为样本数，n为特征维度），回归系数向量为 θ θ（维度为n*1）。对于给定的数据矩阵 X X ，其预测结果由： Y = X θ Y=Xθ 这个式子给出。我们手里有一些现成的x和y作为训练集，那么如何根据训练集找到合适的回归系数向量 θ θ是我们要考虑的首要问题，一旦找到 θ θ，预测问题就迎刃而解了。在实际应用中，我们通常认为能带来最小平方误差的 θ θ就是我们所要寻找的回归系数向量。平方误差指的是预测值与真实值的差的平方。采用平方这种形式的目的在于规避正负误差的互相抵消。所以，我们的目标函数如下所示：$

转载注明出处：https://www.heiqu.com/zgdgsf.html

机器学习（回归预测数值型数据）

相关推荐