线性回归模型----机器学习随笔三

在前两篇博文中,主要对感知器的模型推导做了一些阐述,并顺手实现了算法。

可以发现单个感知器算法的实现过程中,权值调整的收敛条件,是依靠一个比较绝对的判断的,这个绝对的意思就是:训练数据绝对正确(我们不断地迭代修改权值,当响应与训练数据的期望一致时,停止迭代)。

这在数据比较工整的时候,效果还不错。如果我们的训练数据里包含了错误的分类,这样绝对的收敛条件仍然是正确的吗?

申明:本博文的公式仅仅是用来辅助推导的,如果看不懂,只要明白这个公式的意义就行。

当然如果有兴趣的,可以自己尝试一下推导这些公式

 

线性回归模型 2.1直观印象

线性回归可以直观的展示如下所示

我们可以看出线性回归的直接作用就是找出一条“最佳的直线”,预测出y(纵坐标)于x(横坐标)的关系。

这里并不会有很多的数学公式来定义这个“最佳直线”,可以用一句话来说清楚这个“最佳”-----最接近数据本身要表达的意义。

那这些数据要表达的意义是什么呢?

 

线性回归模型----机器学习随笔三

 

 

我们来想想一下这个场景,我们测量一个通过电阻的电流 于 电阻两端的电压(不断地增加电流大小,测出电阻两端地电压)。

电压于电阻的关系 可以看成一条直线 y=ax。

由于环境地温度或者湿度等等因素地影响,测出的电压-电流关系 并不是一条工整的直线(如上图所示)。

那么是不是就无法测量出电阻的大小了呢?(电压除以电流)

答案是否定的,假如环境的误差是随机产生的,那么在这个环境中测量出的数据,是服从高斯分布的(如下图所示)

如下所示,我们可以这么理解:假如环境对每次的测量的干扰是随机的(本次测量与上次产生误差的概率相同),数据的均值是不发生变化的(数据的真实意义),测量出的数据有68.2%的数据落在一倍均方差范围之内,99.7%的数据落在3倍均方差的范围之内。(2倍的情况大家可以自己算一下)

如果都明白了这个关系,我们可以尝试一下,用这个方法,去倾听数据要表达的真是意思了。

 

线性回归模型----机器学习随笔三

 

2.2 高斯分布

如下所示,就是高斯分布的函数了。

我们发现这个高斯函数少了一个表示数据均值的 参数u,大家简单理解为u=0即可。

一定要刨根问到底,我个人的理解是这样的,高斯分布专注于研究数据噪声,对样本的均值并不感兴趣。找到能产生最小噪声的位置,一定就是数据的真实意义所在的位置

线性回归模型----机器学习随笔三

公式中的ε表示测量误差

 

 

2.3 测量误差

在提测量误差之前,我们先给出线性回归的模型如下:

求和符号表示多维数据,一维的就仅仅是d=w*x+ε

x表示输入数据,w表示回归系数(权值),d表示数据的期望响应(不是统计学上的期望值,而是我们数据的真实测量结果)

w*x 表示回归模型的计算结果(测量结果)。

线性回归模型----机器学习随笔三

 

我们将误差带入高斯函数中。得到如下所示的形式,这表示

线性回归模型----机器学习随笔三

 

在回归模型中,这表示为观测密度,用通俗的话说就是,取一个权值(回归系数)此时权值固定,计算出正确结果的(观测)概率。

 

我们上面说的模型,关注于观测误差(模型计算的预测结果与真实测量结果)这个层面的问题。

但是我们要考虑一点,计算出正确结果是否是随意取一个权值呢,如果权值的选择是错误的,计算出正确结果的概率还是如上面的公式那样吗?

场假如权值是错误的,但是由于权值的误差存在,导致模型能够计算出正确的概概率。这样的情况,我们并没有排除。

毕竟我们直观的感受就是,这次测量正确的概率是多少。

例如早晨上班迟到这个事件。

假如迟到与是否睡过头/路上是否堵车2个事件相关,并且遇到睡过头+堵车同时发生在你的身上,你才会迟到。

那么我们要计算你迟到的概率,就必须将你睡过头的概率与堵车的概率相乘。这才是你迟到的概率。

 

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwdyyx.html