【深度学习】线性回归（Linear Regression）——原理、均方损失、小批量随机梯度下降 (2)

日期：2022-04-09 栏目：程序人生浏览：次

　　梯度下降（gradient descent）算法是深度学习中常用的优化算法，它可以优化几乎所有的深度学习模型，原理是通过不断地在损失函数递减的方向上更新参数来降低损失。

　　梯度下降最简单的用法是计算损失函数（训练集中所有样本的损失均值）关于模型参数的导数（又称梯度）。

　　简要过程如下：

　　首先随机初始化模型参数 $\textbf w_{0}$ ，

　　然后按照 $\textbf w_{t}=\textbf w_{t-1}-\eta\frac{\partial L\left(\textbf w\right)}{\partial \textbf w_{t-1}}$ 公式来更新参数，$t$ 为迭代参数，$\eta$ 为学习率（步长）。

5.2 小批量随机梯度下降

　　在实际的训练中，梯度下降的方法可能非常慢，因为每一次更新参数之前，必须遍历整个训练集。所以，我们通常会在每次需要计算更新的时候随机抽取一小批样本，这种变体叫做小批量随机梯度下降（minibatch stochastic gradient descent）。在这种方法中，我们随机采样若干个样本来近似整个训练集的损失。

　　过程如下：

　　在每次迭代中，我们首先随机抽样一个小批量 $\Beta$ ，它由固定数量的训练样本组成，

　　然后我们计算小批量的平均损失关于模型参数的导数（梯度）， $\left|\Beta\right|$ 为批量大小（batch size），并乘上一个学习率（learning rate） $\eta$ ，从当前参数值中减去：

$$\textbf w\leftarrow \textbf w - \frac{\eta}{\left|\Beta\right|}\sum_{i\in\Beta}\frac{\partial l^{\left(i\right)}\left(\textbf w\right)}{\partial \textbf w}$$

　　对于线性回归的参数 $\textbf w$ 和 $b$ ，可以明确地写成如下形式：

$$\textbf w \leftarrow \textbf w - \frac {\eta} {\left|\Beta\right|}\sum_{i\in\Beta}\frac{\partial l^{\left(i\right)}\left(\textbf w,b\right)}{\partial \textbf w} = \textbf w - \frac{\eta}{\left| \Beta \right|} \sum_{i \in \Beta} \textbf x^{\left(i\right)} \left( \textbf w^{T} \textbf x^{\left(i\right)} + b - y^{\left(i\right)} \right)$$

$$b \leftarrow b - \frac {\eta} {\left|\Beta\right|}\sum_{i\in\Beta}\frac{\partial l^{\left(i\right)}\left(\textbf w,b\right)}{\partial b} = b - \frac{\eta}{\left| \Beta \right|} \sum_{i \in \Beta} \left( \textbf w^{T} \textbf x^{\left(i\right)} + b - y^{\left(i\right)} \right)$$

转载注明出处：https://www.heiqu.com/zzgjyy.html

【深度学习】线性回归（Linear Regression）——原理、均方损失、小批量随机梯度下降 (2)

相关推荐