PyTorch官方中文文档：torch.optim (2)

日期：2021-06-29 栏目：程序人生浏览：次

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

实现Adam算法。

它在Adam: A Method for Stochastic Optimization中被提出。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：1e-3）

betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数（默认：0.9，0.999）

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

实现Adamax算法（Adam的一种基于无穷范数的变种）。

它在Adam: A Method for Stochastic Optimization中被提出。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：2e-3）

betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)[source]

实现平均随机梯度下降算法。

它在Acceleration of stochastic approximation by averaging中被提出。

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：1e-2）

lambd (float, 可选) – 衰减项（默认：1e-4）

alpha (float, 可选) – eta更新的指数（默认：0.75）

t0 (float, 可选) – 指明在哪一次开始平均化（默认：1e6）

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.LBFGS(params, lr=1, max_iter=20, max_eval=None, tolerance_grad=1e-05, tolerance_change=1e-09, history_size=100, line_search_fn=None)[source]

实现L-BFGS算法。

警告

这个optimizer不支持为每个参数单独设置选项以及不支持参数组（只能有一个）

警告

目前所有的参数不得不都在同一设备上。在将来这会得到改进。

注意

这是一个内存高度密集的optimizer（它要求额外的param_bytes * (history_size + 1) 个字节）。如果它不适应内存，尝试减小history size，或者使用不同的算法。

参数：

lr (float) – 学习率（默认：1）

max_iter (int) – 每一步优化的最大迭代次数（默认：20）)

max_eval (int) – 每一步优化的最大函数评价次数（默认：max * 1.25）

tolerance_grad (float) – 一阶最优的终止容忍度（默认：1e-5）

tolerance_change (float) – 在函数值/参数变化量上的终止容忍度（默认：1e-9）

history_size (int) – 更新历史的大小（默认：100）

step(closure) [source]

进行单次优化 (参数更新).

参数：

closure (callable) – 一个重新评价模型并返回loss的闭包，对于大多数参数来说是可选的。

class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)[source]

实现RMSprop算法。

由G. Hinton在他的课程中提出.

中心版本首次出现在Generating Sequences With Recurrent Neural Networks.

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率（默认：1e-2）

momentum (float, 可选) – 动量因子（默认：0）

alpha (float, 可选) – 平滑常数（默认：0.99）

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）

centered (bool, 可选) – 如果为True，计算中心化的RMSProp，并且用它的方差预测值对梯度进行归一化

weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

step(closure) [source]

进行单次优化 (参数更新).

参数：

转载注明出处：https://www.heiqu.com/zydswg.html

PyTorch官方中文文档：torch.optim (2)

相关推荐