PyTorch官方中文文档:torch.optim (2)

closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

实现Adam算法。

它在Adam: A Method for Stochastic Optimization中被提出。

参数:

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率(默认:1e-3)

betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数(默认:0.9,0.999)

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项(默认:1e-8)

weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)

step(closure) [source]

进行单次优化 (参数更新).

参数:

closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。

class torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

实现Adamax算法(Adam的一种基于无穷范数的变种)。

它在Adam: A Method for Stochastic Optimization中被提出。

参数:

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率(默认:2e-3)

betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项(默认:1e-8)

weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)

step(closure) [source]

进行单次优化 (参数更新).

参数:

closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。

class torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)[source]

实现平均随机梯度下降算法。

它在Acceleration of stochastic approximation by averaging中被提出。

参数:

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率(默认:1e-2)

lambd (float, 可选) – 衰减项(默认:1e-4)

alpha (float, 可选) – eta更新的指数(默认:0.75)

t0 (float, 可选) – 指明在哪一次开始平均化(默认:1e6)

weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)

step(closure) [source]

进行单次优化 (参数更新).

参数:

closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。

class torch.optim.LBFGS(params, lr=1, max_iter=20, max_eval=None, tolerance_grad=1e-05, tolerance_change=1e-09, history_size=100, line_search_fn=None)[source]

实现L-BFGS算法。

警告

这个optimizer不支持为每个参数单独设置选项以及不支持参数组(只能有一个)

警告

目前所有的参数不得不都在同一设备上。在将来这会得到改进。

注意

这是一个内存高度密集的optimizer(它要求额外的param_bytes * (history_size + 1) 个字节)。如果它不适应内存,尝试减小history size,或者使用不同的算法。

参数:

lr (float) – 学习率(默认:1)

max_iter (int) – 每一步优化的最大迭代次数(默认:20))

max_eval (int) – 每一步优化的最大函数评价次数(默认:max * 1.25)

tolerance_grad (float) – 一阶最优的终止容忍度(默认:1e-5)

tolerance_change (float) – 在函数值/参数变化量上的终止容忍度(默认:1e-9)

history_size (int) – 更新历史的大小(默认:100)

step(closure) [source]

进行单次优化 (参数更新).

参数:

closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。

class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)[source]

实现RMSprop算法。

由G. Hinton在他的课程中提出.

中心版本首次出现在Generating Sequences With Recurrent Neural Networks.

参数:

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict

lr (float, 可选) – 学习率(默认:1e-2)

momentum (float, 可选) – 动量因子(默认:0)

alpha (float, 可选) – 平滑常数(默认:0.99)

eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项(默认:1e-8)

centered (bool, 可选) – 如果为True,计算中心化的RMSProp,并且用它的方差预测值对梯度进行归一化

weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)

step(closure) [source]

进行单次优化 (参数更新).

参数:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zydswg.html