closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。
class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]实现Adam算法。
它在Adam: A Method for Stochastic Optimization中被提出。
参数:
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率(默认:1e-3)
betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数(默认:0.9,0.999)
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项(默认:1e-8)
weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)
step(closure) [source]进行单次优化 (参数更新).
参数:
closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。
class torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]实现Adamax算法(Adam的一种基于无穷范数的变种)。
它在Adam: A Method for Stochastic Optimization中被提出。
参数:
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率(默认:2e-3)
betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项(默认:1e-8)
weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)
step(closure) [source]进行单次优化 (参数更新).
参数:
closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。
class torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)[source]实现平均随机梯度下降算法。
它在Acceleration of stochastic approximation by averaging中被提出。
参数:
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率(默认:1e-2)
lambd (float, 可选) – 衰减项(默认:1e-4)
alpha (float, 可选) – eta更新的指数(默认:0.75)
t0 (float, 可选) – 指明在哪一次开始平均化(默认:1e6)
weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)
step(closure) [source]进行单次优化 (参数更新).
参数:
closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。
class torch.optim.LBFGS(params, lr=1, max_iter=20, max_eval=None, tolerance_grad=1e-05, tolerance_change=1e-09, history_size=100, line_search_fn=None)[source]实现L-BFGS算法。
警告这个optimizer不支持为每个参数单独设置选项以及不支持参数组(只能有一个)
警告目前所有的参数不得不都在同一设备上。在将来这会得到改进。
注意这是一个内存高度密集的optimizer(它要求额外的param_bytes * (history_size + 1) 个字节)。如果它不适应内存,尝试减小history size,或者使用不同的算法。
参数:
lr (float) – 学习率(默认:1)
max_iter (int) – 每一步优化的最大迭代次数(默认:20))
max_eval (int) – 每一步优化的最大函数评价次数(默认:max * 1.25)
tolerance_grad (float) – 一阶最优的终止容忍度(默认:1e-5)
tolerance_change (float) – 在函数值/参数变化量上的终止容忍度(默认:1e-9)
history_size (int) – 更新历史的大小(默认:100)
step(closure) [source]进行单次优化 (参数更新).
参数:
closure (callable) – 一个重新评价模型并返回loss的闭包,对于大多数参数来说是可选的。
class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)[source]实现RMSprop算法。
由G. Hinton在他的课程中提出.
中心版本首次出现在Generating Sequences With Recurrent Neural Networks.
参数:
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率(默认:1e-2)
momentum (float, 可选) – 动量因子(默认:0)
alpha (float, 可选) – 平滑常数(默认:0.99)
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项(默认:1e-8)
centered (bool, 可选) – 如果为True,计算中心化的RMSProp,并且用它的方差预测值对梯度进行归一化
weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)
step(closure) [source]进行单次优化 (参数更新).
参数: