【关系抽取-R-BERT】定义训练和验证循环 (2)

日期：2021-05-06 栏目：程序人生浏览：次

如果是验证或者测试，将模型切换到验证状态：model.eval()，相关计算要用with torch.no_grad()进行包裹，并在里面进行损失的计算、相关评价指标的计算或者预测；

使用到的一些技巧采样器的使用

在训练的时候，我们使用的是RandomSampler采样器，在验证或者测试的时候，我们使用的是SequentialSampler采样器，关于这些采样器的区别，可以去这里看一下：
https://chenllliang.github.io/2020/02/04/dataloader/
这里简要提一下这两种的区别，训练的时候是打乱数据再进行读取，验证的时候顺序读取数据。

使用梯度累加

核心代码：

if (step + 1) % self.args.gradient_accumulation_steps == 0: torch.nn.utils.clip_grad_norm_(self.model.parameters(), self.args.max_grad_norm) optimizer.step() scheduler.step() # Update learning rate schedule self.model.zero_grad() global_step += 1

梯度累加的作用是当显存不足的时候可以变相的增加batchsize，具体就不作展开了。

不同参数设置权重衰减

核心代码：

no_decay = ["bias", "LayerNorm.weight"] optimizer_grouped_parameters = [ { "params": [p for n, p in self.model.named_parameters() if not any(nd in n for nd in no_decay)], "weight_decay": self.args.weight_decay, }, { "params": [p for n, p in self.model.named_parameters() if any(nd in n for nd in no_decay)], "weight_decay": 0.0, }, ] optimizer = AdamW( optimizer_grouped_parameters, lr=self.args.learning_rate, eps=self.args.adam_epsilon, )

有的参数是不需要进行权重衰减的，我们可以分别设置。

warmup的使用

核心代码：

scheduler = get_linear_schedule_with_warmup( optimizer, num_warmup_steps=self.args.warmup_steps, num_training_steps=t_total, )

看一张图：

warmup就是在初始阶段逐渐增大学习率到指定的数值，这么做是为了避免在模型训练的初期的不稳定问题。

转载注明出处：https://www.heiqu.com/wssjdw.html

【关系抽取-R-BERT】定义训练和验证循环 (2)

相关推荐