听说你不会调参?TextCNN的优化经验Tricks汇总 (3)

参数调整:我们将query 初始化成embedding的时候,修改了embed_dim 从128降低到64,相比于baseline 并没有明显的提升,降低了0.17%,在这里我们希望了解不同的向量维度对最后的实验结果的影响

 

实验一 修改测试embed_dim 长度对最后结果的影响

 

修改内容

 

测试集acc

 

迭代步数

 

baseline diff

 

修改  embed_dim 128 -> 64

 

84.97%

 

26w

 

-0.17%

 
  优化实验二:在全连接层增加dropout层,keep_rate = 0.7

keep rate 是dropout 的一个参数即:表示本层要保留多少比例神经单元

参数调整:我们在前面的分析当中发现,badcase 与A 特征高度相关,于是在最后的全链接层增加dropout,并将keep_rate 设置为0.7,即随机丢掉30%的数据,相比baseline有0.11%的提升

 

 

实验二 在全连接层增加dropout 层,keep_rate = 0.7

 

修改内容

 

测试集acc

 

迭代步数

 

baseline diff

 

在全连接层增加dropout层, keep_rate = 0.7

 

85.25%

 

26w

 

+0.11%

 

 

 

优化实验三:在全连接层增加dropout层,keep_rate = 0.5

参数调整:在实验二的基础上,我们希望测试丢掉更多的数据,是否会有更加明显的提升,发现反而降低了0.04%,原因待进一步探究

实验三 在全连接层增加dropout 层,keep_rate = 0.5

 

修改内容

 

测试集acc

 

迭代步数

 

baseline diff

 

在全连接层增加dropout层, keep_rate = 0.5

 

85.09%

 

26w

 

-0.04%

 
优化实验四:随机去掉10%A特征信

参数调整:在实验三的基础上,进一步思考其实我们只是过于依赖A特征, 并没有过分依赖其他特征,故只在数据预处理的时候,随机去掉10%的A特征,相比baseline 提升0.29%

实验四 随机去掉10% A特征 打分

 

修改内容

 

测试集acc

 

迭代步数

 

baseline diff

 

在数据增广的时候,设置概率值, 如果 随机数小于0.1就不输出所有A特征信息, 如果随机数高于该概率值就输出打分信息

 

85.43%

 

26w

 

+0.29%

 
优化实验五:限制高频query权重

参数调整:我们在实验的时候,会对数据数据重采样,使之符合一定的分布,在重采样的时候,我们限制了部分query的权重,相比baseline 提升0.03%,这个的目的是增加数据的多样性

实验五 限制高频query 权重

 

修改内容

 

测试集acc

 

迭代步数

 

baseline diff

 

在数据增广的时候,限制高频query

 

85.17%

 

26w

 

+0.03%

 
优化实验六:随机去掉20%A特征

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyzwyj.html