参数调整:我们将query 初始化成embedding的时候,修改了embed_dim 从128降低到64,相比于baseline 并没有明显的提升,降低了0.17%,在这里我们希望了解不同的向量维度对最后的实验结果的影响
实验一 修改测试embed_dim 长度对最后结果的影响
修改内容
测试集acc
迭代步数
baseline diff
修改 embed_dim 128 -> 64
84.97%
26w
-0.17%
优化实验二:在全连接层增加dropout层,keep_rate = 0.7
keep rate 是dropout 的一个参数即:表示本层要保留多少比例神经单元
参数调整:我们在前面的分析当中发现,badcase 与A 特征高度相关,于是在最后的全链接层增加dropout,并将keep_rate 设置为0.7,即随机丢掉30%的数据,相比baseline有0.11%的提升
实验二 在全连接层增加dropout 层,keep_rate = 0.7
修改内容
测试集acc
迭代步数
baseline diff
在全连接层增加dropout层, keep_rate = 0.7
85.25%
26w
+0.11%
优化实验三:在全连接层增加dropout层,keep_rate = 0.5
参数调整:在实验二的基础上,我们希望测试丢掉更多的数据,是否会有更加明显的提升,发现反而降低了0.04%,原因待进一步探究
实验三 在全连接层增加dropout 层,keep_rate = 0.5
修改内容
测试集acc
迭代步数
baseline diff
在全连接层增加dropout层, keep_rate = 0.5
85.09%
26w
-0.04%
优化实验四:随机去掉10%A特征信息
参数调整:在实验三的基础上,进一步思考其实我们只是过于依赖A特征, 并没有过分依赖其他特征,故只在数据预处理的时候,随机去掉10%的A特征,相比baseline 提升0.29%
实验四 随机去掉10% A特征 打分
修改内容
测试集acc
迭代步数
baseline diff
在数据增广的时候,设置概率值, 如果 随机数小于0.1就不输出所有A特征信息, 如果随机数高于该概率值就输出打分信息
85.43%
26w
+0.29%
优化实验五:限制高频query权重
参数调整:我们在实验的时候,会对数据数据重采样,使之符合一定的分布,在重采样的时候,我们限制了部分query的权重,相比baseline 提升0.03%,这个的目的是增加数据的多样性
实验五 限制高频query 权重
修改内容
测试集acc
迭代步数
baseline diff
在数据增广的时候,限制高频query
85.17%
26w
+0.03%
优化实验六:随机去掉20%A特征