【论文集合】机器翻译NMT中数据打分和数据选择的经典方法 (2)

FDA:用test set的源端来选择句子,让选择的样本能与该set最相关。一旦n gram被选上,就减小它们的值,FDA通过这样来最大化所选择训练集中relevant n-grams的方差。具体方法要看下面。

方法:

首先从test集抽取n-grams作为特征,这些特征有初始值,该值表明被选择的相关性;每个候选句也有总得分。

迭代的选择分数高的句子加入set L,选择一句话后,计算set L中已选择的数据的某个特征出现的次数,该特征的分值会随出现的次数增加而衰减。这样使得下一次选择之前没被选择的特征。

特征分值衰减公式:

  

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

,L is the set of selected sentences,CL(f) is the count of the feature f in L

句子得分的计算:sentences are scored as the normalized sum of values of contained features.

  

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

,Fs是句子s中的特征集

 

文章中的是3元特征,还用了第一篇文章中gradual fine-tuning的设置,训练集测试集都是WMT2015的实验结果中,在用FDA选择少量数据(100k 200k)时,先训练base model、到最后一轮再用FDA选择的数据微调比较好;当FDA选择的数据到500k时,只用FDA选择的数据从头训NMT模型效果更高。

 Adaptation of Machine Translation Models with Back-translated Data using Transductive Data Selection Methods 2019

上篇的同一作者 

Transductive Algorithm(TA)是利用test集的信息获取句子:

 

Infrequent n-gram Recovery(INR)-选择包含不频繁n-gram的句子

  

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

 

  t是阈值:超过代表该n-gram频繁,小于代表ngr不频繁。
  如果选择池中的ngr超过阈值t,则对句子分数没贡献=0

FDA

  (前面有提到)

原本是用test集(源端)作为种子,现在用通用NMT模型把test翻译为目标端,也作为种子,对源端和目标端种子都用TA方法选择数据,把两者选的数据combine

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

a和1-a,分别代表从TAsrcTAtrg中选的数据比例

方法比较见下图:

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

TA还包括TF-IDF距离

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyfpxy.html