【论文集合】机器翻译NMT中数据打分和数据选择的经典方法 (3)

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

 

 

 

 

 

词频逆文档频率

稀有词比常见词对句子相似度的指示性更强

下面两篇论文均有利用该指标

Extracting In-domain Training Corpora for Neural Machine Translation Using Data Selection Methods 2018

Dynamic Data Selection and Weighting for Iterative Back-Translation 2020

 

tf是term在文档中出现的频率;df是多少个文档中包含term(idf is the inverse document frequency),N是文档数

该文中(we apply tokenization, remove punctuation and common stopwords in the texts, and finally truecase the sentences)把数据集中的每个句子当文档,词当作term。

计算词(term)对句子(文档)的tf-idf值,把句子中所有词的tf-idf向量平均作为整个句子的词向量表示,再计算in和general中句子词向量的cosine相似度,按cos相似度给general domain的句子排序,相似度越大离in domain越近。

   

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

 

 

 

Dynamic Data Selection and Weighting for Iterative Back-Translation 2020 

相对于静态选择数据,对迭代反向翻译,提出一个新的课程学习策略。

该论文中提到句子由代表性和简单性两种指标进行评分,注意评分都分别最大最小归一化到[0,1]

代表性指标:

  In-Domain Language Model Cross-Entropy(LM-in)、TF-IDF Scores (TF-IDF)、BERT Representation Similarities (BERT).

简单性指标:

  General-Domain Language Model Cross-Entropy (LM-gen)、Round-Trip BLEU (R-BLEU)

说一下BERT Representation Similarities (BERT).

把句子送入multilingual bert,把除了[CLS] [SEP] 之外输入tokens在第8层的隐藏状态平均,得到句子的表示,根据句子表示可以计算单语中某个句子和in domain所有句子的cosine相似度。

 

两种评分标准由一个参数​lambda控制,该参数的来源是19的一篇CL的论文,代表了模型能力随epoch的变化曲线(按sqrt增加)。最初选的数据是简单性为主,随时间推移后期是选代表性的句子。

选择出的伪句子还会赋有权重,让翻译质量低的句子权重更小。提出两种当前质量估计方法:一种是计算伪平行句对分别用两个方向NMT模型的encoder的最后一层表示、再平均,算cosine相似度;另一种是计算伪平行句对在两个方向模型中的翻译概率、再计算条件概率之差绝对值、取负指数,值越大,句子质量越差。

还有计算句子质量进步的指标,该指标与当前质量结合了:

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

 

 

 

EMBEDDING-BASED METRICS

Improving Neural Machine Translation by Filtering Synthetic Parallel Data 2019

学习一个线性映射,把两种语言词向量映射到同一词向量空间,通过双语词向量分别得到句子词向量(词向量累加再平均),计算双语句子向量的cosine相似度,设定阈值,去掉小于threshold的句子。

1.在维基百科语料上用fastext训练韩语,英语词向量;

2.选排名靠前的4500个常用英语单词创建英语词表(不含功能词和停用词)

3.会用双语的人把英语词表翻译为韩语;

4.利用已有双语的词向量X,Z和双语词典,用现有的方法学习线性映射W。

 

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyfpxy.html