【论文集合】机器翻译NMT中数据打分和数据选择的经典方法 (3)

日期：2021-08-14 栏目：程序人生浏览：次

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

词频逆文档频率

稀有词比常见词对句子相似度的指示性更强

下面两篇论文均有利用该指标

Extracting In-domain Training Corpora for Neural Machine Translation Using Data Selection Methods 2018

Dynamic Data Selection and Weighting for Iterative Back-Translation 2020

tf是term在文档中出现的频率；df是多少个文档中包含term（idf is the inverse document frequency），N是文档数

该文中（we apply tokenization, remove punctuation and common stopwords in the texts, and finally truecase the sentences）把数据集中的每个句子当文档，词当作term。

计算词（term）对句子（文档）的tf-idf值，把句子中所有词的tf-idf向量平均作为整个句子的词向量表示，再计算in和general中句子词向量的cosine相似度，按cos相似度给general domain的句子排序，相似度越大离in domain越近。

Dynamic Data Selection and Weighting for Iterative Back-Translation 2020

相对于静态选择数据，对迭代反向翻译，提出一个新的课程学习策略。

该论文中提到句子由代表性和简单性两种指标进行评分，注意评分都分别最大最小归一化到[0,1]

代表性指标：

　　In-Domain Language Model Cross-Entropy(LM-in)、TF-IDF Scores (TF-IDF)、BERT Representation Similarities (BERT).

简单性指标：

　　General-Domain Language Model Cross-Entropy (LM-gen)、Round-Trip BLEU (R-BLEU)

说一下BERT Representation Similarities (BERT).

把句子送入multilingual bert，把除了[CLS] [SEP] 之外输入tokens在第8层的隐藏状态平均，得到句子的表示，根据句子表示可以计算单语中某个句子和in domain所有句子的cosine相似度。

两种评分标准由一个参数lambda控制，该参数的来源是19的一篇CL的论文，代表了模型能力随epoch的变化曲线（按sqrt增加）。最初选的数据是简单性为主，随时间推移后期是选代表性的句子。

选择出的伪句子还会赋有权重，让翻译质量低的句子权重更小。提出两种当前质量估计方法：一种是计算伪平行句对分别用两个方向NMT模型的encoder的最后一层表示、再平均，算cosine相似度；另一种是计算伪平行句对在两个方向模型中的翻译概率、再计算条件概率之差绝对值、取负指数，值越大，句子质量越差。

还有计算句子质量进步的指标，该指标与当前质量结合了：

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法

EMBEDDING-BASED METRICS

Improving Neural Machine Translation by Filtering Synthetic Parallel Data 2019

学习一个线性映射，把两种语言词向量映射到同一词向量空间，通过双语词向量分别得到句子词向量（词向量累加再平均），计算双语句子向量的cosine相似度，设定阈值，去掉小于threshold的句子。

1.在维基百科语料上用fastext训练韩语，英语词向量；

2.选排名靠前的4500个常用英语单词创建英语词表（不含功能词和停用词）

3.会用双语的人把英语词表翻译为韩语；

4.利用已有双语的词向量X，Z和双语词典，用现有的方法学习线性映射W。

【论文集合】机器翻译NMT中数据打分和数据选择的经典方法