transformer模型简介 (3)

transformer模型简介

在解码完成后会输出一个实数向量,经过一个简单的全连接神经网络(线性变换层)映射到一个被称作对数几率(logits)的向量里,假设从训练集中学习一万个单词,那么对数几率向量为一万个单元格长度的向量——每个单元格对应某一个单词的分数。接下来的Softmax 层便会把那些分数变成概率(都为正数、上限1.0)。概率最高的单元格被选中,并且它对应的单词被作为这个时间步的输出。

transformer模型简介

参考:attention is all you need

   BERT大火却不懂Transformer?读这一篇就够了

     transformer中的positional encoding(位置编码)      

浅谈 Transformer-based 模型中的位置表示

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzjgds.html