transformer模型简介

日期：2022-05-09 栏目：程序人生浏览：次

Transformer模型由《Attention is All You Need》提出，有一个完整的Encoder-Decoder框架,其主要由attention(注意力)机制构成。论文地址：https://arxiv.org/abs/1706.03762。

其整体结构如图所示：

transformer模型简介

模型分为编码器（Encoder）和解码器（Decoder）两部分，包含内部结构的总体结构如下图所示：

图二

在论文中编码器部分由6个相同编码器叠在一起，解码器部分也是由6个相同解码器叠在一起，编码器之间不共享参数。(这里不一定要是6个)

在将词向量表示送入编码器、解码器之前，先做positional encoding，下面依次对positional encoding、encoding、decoding进行介绍：

1、positional encoding

transformer模型简介

如图所示，由于attention机制不包含位置信息，因此句子首先进行embedding得到词向量表示，同时为了增加位置信息，根据句子中词的位置信息给词嵌入添加位置编码向量，论文中添加位置编码的方法是：构造一个跟输入embedding维度一样的矩阵，然后跟输入embedding相加得到multi-head attention 的输入。

作者希望引入绝对位置的编码公式，让模型能够学习到相对位置信息，作者使用的positional encoding生成固定位置表示如下：

transformer模型简介