[深度概念]·深度学习之Attention Model（注意力模型）学习笔记

日期：2022-01-11 栏目：程序人生浏览：次

此文源自一个博客，笔者用黑体做了注释与解读，方便自己和大家深入理解Attention model，写的不对地方欢迎批评指正。。

1、Attention Model 概述

深度学习里的Attention model其实模拟的是人脑的注意力模型，举个例子来说，当我们观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。

这个思路很符合直觉，认为重要的部分我们就更加注意，不重要的就忽略。

2、Encoder-Decoder框架

所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。seq2seq问题简单的说，就是根据一个输入序列x，来生成另一个输出序列y。常见的应用有机器翻译，文档提取，问答系统等。Encoder-Decoder模型中的编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。

Encoder-Decoder（编码-解码）是深度学习中非常常见的一个模型框架，比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的；比如这两年比较热的image caption的应用，就是CNN-RNN的编码-解码框架；再比如神经网络机器翻译NMT模型，往往就是LSTM-LSTM的编码-解码框架。因此，准确的说，Encoder-Decoder并不是一个具体的模型，而是一类框架。Encoder和Decoder部分可以是任意的文字，语音，图像，视频数据，模型可以采用CNN，RNN，BiRNN、LSTM、GRU等等。所以基于Encoder-Decoder，我们可以设计出各种各样的应用算法。

Encoder-Decoder框架可以看作是一种文本处理领域的研究模式，应用场景异常广泛，下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示：

[深度概念]·深度学习之Attention Model（注意力模型）学习笔记

对于句子对<X,Y>，我们的目标是给定输入句子X，期待通过Encoder-Decoder框架来生成目标句子Y。X和Y可以是同一种语言，也可以是两种不同的语言。而X和Y分别由各自的单词序列构成：

[深度概念]·深度学习之Attention Model（注意力模型）学习笔记

Encoder顾名思义就是对输入句子X进行编码，将输入句子通过非线性变换转化为中间语义表示C：

转载注明出处：https://www.heiqu.com/zwfxpw.html

[深度概念]·深度学习之Attention Model（注意力模型）学习笔记

相关推荐