Transformer在视觉领域的应用 前言
在机器翻译, NLP领域, 基于attention机制的transformer模型取得了很好的结果, 目前有许多工作把Transformer用到CV领域, 实现端到端的目标检测和图片分类。 在这篇博客中, 我们会从Attention机制开始回顾, 之后解释Transformer的结构, 最后讲解三篇把transformer应用到计算机视觉任务的模型。
Attention机制Attention机制起源于自然语言处理中的seq2seq模型, 这个模型是一个RNN的结构, 输入一个句子, 输出机器翻译后的句子, 或者是这个句子的下一段话。
对于这种模型而言, 很大的一个问题就是每一层传给下一层的向量长度是固定的, 很难用固定长度的向量表达前面的全部信息, 因此在句子很长的时候,模型效果不是很好。
比如
这个时候应该回答That\'s why I like apple, 但是因为中间插入了N个词, 信息太多了, 模型忘记了前面的apple。
解决这个问题的办法就是attention
Wiki上对attention的定义: Attention is the behavioral and cognitive process of selectively concentrating on a discrete aspect of information, while ignoring other perceivable information
简单来说, attention机制会让我们选择性地关注一些区域, 这样有限的向量长度, 就可以关注到更多信息了。
比如像下面这几张图展示的这样, 在不同时刻关注不同的图片区域, 来生成不同的语言符号。
![image-20201214105835680](/Users/edward/Library/Application Support/typora-user-images/image-20201214105835680.png)
![image-20201214105913850](/Users/edward/Library/Application Support/typora-user-images/image-20201214105913850.png)
Transformer 模型结构模型的整体结构
transformer是一个自回归的模型, 关于模型细节的介绍 这篇博客 写的很清楚了
总体来看transformer通过q,k,v的方式来给特征加权, 达到长期记忆的效果。
End to End Object Detection With Transformer第一篇用transformer做端到端目标检测的论文
亮点
不用NMS 直接做set prediction
二分图匹配loss
object queries很有意思, 本身是无意义的信息
Deformable-DETR对detr的改进
亮点有
加入deformable参数
多尺度特征融合
16x16用transformer做图像分类
亮点
Image net上接近sota
用了图片分块的方式
相关论文列表Attention is all you need(2017)
Non-local Neural Networks(2018)
End-to-End object Detection with Transformers(Detr 2020)
Deformable Detr(2020)
An Image is worth 16x16 words(2020)
Rethinking transformer based set prediction for object detection(2020)
End to end object detection with adaptive clustering transformer(2020)
End to end lane shape prediction with transformers(2020)
Pre-trained image processing transformers(IPT 2020)
Sparse RCNN End-toEnd object detection with learnable proposals(2020)
Unsupervised pre-training for object detection with transformers(Up-DETR 2020)
HandTransformer(2020)