CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns

论文可以在arxiv下载,老板一作,本人二作,也是我们实验室第一篇CCF A类论文,这个方法我们称为TFusion。

代码:https://github.com/ahangchen/TFusion

TFusion架构

解决的目标是跨数据集的Person Reid

属于无监督学习

方法是多模态数据融合 + 迁移学习

实验效果上,超越了所有无监督Person reid方法,逼近有监督方法,在部分数据集上甚至超越有监督方法

本文为你解读CVPR2018 TFusion

转载请注明作者梦里茶

Task

行人重识别(Person Re-identification)是一个图像检索问题,给定一组图片集(probe),对于probe中的每张图片,从候选图片集(gallery)中找到最可能属于同一个行人的图片。

Person re-identification

行人重识别数据集是由一系列监控摄像头拍摄得到,并用检测算法将行人抠出,做行人的匹配。在这些数据集中,人脸是十分模糊的,无法作为匹配特征,而且由于多个摄像头拍摄视角不同,同个人可能被拍到正面,侧面,背面,具有不同的视觉特征,因此是一个比较难的图像匹配问题。常用数据集有很多,可以在这个网站查到。

Related Work

行人重识别问题有以下几种常见的解决方案:

基于视觉的行人重识别

这类方法通常提取行人图像特征,对特征进行距离度量,从而判断是否是同一个人。

有监督学习

Supervised Learning

这类方法通常需要提供行人图片和行人id标签(person1,person2等),训练模型,提取图像特征,根据两张图特征的距离大小(可以用余弦距离,欧氏距离之类的计算),为probe中的每张图和gallery中的每张图计算其相似度,根据相似度将gallery中的图片排序,排序越高越可能为同一个人。

这方面的论文代表有TOMM2017: A Discriminatively Learned CNN Embedding for Person Re-identification,我们采用的基础图像分类器就是基于这篇论文用Keras实现的,后面细讲。

无监督学习

在CVPR2018之前,Person Reid领域正式发表的无监督工作只有CVPR2016的UMDL:Unsupervised Cross-Dataset Transfer Learning for Person Re-identification,基于字典学习方法,在多个源数据集上学习跨数据集不变性字典,迁移到目标数据集上。然而准确率依然很低。

结合摄像头拓扑的行人重识别

行人图片是摄像头拍到的,摄像头之间有一定的距离,行人的移动有一定的速度限制,因此行人在摄像头间的移动时间就会呈现出一定规律,比如,AB摄像头间有10米,人行走速度2m/s,如果AB摄像头在1s内捕捉到了两张图片,则这两张图片不可能是同一个人的,因此我们可以利用摄像头拓扑约束来提升行人重识别的准确率。

然而,这类方法往往有以下缺陷:

有些方法需要预先知道摄像头拓扑(AB摄像头之间的距离)

有些方法可以根据拍摄到的图像数据推断出摄像头拓扑,但是需要图像有标注(是否是同一个人)

即使推断出摄像头拓扑,与图像的融合结果依然很差

迁移学习

迁移学习现在是深度学习领域很常用的一个套路了,在源数据集上预训练,在目标数据集上微调,从而使得源数据集上的模型能够适应目标场景。这方面的论文代表有前面讲的UMDL,和Deep transfer learning person re-identification,然而,目前的迁移学习大多需要标签,而无监督迁移学习效果又很差,仍然有很大提升空间。

更多关于Person Reid的内容可以看一下我在博客写的几篇调研

Motivation

现有的行人重识别数据集中是否包含时空信息?包含的话是否存在时空规律?

缺乏两个时空点是否属于同一行人这种标签时,如何挖掘时空信息,构建时空模型?

如何融合两个弱分类器?有监督的融合有boosting算法可以用,无监督呢?

在缺乏标签的条件下,如何进行有效的迁移学习?

对应有三个创新点

无监督的时空模型构建

基于贝叶斯推断的时空图像模型融合

基于Learning to Rank的迁移学习

接下来详细解析我们的方法。

时空模型 数据集中的时空规律

所谓时空模型,即一个摄像头网络中,行人在给定两个摄像头间迁移时间的分布。

我们看遍所有Reid数据集,发现有三个数据集有时空信息,Market1501, GRID, DukeMTMC-ReID,其中,DukeMTMC-ReID是2017年后半年才出来的,时间比较仓促在论文中就没有包含跟它相关的实验。Market1501是一个比较大的Person Reid数据集,GRID是一个比较小的Person Reid数据集,并且都有六个摄像头(GRID中虽然介绍了8个摄像头,实际上只有6个摄像头的数据)。

例如,Marke1501中一张图片的时空信息是写在图片名字中的:

0007_c3s3_077419_03.jpg:

0007代表person id,

c3代表是在3号摄像头拍到的,也就是空间信息,

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wspfjz.html