本文是tracking by detection 方法进行多目标跟踪的文章,最大的特点是使用了state-of-the-art的detection和feature来代替以往的方法,使用简单的匹配方法就能达到最好的水平。
论文地址:https://arxiv.org/pdf/1610.06136.pdf
Detection 以及 Appearance特征地址(Google Drive 需FQ):https://drive.google.com/open?id=0B5ACiy41McAHMjczS2p0dFg3emM
文章方法:
Detection部分
文章针对MOT16所使用的MOTA指标中的FP与FN,使用Faster R-CNN + Skip pooling + multi-region 的方法来结合多尺度特征,从而降低FP与FN。
Appearance 特征部分
使用类似于GoogLeNet的网络来提取128维的特征,并使用cosine距离来度量表观特征(与之前SORT文章所使用的方法类似);
结合Softmax和Triplet loss来训练网络。其中Softmax loss用于保证appearance特征有良好的判别性,Triplet loss用来保证同一ID内的cosine距离足够小。(这里与SORT不同的是使用了Triplet loss来减小类内的cosine距离,相当于在training过程中使得特征更加针对于MOT的任务)。
Online Tracker
使用Kalman滤波来预测track,使用 Kuhn-Munkres 算法来进行结合track和detection (与SORT类似,不同的是SORT使用了Hungarian算法来匹配),具体步骤见下:
构造相似度矩阵
计算track和detection间的关联度矩阵At−1 = Affinity(Tt−1,Dt)。计算时结合运动(affmot),形状(affshp),和外观(affapp)的关联度作为最后的关联度矩阵,具体计算如下:
匹配track和detection
使用 Kuhn-Munkres 算法来匹配track和detection。由于KM算法是全局优化算法,在一些detection遗失时会出错。因此我们使用两步匹配的策略,首先根据阈值Tt=0.5将track分为高质量的track和低质量的track(大于阈值为高质量,小于为低质量);然后首先匹配高质量的track和detection,再匹配前一步剩下的和低质量的track。Track的质量计算如下,其中couples(trackleti)包含了过往的所有匹配成功的track与detection的关联度:
具体流程