这种随机的时间差分布也呈现出一定的集中趋势,其实体现的是采样的时间差分布,如,在1号摄像头采的图片大多在某个时间段,2号摄像头也大多在这个时间段采,但3号摄像头的图片大多是在其他时间段采到的。
考虑到时间差的频率图有这么多的抖动,我们在计算某个区域的时间差时,加上了均值滤波,并且做了一定区域的截断,包括概率极小值重置为一个最小概率值,时间差极大值重置为一个最大时间差。
接下来,应该怎么把错误的模型从估计的模型滤掉呢?又怎么将时空模型和图像模型结合呢?
基于贝叶斯推断的模型融合首先看时空模型和图像模型的融合, 我们有一个视觉相似度Pv,一个时空概率Pst,一个直观的想法是,联合评分可以是Pv * Pst,如果要再抑制随机的评分Prandom,可以做个除法,就是Pv * Pst / Prandom
这样一看,像不像条件概率公式?于是我们开始推导(大量公式预警):
先看看我们手上的资源:现在我们有一个弱的图像分类器,可以为两张图片提取两个视觉特征vi, vj, 有两个时空点,空间特征为两个摄像头编号ci, cj,时间特征为两张图片拍摄的时间差∆ij,假定两张图对应的person id分别为Pi, Pj,那么我们的目标就是求,在给定这些特征的条件下,两张图属于同一个人的概率
Pr(Pi=Pj|vi,vj,ci,cj,∆ij)(论文公式6)
由条件概率公式P(A|B) = P(B|A)*P(A)/P(B),可得
Pr(Pi=Pj|vi,vj,ci,cj,∆ij)
= Pr(vi,vj,ci,cj,∆ij|Pi=Pj) *Pr(Pi=Pj)/ Pr(vi,vj,ci,cj,∆ij)
由时空分布和图像分布的独立性假设(长得像的人运动规律不一定像),我们可以拆解第一项,得到
= Pr(vi,vj|Pi=Pj)Pr(ci,cj,∆ij|Pi=Pj) Pr(Pi=Pj)/ Pr(vi,vj,ci,cj,∆ij)
其中Pr(Pi=Pj)是一个不好求的项,我们试着把它换掉,
先交换顺序(乘法交换律)
= Pr(vi,vj|Pi=Pj) * Pr(Pi=Pj)*Pr(ci,cj,∆ij|Pi=Pj) / Pr(vi,vj,ci,cj,∆ij)
由条件概率公式P(A|B)P(B) = P(B|A) P(A)可得
= Pr(Pi=Pj|vi,vj) * Pr(vi=vj)*Pr(ci,cj,∆ij|Pi=Pj) / Pr(vi,vj,ci,cj,∆ij)
可以看到
Pr(Pi=Pj|vi,vj)可理解为两张图从视觉特征相似度上判定为同一人的概率
Pr(ci,cj,∆ij|Pi=Pj)就是两个时空点是同一个人移动产生的概率
再次利用时空分布和图像分布的独立性假设,拆解分母
= Pr(Pi=Pj|vi,vj) * Pr(vi=vj)Pr(ci,cj,∆ij|Pi=Pj) / Pr(vi,vj) P(ci,cj,∆ij)
约掉Pr(vi=vj),
= Pr(Pi=Pj|vi,vj) * Pr(ci,cj,∆ij|Pi=Pj) /P(ci,cj,∆ij)
也就是
= 视觉相似度*同一人产生这种移动的概率/任意两个时空点组成这种移动的概率
这也就是论文公式(7),也就是我们一开始的猜想:Pv * Pst / Prandom
看着好像很接近我们手头掌握的资源了,但是,
我们并不知道理想的两张图的视觉相似度 Pr(Pi=Pj|vi,vj) ,只有我们的图像分类器判定的两张图的视觉相似度 Pr(Si=Sj|vi,vj) ,
我们并不能计算同一人产生这种移动的真实概率Pr(ci,cj,∆ij|Pi=Pj) ,我们只有依据视觉分类器估算的时空概率Pr(ci,cj,∆ij|Si=Sj) ,
我们倒是确实有数据集中任意两个时空点产生这种移动的概率P(ci,cj,∆ij)
于是我们想用Pr(ci,cj,∆ij|Si=Sj) ,P(ci,cj,∆ij)去近似,得到
= Pr(Si=Sj|vi,vj) * Pr(ci,cj,∆ij|Si=Sj) /P(ci,cj,∆ij)
看到这里其实就大致理解我们的融合原理了,实际上我们大部分实验也是用的这个近似公式算的。
实现上,先模拟两个时空模型,计算图像相似度,然后代入公式求融合评分,具体可以实现看我GitHub
但这个近似能不能做呢?我们来做一下误差分析(大量推导,不感兴趣可以跳到接下来出现的第二张图,不影响后面的理解,只是分析一波会更加严谨)。
实际上,误差是由图像分类器引入的,假设图像分类器判定两张图是同一个人的错判率为Ep,图像分类器判定两张图不是同一人的错判率为En,
则有,
Ep = Pr(Pi≠Pj|Si=Sj)(论文公式1)
En = Pr(Pi=Pj|Si≠Sj)(论文公式2)
则Pr(Pi=Pj|vi,vj) 与 Pr(Si=Sj|vi,vj) 的关系可以表示为: