《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读 (2)

  关键点的预测使用了Mask R-CNN。只有左图像的14*14 feature map被用于key points的预测。左图像经RoI排列的feature map被输入6个连续的256通道,3*3卷积层,每个卷积层后接激活层。一个2*2的非卷积层被用于补强输出尺寸至28*28。这里文章特别提到,关键点的坐标中只有u坐标提供了2D检测框之外的额外信息。论文对6×28×28输出中的高度(h?)通道求和,得到6×28预测:前四个通道表示四个语义关键点投射到相应u位置的概率,另外两个通道分别表示每个u位于左右边界的概率。因前文定义的透视关键点只有一个,softmax被用于4*28的输出中,求一个独特的被投射至单个位置的语义关键点,这个设计避免了关键点类型的混乱。对于左右的边界关健点,softmax被分别用于两个1*28的输出上。

  简单来说,需要被回归求出的关键点只有1个透视关键点,2个用于规则物体替代的边界关键点,其他点都是2D检测框有的(这里的解读存疑)。

【3D Box Estimation】

  之前求得的关键点、view points角度与2D检测框被用于3D检测框的粗略估计。一个3D检测框可被表示为{x, y, z, θ},分别表达检测框的中心坐标与物体的水平朝向角。根据尺寸、关键点和2D框,3D框可以通过减小2D框与关键点的二次投影误差得到。

《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读

  如上图,7个测量值从2D检测框与透视关键点中被提取,z = {ul, vt, ur, vb, ul\', ur\', up},分别代表左2D检测框的左边界横坐标、底部纵坐标、右边界横坐标、顶部纵坐标、右检测框的左、右边界横坐标与关键点的横坐标,原文称“Given the perspective key point, the correspondences between 3D box corners and 2D box edges can be inferred”。论文使用7个对应测定量的投影变换公式对{x, y, z, θ}进行求解。原文“There are total seven equations corresponding to seven measurements, where the sign of {w/2, l/2} should be changed appropriately based on the corresponding 3D box corner.”中提到{ , }的适当调整读起来有些…暧昧?

  对于观察不到车辆的2个面(车屁股正对?)的情况,up、物体尺寸无从得知,文章给出基于view point的补充公式:

《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读

  α、β含义与前文相同。

  Dense 3D Box Alignment部分不在博主研究范围内,博主决定摸了。

            

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgfywx.html