论文阅读笔记--3D human pose estimation in video with temporal convolutions and semi-supervised training -1 (2)

机器翻译(machine translation)在round-trip翻译过程中将A语言翻译成B语言,然后将B翻译成A, 然后尽量减少前后的A语言的差异, 实现了中间监督(intermediate supervision).

论文作者受此启发, 当利用现成的2D keypoints检测器检测2D keypoints时, 先升到3D然后投影回2D, 尽可能减少误差(以此设计损失函数).

在这里插入图片描述

1.3 Related work

早期的3D HPE常利用特征工程以及对关键点的一些假设来实现的. 而早期的CNNs也多是利用单帧图像直接将2D RGB映射到3D Pose上, 缺乏中间层的监督(intermediate supervison).

而近年来的越来越多的研究工作在尝试利用包含时序信息的视频来辅助实现3D HPE, 减少抖动, 让predict出来的pose变得更丝滑.

下面是本论文实现的效果展示.

在这里插入图片描述

对于semi-supervised学习, 有些研究利用multi-view recordings作为3D Pose的预训练, 还有一些利用GANs区分2D Pose中真实的Pose和不切实际的Pose.更详细的可以参考原文中该段的叙述.

2.技术原理 2.1Temporal dilated convolutional model

先把网络结构图上一下, 我们逐个分解:

在这里插入图片描述


模型采用序列型的2D Pose作为输入, 最左边可以看到,(243,34) 其中243指的是输入243个2D Pose, 其中34 = 17 * 2, 即Human3.6M的17个关键点的skeleton.

2.1.1 空洞卷积 Temporal dilated convolutional layer:

利用参数为 2J 3d1 1024的卷积层提取信息, 其中J = 17, 即是输入的2D Pose的关键点个数, 也是输出的3D Pose的关键点个数. 3d1代表卷积核的kernel size = 3, d代表空洞卷积, 1为dilation factor, 当d = 1时和常规的31卷积核一样,当d=2时, 中间会有1个空洞, d=3有2个空洞. 1024指有1024个卷积核, 则提取出的通道数由217=34 变为 1024.

同样的, 论文中给出的关于空洞卷积的解释如下:

在这里插入图片描述

2.1.2 以module的形式搭建神经网络

网络由Reset-style的Blocks堆叠而成, 每一个Block有一个kernel size = 3的卷积层, 还有一个kernel size = 1的卷积层.

其中 kernel size=3的dilated factor d = W^B, W在论文中设置是超参数为3. 而B指的是从右往左数有多少个kernel size=3的卷积层.

例如对于最右边的block, 从右往左4个block, 那么d=3 ^ 4=81. 即3d81,同理, 从右往左数有3个, 那么d=3 ^ 3 = 27, 即3d27.

最左边, b=0, 那么 d= 3 ^ 0 = 1, 即3d1, 而3d1就和常规的3*1的1D 卷积核一样了, 此时做卷积运算且不使用padding, 那么243的特征图就变为241 . (姑且称之为特征图, 其实和2D的意思是一样的, 2D的feature map为 l * h, 1D的就是l ).

因此在经过3d1,kernel num=1024的卷积层运算后,得到的为resolution=241,channel=1024的特征图.

这个特征图将被输入到下面的Reset-style的Blocks:

在这里插入图片描述


resolution=241,channel=1024, 经过1024 3d3 1024的卷积层运算,那么输出应该是:resolution=235,channel=1024
(前后的通道数因为卷积核的个数不变而保持不变)随后经过 1024 1d1 1024的卷积层, 即kernel size=1,d=1 , 那么这里的1d1就是常规的1卷积(对应于2D 中的1*1卷积), 作用在1D上.同样的,通道数不变.

这里的1d1卷积, 就个人理解主要是Res-block的常规操作, 同时继续增加一个非线性层,进一步提高模型的表现力. (这里可能理解有误,如有大佬看到有问题麻烦指正)

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwxwpp.html