为了更好的实现监督信息, 以获得更准确合理的3D Pose, 作者实验发现添加软约束(soft constraint)可以有效地将未标记batch中subjects的平均骨长与有标记batch中subjects的平均骨长做近似匹配, 即计算Bone lenght L2 loss. 这里的骨长也就是各个骨骼关键点间的 L2 距离.
这也意味着一个好的Pose model产生的3D Pose应该能尽可能减少前后转换过程中的骨长变化的. 这一点在自监督学习中非常重要的.
2.3 小节论文提出的用于提高数据使用效率的半监督方法, 只需要摄像机的固有参数,这通常已包含在了相机拍摄的视频流中了。
论文提出的Pose model不依赖于任何特定的网络结构,可以应用于任何以2D joint为输入的3D Pose检测器。在实现过程时,使用前述图3中描述的架构将2D姿势映射到3D。要将3D姿势投影到2D,使用一个简单的投影层,该层考虑线性参数(焦距、主点)以及非线性镜头畸变系数(切向和径向)。
作者发现在Human3.6M中使用的相机的镜头畸变对姿态估计度量的影响可以忽略不计,但是仍然考虑了这些项,因为它们能辅助提供真实相机投影, 以实现更精确模型 。
3.实验和结果分析 3.1 Dataset and Evaluation作者在Human3.6M和Human Eva-I, 其中Human 3.6M包含3.6million个video frame, 分为11个子集.主要是使用S1, S5, S6,S7,S8这5个子集训练, 然后使用S9和S11作为测试集. 同时运用的是 17-joint skeleton, 前面介绍网络结构时也有提到.
实验结果如下, 表1展示的是在MPJPE和P-MPJPE两种指标下的性能对比图, 具体的结果解释可以参考论文原文.
表1:
2D Pose => 3D Pose 的可视化结果如下图4所示:
图4
表2展示了单帧图像进行3D Pose预测和利用时序图像实现3D Pose预测的绝对位置误差对比, 由于绝对位置误差(Absolute position errors)会表现在video中, 误差越小, 图像越稳定越丝滑, 误差越大抖动越明显.
表2
前面提到利用现有的2D Pose Estimateor实现2D Pose标注, 以及2D->3D->2D的转换流程, 下面是利用不同Estimator的结果:
表3
表4展示的是Human Eva-I中不同动作的结果对比:
表4
表5比较了基于LSTM的模型和本论文提出的基于时序卷积的模型在参数量浮点运算量和MPJPE的结果.表中后三行中的27f 81f 243f分别指的是利用27个frame预测一个3D Pose, 81个frame预测一个3D Pose等等.在论文中作者也同样将之类比为感受野, 时间维度上的感受野, 也是模型考虑利用时序信息的度量.
表5
图5展示的是在各种评价指标下, 使用半监督学习和不是用半监督学习的性能对比图.
图5
3.2 2D Pose Estimation 实现细节
实现细节可以帮助我们在复现论文时得出(验证)作者的结果, 后面会尽可能补充一篇复现的博文作为笔记.