【转载】深度学习人体姿态估计算法综述

日期：2022-06-28 栏目：程序人生浏览：次

转载自：https://www.infoq.cn/article/6Btg0-1crfmb7svRGa6H

1 单人姿态估计

人体骨架是以图形形式对一个人的方位所进行的描述。本质上，骨架是一组坐标点，可以连接起来以描述该人的位姿。骨架中的每一个坐标点称为一个“部分（part）”（或关节、关键点）。两个部分之间的有效连接称为一个“对（pair）“（或肢体）。注意，不是所有的部分之间的两两连接都能组成有效肢体。下图是一个典型的人体骨架举例。

人体姿态估计有多个应用场景，其中一些应用将在本博客的最后讨论。多年来，人们发展出了多种人体姿态估计算法。最早（也是最慢）的方法通常针对图像中仅有一个人的情景，只估计单个人的姿态。这些方法通常首先识别出各个部分，然后在它们之间形成连接以创建姿态。

自然，这种单人姿态估计不太适用于很多现实生活中的情形，因为在真实情况下往往图像中包含很多个人。

2 多人姿态估计

多人姿态估计比单人姿态估计要难一些，因为图像中的人数以及每个人的位置是未知的。一般来说，我们可以用以下两种方法之一来解决这些问题：

比较简单的方法是先使用一个人体检测器，然后再估计检测器检出的每个人的关节，进而恢复每个人的姿态。这种方法被称为自顶向下的方法。

另外一种方法是先检测出一幅图像中的所有关节（即每个人的关节），然后将检出的关节连接 / 分组，从而找出属于各个人的关节。这种方法叫做自底向上方法。

一般情况下，自顶向下的方法比自底向上的方法更容易实现，因为添加检测算法比增加连接 / 分组算法要简单得多。很难去评判这两种方法哪种的整体性能更好，因为这种性能比较的本质是在比较人体检测器和连接 / 分组算法哪个更好（实际上是没有可比性的）。

在本文中，我们主要介绍基于深度学习算法的多人人体姿态估计。在下一节中，我们将介绍一些当前比较流行的自顶向下和自底向上方法。

3 深度学习方法 3.1 OpenPose

OpenPose（https://arxiv.org/pdf/1812.08008.pdf）是当前最流行的几种多人人体姿态估计算法之一。OpenPose 大获成功的一部分原因是它在 GitHub 上开源了其实现代码（https://github.com/CMU-Perceptual-Computing-Lab/openpose），并配有详细的说明文档。

和很多自底向上的方法一样，OpenPose 首先检测出图像中所有人的关节（关键点），然后将检出的关键点分配给每个对应的人。下图展示了 OpenPose 模型的架构。

OpenPose 网络首先使用前面的几个网络层（在上面的流程图中使用的是 VGG-19），从图像中提取特征。接下来，这些特征被传给两个平行的卷积层分支。第一个分支用来预测 18 个置信图，每个图代表人体骨架中的一个关节。第二个分支预测一个集合，该集合中包含 38 个关节仿射场（Part Affinity Fields，PAFs），描述各关节之间的连接程度。

接着，OpenPose 用一连串的步骤来优化每个分支的预测值。使用关节置信图，可以在每个关节对之间形成二分图（如上图所示）。使用 PAF 值，二分图里较弱的连接被删除。通过上述步骤，可以检出图中所有人的人体姿态骨架，并将其分配给正确的人。针对该算法更详细的解释，请参考其论文：

https://arxiv.org/pdf/1812.08008.pdf

和这篇博客:

https://arvrjourney.com/human-pose-estimation-using-openpose-with-tensorflow-part-2-e78ab9104fc8。

3.2 DeepCut

DeepCut（https://arxiv.org/abs/1511.06645）是一个自底向上的多人人体姿态估计方法。针对人体姿态估计任务，作者定义了以下问题：

生成一个由 D 个关节候选项组成的候选集合。该集合代表了图像中所有人的所有关节的可能位置。在上述关节候选集中选取一个子集。

为每个被选取的人体关节添加一个标签。标签是 C 个关节类中的一个。每个关节类代表一种关节，如“胳膊”“腿”“躯干”等。

将被标记的关节划分给每个对应的人。

转载注明出处：https://www.heiqu.com/zzsfsx.html

【转载】深度学习人体姿态估计算法综述

相关推荐