两阶段方法
在这个故事中,回顾了 Google Inc. 的 G-RMI 用于人物关键点检测或人体姿态估计。G-RMI、 Google Research 和 Machine Intelligence 应该是团队名称而不是方法名称。
为了检测多人并估计姿态,提出了一种两阶段方法。
这是 2017 年 CVPR 论文,引用超过 200 次。( Sik-Ho Tsang @中)
- 人箱检测
- 人物姿势估计
- 消融研究
- 与 SOTA 方法的比较
- 更快 R-CNN 被使用。
- ResNet-101 用作主干。
- 阿特鲁卷积(请参考deeplab v1&deeplab v2)用于具有 8 的步幅,而不是默认的 32。
- 由 ImageNet 预先训练。
- 然后,**仅使用 COCO 数据集中的人类别来训练网络,**并且忽略剩余 79 个 COCO 类别的框注释。
- 不使用多尺度评估或模型集合。
- 在人检测之后,检测到的框将被输入到 CNN 用于人姿态估计,这将在下面提到。
网络目标输出(3 个通道)。左&中:左肘关键点的热图目标。右侧:偏移场 L2 量级(以灰度显示)和二维偏移矢量(红色)
- 使用组合的分类和回归方法。
- 网络首先分类它是否在 K 个关键点的每一个附近(我们称之为“热图”)。
- 然后预测一个二维局部偏移向量,以获得相应关键点位置的更精确估计。
- 首先,让所有的盒子都有相同的固定纵横比。
- 然后,在评估期间使用等于 1.25 的重新标度因子,在训练期间使用介于 1.0 和 1.5 之间的随机重新标度因子(用于数据扩充)。
- 接下来,从结果框中裁剪图像,并调整为固定的高度 353 和宽度 257 像素。(长宽比为 1.37)
- 全卷积 ResNet-101 用于为总共 3 个 K 输出通道产生热图(每个关键点一个通道)和偏移(每个关键点两个通道,用于 x 和 y 方向),其中 K = 17 是关键点的数量。
- 使用 ImageNet 预训练的 ResNet-101 模型,用 1×1 卷积替换其最后一层,得到 3 个 K 输出。
- 阿特鲁卷积(请参考deeplabv 1&deeplabv 2)用于 8 步。
- 双线性上采样用于将网络输出放大回 353×257 的作物尺寸。
CNN 的两个输出头
- 第一个头:一个 sigmoid 函数,产生每个位置 xi 和每个关键点 k 的热图概率 hk ( xi ) 。
- hk ( xi )是点 xi 在从第 k 个关键点的位置 lk 开始半径为 R 的圆盘内的概率。如果在 R 之外, hk ( xi )=0。
- 相应的损失函数 Lh 分别是每个位置和关键点的逻辑损失之和。
- 此外,在 ResNet 的中间层 50 增加了一个额外的热图预测层作为辅助损失项来加速训练过程。
- 第二个头:这是一个补偿回归头,补偿预测和地面真实补偿之间的差异。
- 休伯鲁棒损失 H ( u )被使用,其中 Fk ( xi )是预测的 2-D 偏移向量。
- 最后,最终的损失函数是:
- 其中 λh 和 λo 分别为 4 和 1。
- 标准方法使用盒的交集(IoU)来测量重叠,并移除冗余盒。
- 现在, G-RMI 使用两个候选姿态检测的对象关键点相似性(OKS)来测量重叠。
- 相对较高的 IOU-NMS 阈值(0.6) 被用在人物框检测器的输出端,以过滤高度重叠的框。
- 这更适合于确定两个候选检测是对应于假阳性(同一个人的双重检测)还是真阳性(两个人彼此非常接近)。
可可关键点迷你瓦尔
- COCO-only :仅使用 COCO 进行训练。
- COCO+Int :带有附加 Flickr 图片的 COCO,用于训练。
- 测试了一种快速 600x900 变体,它使用小边 600 像素和大边 900 像素的输入图像
- 还测试了使用小边 800 像素和大边 1200 像素的输入图像的精确 800x1200 变体。
- 使用准确 快速 R-CNN (800x1200)盒式探测器。
COCO 关键点测试开发
- 较小(257x185)可获得更快的推断速度,较大(353x257)可获得更高的准确性。
- 使用精确的ResNet-101(353 x257)姿态估计器,盘半径 R = 25 像素。
- 在后来的所有实验中,人箱检测器输出端的 IOU-NMS 阈值保持固定在 0.6。
- 对于总部位于 OKS 的 NMS 来说,0.5 的数值也不错。
COCO 关键点测试开发
- G-RMI(仅限可可)胜过 CMU-Pose 和面具 R-CNN。
- G-RMI (COCO-Int)获得了更高的 AP 值 0.685。
COCO 关键点测试-标准
- 再次,G-RMI(可可唯一)优于 CMU 姿势。
- 而 G-RMI (COCO-Int)获得了 0.673 的甚至更高的 AP。
定性结果
- 非常杂乱的场景(第三排,最右边和最后一排,右边)
- 闭塞(最后一排,左)和幻觉闭塞的关节。
- 一些假阳性检测实际上是正确的,因为它们代表人(第一排,中间)或玩具(第四排,中间)的照片。
- 我希望将来我能回顾 CMU-Pose/OpenPose 和面具 R-CNN。
【2017 CVPR】【G-RMI】 走向野外精确多人姿态估计
人体姿态估计deep Pose】汤普逊 NIPS ' 14】汤普逊 CVPR ' 15CPMFCGNIEF]deep cut&DeeperCut纽维尔 ECCV'16 &纽维尔 POCV ' 16