(原)人体姿态识别alphapose
(原)⼈体姿态识别alphapose
转载请注明出处:
论⽂
RMPE: Regional Multi-Person Pose Estimation
官⽅代码:
官⽅pytorch代码:
1. 简介
该论⽂指出,定位和识别中不可避免的会出现错误,这些错误会引起单⼈姿态估计(single-person pose estimator,SPPE)的错误,特别是完全依赖⼈体检测的姿态估计算法。因⽽该论⽂提出了区域姿态估计(Regional Multi-Person Pose Estimation,RMPE)框架。主要包括symmetric spatial transformer network (SSTN)、Parametric Pose Non-Maximum-Suppression (NMS), 和Pose-Guided Proposals Generator (PGPG)。并且使⽤symmetric spatial transformer network (SSTN)、deep proposals generator (DPG) 、parametric pose nonmaximum suppression (p-NMS) 三个技术来解决野外场景下多⼈姿态估计问题。
2. 之前算法的问题
2.1检测框定位错误
如下图所⽰。红框为真实框,黄框为检测到的框(IoU>0.5)。由于定位错误,黄框得到的热图⽆法检测到关节点
解决⽅法:增⼤训练时的框(框增⼤0.2-0.3倍)
2.2 检测框冗余
如下图所⽰。同⼀个⼈可能检测到多个框。
解决⽅法:使⽤p-NMS来解决⼈体检测框不准确时的姿态估计问题。
3. ⽹络结构
3.1 总体结构
总体⽹络结构如下图:
Symmetric STN=STN+SPPE+SDTN
STN:空间变换⽹络,对于不准确的输⼊,得到准确的⼈的框。输⼊候选区域,⽤于获取⾼质量的候选区域。
SPPE:得到估计的姿态。
SDTN:空间逆变换⽹络,将估计的姿态映射回原始的图像坐标。
Pose-NMS:消除额外的估计到的姿态
Parallel SPPE:训练阶段作为额外的正则项,避免陷⼊局部最优,并进⼀步提升SSTN的效果。包含相同的STN及SPPE(所有参数均被冻结),⽆SDTN。测试阶段⽆此模块。
PGPG(Pose-guided Proposals Generator):通过PGPG⽹络得到训练图像,⽤来训练SSTN+SPPE模块。
3.2 SSTN
SSTN如下图所⽰。不准确的输⼊(下图左侧input)经过STN+SPPE+SDTN,先姿态估计,把估计结果映射到原图,以此来调整原本的框,使框变的精准。其中中间⿊⾊虚线的框认为是准确的输⼊(即中⼼化的输⼊,将姿态对齐到图像中⼼)。
3.3 STN和SDTN
STN为2D的仿射变换,定义如下:
SDTN定义如下:
其中为变换后坐标,为变换前坐标。{{\theta }_{1}},{{\theta }_{2}},{{\theta }_{3}},{{\gamma }_{1}},{{\gamma }_{2}},{{\gamma }_{3}}为变换参数关系如下:
(使⽤SDTN进⾏反向传播的公式请见论⽂)
3.4 Parallel SPPE(PSPPE)
PSPPE模块和原始的SPPE共享相同的STN参数,但是⽆SDTN模块。此分⽀的⼈体姿态已经中⼼化,和中⼼化后的真知标签直接⽐较。训练阶段,PSPPE所有层的参数均被冻结,⽬的是反传中⼼化的姿态误差到STN模块。因⽽若STN得到的姿态未中⼼化,会产⽣较⼤的误差,使得STN集中于正确的区域。
可以讲PSPPE作为训练阶段额外的正则项。
3.5 P-NMS
定义:令第i个姿态由m个关节点组成,定义为\left\{ \left\langle k_{i}^{1},c_{i}^{1} \right\rangle ,\cdots ,\left\langle k_{i}^{m},c_{i}^{m} \right\rangle  \right\},其中k为location,c为socre。
消除过程:score最⾼的姿态作为基准,重复消除接近基准姿态的姿态,直到剩下单⼀的姿态。
消除准则:消除标准⽤于重复消除剩余姿态,为:
f({{P}_{i}},{{P}_{j}}|\Lambda ,\eta )=\mathbf{1}(d({{P}_{i}},{{P}_{j}}|\Lambda ,\lambda )\le \eta )
其中,距离函数d(\centerdot )包括姿态距离和空间距离,若d(\centerdot )不⼤于\eta ,则上⾯f(\centerdot )的输出为1,表明由于{{P}_{i}}和基准姿态{{P}_{j}}过于相似,因
⽽{{P}_{i}}需要被消除。其定义如下:
d({{P}_{i}},{{P}_{j}}|\Lambda )\text{=}{{K}_{Sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{1}})+\lambda {{H}_{sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{2}})
其中,\Lambda =\{{{\sigma }_{1}},{{\sigma }_{2}},\lambda \}。
姿态距离⽤于消除和其他姿态太近且太相似的姿态,假定{{P}_{i}}的bbox是{{B}_{i}},其定义为如下的soft matching公式(不同特征之间score的相似度):
其中B(k_{i}^{n})为中⼼在k_{i}^{n}的box,并且每个坐标B(k_{i}^{n})为原始坐标{{B}_{i}}的1/10。
如下图所⽰。其中蓝框为关节点{{P}_{i}}的框,各⿊点为蓝框{{P}_{i}}各个关节点位置k_{i}^{n}(为了⽅便,只显⽰了4个),各红框为宽⾼为蓝框1/10的⼦框,其中⼼为相应的关节点k_{i}^{n},三⾓为姿态{{P}_{j}}在红框内的关节点k_{j}^{n},五星为姿态{{P}_{j}}在红框外关节点k_{j}^{n}。进⾏消除时,对三⾓使⽤上式的if进⾏消除,因该点在⼦框内;对五星使⽤otherwise,因该点在⼦框外(左上⾓既有三⾓,⼜有五星。实际上对于⼀个检测到的姿态{{P}_{j}},是不会出现这种情况的,因为⼀个姿态的某个
特定关节点只有⼀个,不会出现三⾓和五星两个关节点。此处只是显⽰使⽤)。
空间距离⽤于衡量不同特征之间空间距离的相似度,令k_{i}^{n}和k_{j}^{n}为不同特征中⼼,其定义如下:
{{H}_{sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{2}})=\sum\limits_{n}{\exp [-\frac{{{(k_{i}^{n}-k_{j}^{n})}^{2}}}{{{\sigma }_{2}}}]}
\lambda 为平衡姿态距离和空间距离的权重。\eta 为阈值。上式共四个参数{{\sigma }_{1}},{{\sigma }_{2}},\lambda ,\eta ,论⽂中说交替固定2个,训练另外两个。但是pytorch代码中全部固定了。
3.6 PGPG
步骤:
1 归⼀化姿态,使得所有躯⼲有归⼀化长度。
2 使⽤kmeans聚类对齐的姿态,并且聚类得到的中⼼形成atomic poses。
3 对有相同atomic poses的⼈,计算gt bbox和detected bbox的偏移。
4 偏移使⽤gt bbox进⾏归⼀化。
5 此时,偏移作为频率的分布,且固定数据为⾼斯混合分布。对于不同的atomic poses,有不同的⾼斯混合分布的参数。
注:没看此部分对应的代码
4. 代码
4.1 前向推断
⽹络前向推断使⽤InferenNet_fast函数,其中输⼊图像x为通过yolo V3检测到的单张⼈体。
输出为热图。out.narrow原因是,训练时使⽤了COCO和MPII,因⽽特征维数维33,前17层为COCO特征。代码中只测试COCO上性能,因⽽只取前17层热图。
1class InferenNet_fast(nn.Module):
2def__init__(self, kernel_size, dataset):
3        super(InferenNet_fast, self).__init__()
4
5        model = createModel().cuda()
6print('Loading pose model from {}'.format('./models/sppe/duc_se.pth'))
7        model.load_state_dict(torch.load('./models/sppe/duc_se.pth'))
8        model.eval()
9        self.pyranet = model  # 图像得到33维热图
10        self.dataset = dataset
11
12def forward(self, x):
13        out = self.pyranet(x)  # 得到b*33*h*w的矩阵
14# github/MVIG-SJTU/AlphaPose/issues/187#issuecomment-441416429 指出,代码联合训练COCO和MPII,前17个为COCO,后16个为MPII,故此处取前17层
荷花欧克瑟15        out = out.narrow(1, 0, 17)  # data = tensor:narrow(dim, index, size)取出tensor中第dim维上索引从index开始到index+size-1的所有元素存放在data中
16
17return out  # 图像得到33维热图,取出channel上0—16维特征
18
19
20def createModel():
21return FastPose()
22
23
24class FastPose(nn.Module):
25    DIM = 128
26怎么清理
27def__init__(self):
28        super(FastPose, self).__init__()
29        self.preact = SEResnet('resnet101')  # 101层SE_ResNet
30        self.suffle1 = nn.PixelShuffle(2) #将Input: (N, C∗upscale_factor * upscale_factor2, H, W)转换成输出Output: (N, C, H∗upscale_factor, W∗upscale_factor),此处upscale_factor=2
31        self.duc1 = DUC(512, 1024, upscale_factor=2)  # conv+BN+ReLU+PixelShuffle, PixelShuffle将1024维降低到256维
32        self.duc2 = DUC(256, 512, upscale_factor=2)    # conv+BN+ReLU+PixelShuffle, PixelShuffle将512维降低到128维
33        v_out = nn.Conv2d(self.DIM, opt.nClasses, kernel_size=3, stride=1, padding=1) # 128维降低到33维
34
35def forward(self, x: Variable):
36        out = self.preact(x)
37        out = self.suffle1(out)
38        out = self.duc1(out)
39        out = self.duc2(out)
40
41        out = v_out(out)
42return out
43
44
45class DUC(nn.Module):
46'''
47    INPUT: inplanes, planes, upscale_factor
48    OUTPUT: (planes // 4)* ht * wd
49'''
50def__init__(self, inplanes, planes, upscale_factor=2):
51        super(DUC, self).__init__()
52        v = nn.Conv2d(inplanes, planes, kernel_size=3, padding=1, bias=False)
53        self.bn = nn.BatchNorm2d(planes)
判断上下联的口诀54        lu = nn.ReLU()
55
56        self.pixel_shuffle = nn.PixelShuffle(upscale_factor)  #将Input: (N, C∗upscale_factor * upscale_factor2, H, W)转换成输出Output: (N, C, H∗upscale_factor, W∗upscale_factor) 57
58def forward(self, x):
59        x = v(x)
60        x = self.bn(x)
61        x = lu(x)
62        x = self.pixel_shuffle(x)
63return x
View Code
4.2 预测
预测代码如下:
1def getPrediction(hms, pt1, pt2, inpH, inpW, resH, resW):  # 由于对⼈体检测后裁剪的图像进⾏预测,后6个参数为裁剪图像的相关信息
2'''Get keypoint location from heatmaps'''
3assert hms.dim() == 4, 'Score maps should be 4-dim'
4# 每个通道最⼤值作为关节点,因为是⾃顶向下,前提就是每张图只有⼀个⼈,因⽽每个通道只有⼀个关节点
5    maxval, idx = torch.max(hms.view(hms.size(0), hms.size(1), -1), 2)  # hms.size(0)为batchsize,hms.size(1)为channels,热图中h*w变成⼀维后的最⼤值及索引
6
7    maxval = maxval.view(hms.size(0), hms.size(1), 1)  # b*c*1的矩阵
8    idx = idx.view(hms.size(0), hms.size(1), 1) + 1    # b*c*1的矩阵,+1是⽤于防⽌计算xy坐标时错误
9
10    preds = peat(1, 1, 2).float()  # b*c*2的矩阵,将第2维重复⼀遍
11
12    preds[:, :, 0] = (preds[:, :, 0] - 1) % hms.size(3)                # 得到x坐标
13    preds[:, :, 1] = torch.floor((preds[:, :, 1] - 1) / hms.size(3))    # 得到y坐标
14
15    pred_mask = (0).repeat(1, 1, 2).float()  # 最⼤值中⼤于0的第2维重复⼀遍
国产四大品牌奶粉是哪些16    preds *= pred_mask  # 去掉maxval⼩于0对应的坐标
17
18# Very simple post-processing step to improve performance at tight PCK thresholds
19for i in range(preds.size(0)):        # 遍历batchsize中每个输⼊的预测
20for j in range(preds.size(1)):    # 遍历每个channels
21            hm = hms[i][j]                # 当前热图
22            pX, pY = int(round(float(preds[i][j][0]))), int(round(float(preds[i][j][1])))    # 当前坐标
23# 得到热图每个关节点的坐标后,进⼀步结合上下左右四个点,优化坐标(论⽂中没有提到)
24if 0 < pX < opt.outputResW - 1 and 0 < pY < opt.outputResH - 1:                  # 当前坐标在特征图内
25                diff = torch.Tensor((hm[pY][pX + 1] - hm[pY][pX - 1], hm[pY + 1][pX] - hm[pY - 1][pX]))  # 当前热图点右侧减左侧值,当前点热图下边减上边值
26                preds[i][j] += diff.sign() * 0.25  # diff.sign()得到diff每个元素的正负;此处将preds进⾏偏移
27    preds += 0.2  # preds进⼀步偏移??
28
29    preds_tf = s(preds.size())
30    preds_tf = transformBoxInvert_batch(preds, pt1, pt2, inpH, inpW, resH, resW)  # 热图中关节点坐标映射回原始图像上的坐标
31
32return preds, preds_tf, maxval  # 返回关节点在原始图像裁剪后图像上的坐标,在原始图像上的坐标,热图最⼤值
View Code
4.3 P-NMS
p _poseNMS.py配置参数如下(固定的参数,并未体现出通过训练得到):
1 delta1 = 1
2 mu = 1.7
3 delta2 = 2.65
4 gamma = 22.48
5 scoreThreds = 0.3
6 matchThreds = 5
7 areaThres = 0#40 * 40.5
家庭装修施工合同8 alpha = 0.1
9
10 pose_nms如下:
11def pose_nms(bboxes, bbox_scores, pose_preds, pose_scores):
12'''
13    Parametric Pose NMS algorithm
14    bboxes:        bbox locations list (n, 4)
15    bbox_scores:    bbox scores list (n,)    #      各个框为⼈的score
16    pose_preds:    pose locations list (n, 17, 2)  各关节点的坐标
17    pose_scores:    pose scores list    (n, 17, 1)  各个关节点的score
18'''
19#global ori_pose_preds, ori_pose_scores, ref_dists
20
21    pose_scores[pose_scores == 0] = 1e-5
22    final_result = []
23
春酱24    ori_bbox_scores = bbox_scores.clone()  # 各个框为⼈的score,下⾯要删除,此处先备份
25    ori_pose_preds = pose_preds.clone()    # 各关节点的坐标,下⾯要删除,此处先备份
26    ori_pose_scores = pose_scores.clone()  # 各个关节点的score,下⾯要删除,此处先备份 [n, 17, 1]
27
28    xmax = bboxes[:, 2]  # 检测到的⼈在原始图像上的坐标
29    xmin = bboxes[:, 0]
30    ymax = bboxes[:, 3]
31    ymin = bboxes[:, 1]
32
33    widths = xmax - xmin  # 检测到的⼈的宽⾼
34    heights = ymax - ymin
35    ref_dists = alpha * np.maximum(widths, heights)  # alpha=0.1,为论⽂中的1/10,此处为NMS中当前batch各个⼈⼦框的阈值[n,]
36
37    nsamples = bboxes.shape[0]
38    human_scores = an(dim=1)  # 当前batch各个⼈姿态的均值 [n, 1]
39    human_ids = np.arange(nsamples)
40    pick = []            # Do pPose-NMS
41    merge_ids = []
42while(human_scores.shape[0] != 0):
43        pick_id = torch.argmax(human_scores)    # Pick the one with highest score  出分值最⾼的姿态的索引
44        pick.append(human_ids[pick_id])          # 由于后⾯要delete array的部分值,因⽽此处保存索引
45# num_visPart = torch.sum(pose_scores[pick_id] > 0.2)
46
47        ref_dist = ref_dists[human_ids[pick_id]]  # Get numbers of match keypoints by calling PCK_match  当前⼈NMS⼦框的阈值
48        simi = get_parametric_distance(pick_id, pose_preds, pose_scores, ref_dist)  # 公式(10)的距离,[n],由于每次均会删除id,因⽽n递减
49        num_match_keypoints = PCK_match(pose_preds[pick_id], pose_preds, ref_dist)  # 返回满⾜条件的点的数量,[n],由于每次均会删除id,因⽽n递减
50
51# Delete humans who have more than matchThreds keypoints overlap and high similarity  # gamma = 22.48,matchThreds = 5,
52        delete_ids = torch.from_numpy(np.arange(human_scores.shape[0]))[(simi > gamma) | (num_match_keypoints >= matchThreds)]  # 迭代删除的索引
53
54if delete_ids.shape[0] == 0:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。