(原)⼈体姿态识别alphapose
转载请注明出处:
论⽂
RMPE: Regional Multi-Person Pose Estimation
官⽅代码:
官⽅pytorch代码:
1. 简介
该论⽂指出,定位和识别中不可避免的会出现错误,这些错误会引起单⼈姿态估计(single-person pose estimator,SPPE)的错误,特别是完全依赖⼈体检测的姿态估计算法。因⽽该论⽂提出了区域姿态估计(Regional Multi-Person Pose Estimation,RMPE)框架。主要包括symmetric spatial transformer network (SSTN)、Parametric Pose Non-Maximum-Suppression (NMS), 和Pose-Guided Proposals Generator (PGPG)。并且使⽤symmetric spatial transformer network (SSTN)、deep proposals generator (DPG) 、parametric pose nonmaximum suppression (p-NMS) 三个技术来解决野外场景下多⼈姿态估计问题。
2. 之前算法的问题
2.1检测框定位错误
如下图所⽰。红框为真实框,黄框为检测到的框(IoU>0.5)。由于定位错误,黄框得到的热图⽆法检测到关节点
解决⽅法:增⼤训练时的框(框增⼤0.2-0.3倍)
2.2 检测框冗余
如下图所⽰。同⼀个⼈可能检测到多个框。
解决⽅法:使⽤p-NMS来解决⼈体检测框不准确时的姿态估计问题。
3. ⽹络结构
3.1 总体结构
总体⽹络结构如下图:
Symmetric STN=STN+SPPE+SDTN
STN:空间变换⽹络,对于不准确的输⼊,得到准确的⼈的框。输⼊候选区域,⽤于获取⾼质量的候选区域。
SPPE:得到估计的姿态。
SDTN:空间逆变换⽹络,将估计的姿态映射回原始的图像坐标。
Pose-NMS:消除额外的估计到的姿态
Parallel SPPE:训练阶段作为额外的正则项,避免陷⼊局部最优,并进⼀步提升SSTN的效果。包含相同的STN及SPPE(所有参数均被冻结),⽆SDTN。测试阶段⽆此模块。
PGPG(Pose-guided Proposals Generator):通过PGPG⽹络得到训练图像,⽤来训练SSTN+SPPE模块。
3.2 SSTN
SSTN如下图所⽰。不准确的输⼊(下图左侧input)经过STN+SPPE+SDTN,先姿态估计,把估计结果映射到原图,以此来调整原本的框,使框变的精准。其中中间⿊⾊虚线的框认为是准确的输⼊(即中⼼化的输⼊,将姿态对齐到图像中⼼)。
3.3 STN和SDTN
STN为2D的仿射变换,定义如下:
SDTN定义如下:
其中为变换后坐标,为变换前坐标。{{\theta }_{1}},{{\theta }_{2}},{{\theta }_{3}},{{\gamma }_{1}},{{\gamma }_{2}},{{\gamma }_{3}}为变换参数关系如下:
(使⽤SDTN进⾏反向传播的公式请见论⽂)
3.4 Parallel SPPE(PSPPE)
PSPPE模块和原始的SPPE共享相同的STN参数,但是⽆SDTN模块。此分⽀的⼈体姿态已经中⼼化,和中⼼化后的真知标签直接⽐较。训练阶段,PSPPE所有层的参数均被冻结,⽬的是反传中⼼化的姿态误差到STN模块。因⽽若STN得到的姿态未中⼼化,会产⽣较⼤的误差,使得STN集中于正确的区域。
可以讲PSPPE作为训练阶段额外的正则项。
3.5 P-NMS
定义:令第i个姿态由m个关节点组成,定义为\left\{ \left\langle k_{i}^{1},c_{i}^{1} \right\rangle ,\cdots ,\left\langle k_{i}^{m},c_{i}^{m} \right\rangle \right\},其中k为location,c为socre。
消除过程:score最⾼的姿态作为基准,重复消除接近基准姿态的姿态,直到剩下单⼀的姿态。
消除准则:消除标准⽤于重复消除剩余姿态,为:
f({{P}_{i}},{{P}_{j}}|\Lambda ,\eta )=\mathbf{1}(d({{P}_{i}},{{P}_{j}}|\Lambda ,\lambda )\le \eta )
其中,距离函数d(\centerdot )包括姿态距离和空间距离,若d(\centerdot )不⼤于\eta ,则上⾯f(\centerdot )的输出为1,表明由于{{P}_{i}}和基准姿态{{P}_{j}}过于相似,因
⽽{{P}_{i}}需要被消除。其定义如下:
d({{P}_{i}},{{P}_{j}}|\Lambda )\text{=}{{K}_{Sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{1}})+\lambda {{H}_{sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{2}})
其中,\Lambda =\{{{\sigma }_{1}},{{\sigma }_{2}},\lambda \}。
姿态距离⽤于消除和其他姿态太近且太相似的姿态,假定{{P}_{i}}的bbox是{{B}_{i}},其定义为如下的soft matching公式(不同特征之间score的相似度):
其中B(k_{i}^{n})为中⼼在k_{i}^{n}的box,并且每个坐标B(k_{i}^{n})为原始坐标{{B}_{i}}的1/10。
如下图所⽰。其中蓝框为关节点{{P}_{i}}的框,各⿊点为蓝框{{P}_{i}}各个关节点位置k_{i}^{n}(为了⽅便,只显⽰了4个),各红框为宽⾼为蓝框1/10的⼦框,其中⼼为相应的关节点k_{i}^{n},三⾓为姿态{{P}_{j}}在红框内的关节点k_{j}^{n},五星为姿态{{P}_{j}}在红框外关节点k_{j}^{n}。进⾏消除时,对三⾓使⽤上式的if进⾏消除,因该点在⼦框内;对五星使⽤otherwise,因该点在⼦框外(左上⾓既有三⾓,⼜有五星。实际上对于⼀个检测到的姿态{{P}_{j}},是不会出现这种情况的,因为⼀个姿态的某个
特定关节点只有⼀个,不会出现三⾓和五星两个关节点。此处只是显⽰使⽤)。
空间距离⽤于衡量不同特征之间空间距离的相似度,令k_{i}^{n}和k_{j}^{n}为不同特征中⼼,其定义如下:
{{H}_{sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{2}})=\sum\limits_{n}{\exp [-\frac{{{(k_{i}^{n}-k_{j}^{n})}^{2}}}{{{\sigma }_{2}}}]}
\lambda 为平衡姿态距离和空间距离的权重。\eta 为阈值。上式共四个参数{{\sigma }_{1}},{{\sigma }_{2}},\lambda ,\eta ,论⽂中说交替固定2个,训练另外两个。但是pytorch代码中全部固定了。
3.6 PGPG
步骤:
1 归⼀化姿态,使得所有躯⼲有归⼀化长度。
2 使⽤kmeans聚类对齐的姿态,并且聚类得到的中⼼形成atomic poses。
3 对有相同atomic poses的⼈,计算gt bbox和detected bbox的偏移。
4 偏移使⽤gt bbox进⾏归⼀化。
5 此时,偏移作为频率的分布,且固定数据为⾼斯混合分布。对于不同的atomic poses,有不同的⾼斯混合分布的参数。
注:没看此部分对应的代码
4. 代码
4.1 前向推断
⽹络前向推断使⽤InferenNet_fast函数,其中输⼊图像x为通过yolo V3检测到的单张⼈体。
输出为热图。out.narrow原因是,训练时使⽤了COCO和MPII,因⽽特征维数维33,前17层为COCO特征。代码中只测试COCO上性能,因⽽只取前17层热图。
1class InferenNet_fast(nn.Module):
2def__init__(self, kernel_size, dataset):
3 super(InferenNet_fast, self).__init__()
4
5 model = createModel().cuda()
6print('Loading pose model from {}'.format('./models/sppe/duc_se.pth'))
7 model.load_state_dict(torch.load('./models/sppe/duc_se.pth'))
8 model.eval()
9 self.pyranet = model # 图像得到33维热图
10 self.dataset = dataset
11
12def forward(self, x):
13 out = self.pyranet(x) # 得到b*33*h*w的矩阵
14# github/MVIG-SJTU/AlphaPose/issues/187#issuecomment-441416429 指出,代码联合训练COCO和MPII,前17个为COCO,后16个为MPII,故此处取前17层
荷花欧克瑟15 out = out.narrow(1, 0, 17) # data = tensor:narrow(dim, index, size)取出tensor中第dim维上索引从index开始到index+size-1的所有元素存放在data中
16
17return out # 图像得到33维热图,取出channel上0—16维特征
18
19
20def createModel():
21return FastPose()
22
23
24class FastPose(nn.Module):
25 DIM = 128
26怎么清理
27def__init__(self):
28 super(FastPose, self).__init__()
29 self.preact = SEResnet('resnet101') # 101层SE_ResNet
30 self.suffle1 = nn.PixelShuffle(2) #将Input: (N, C∗upscale_factor * upscale_factor2, H, W)转换成输出Output: (N, C, H∗upscale_factor, W∗upscale_factor),此处upscale_factor=2
31 self.duc1 = DUC(512, 1024, upscale_factor=2) # conv+BN+ReLU+PixelShuffle, PixelShuffle将1024维降低到256维
32 self.duc2 = DUC(256, 512, upscale_factor=2) # conv+BN+ReLU+PixelShuffle, PixelShuffle将512维降低到128维
33 v_out = nn.Conv2d(self.DIM, opt.nClasses, kernel_size=3, stride=1, padding=1) # 128维降低到33维
34
35def forward(self, x: Variable):
36 out = self.preact(x)
37 out = self.suffle1(out)
38 out = self.duc1(out)
39 out = self.duc2(out)
40
41 out = v_out(out)
42return out
43
44
45class DUC(nn.Module):
46'''
47 INPUT: inplanes, planes, upscale_factor
48 OUTPUT: (planes // 4)* ht * wd
49'''
50def__init__(self, inplanes, planes, upscale_factor=2):
51 super(DUC, self).__init__()
52 v = nn.Conv2d(inplanes, planes, kernel_size=3, padding=1, bias=False)
53 self.bn = nn.BatchNorm2d(planes)
判断上下联的口诀54 lu = nn.ReLU()
55
56 self.pixel_shuffle = nn.PixelShuffle(upscale_factor) #将Input: (N, C∗upscale_factor * upscale_factor2, H, W)转换成输出Output: (N, C, H∗upscale_factor, W∗upscale_factor) 57
58def forward(self, x):
59 x = v(x)
60 x = self.bn(x)
61 x = lu(x)
62 x = self.pixel_shuffle(x)
63return x
View Code
4.2 预测
预测代码如下:
1def getPrediction(hms, pt1, pt2, inpH, inpW, resH, resW): # 由于对⼈体检测后裁剪的图像进⾏预测,后6个参数为裁剪图像的相关信息
2'''Get keypoint location from heatmaps'''
3assert hms.dim() == 4, 'Score maps should be 4-dim'
4# 每个通道最⼤值作为关节点,因为是⾃顶向下,前提就是每张图只有⼀个⼈,因⽽每个通道只有⼀个关节点
5 maxval, idx = torch.max(hms.view(hms.size(0), hms.size(1), -1), 2) # hms.size(0)为batchsize,hms.size(1)为channels,热图中h*w变成⼀维后的最⼤值及索引
6
7 maxval = maxval.view(hms.size(0), hms.size(1), 1) # b*c*1的矩阵
8 idx = idx.view(hms.size(0), hms.size(1), 1) + 1 # b*c*1的矩阵,+1是⽤于防⽌计算xy坐标时错误
9
10 preds = peat(1, 1, 2).float() # b*c*2的矩阵,将第2维重复⼀遍
11
12 preds[:, :, 0] = (preds[:, :, 0] - 1) % hms.size(3) # 得到x坐标
13 preds[:, :, 1] = torch.floor((preds[:, :, 1] - 1) / hms.size(3)) # 得到y坐标
14
15 pred_mask = (0).repeat(1, 1, 2).float() # 最⼤值中⼤于0的第2维重复⼀遍
国产四大品牌奶粉是哪些16 preds *= pred_mask # 去掉maxval⼩于0对应的坐标
17
18# Very simple post-processing step to improve performance at tight PCK thresholds
19for i in range(preds.size(0)): # 遍历batchsize中每个输⼊的预测
20for j in range(preds.size(1)): # 遍历每个channels
21 hm = hms[i][j] # 当前热图
22 pX, pY = int(round(float(preds[i][j][0]))), int(round(float(preds[i][j][1]))) # 当前坐标
23# 得到热图每个关节点的坐标后,进⼀步结合上下左右四个点,优化坐标(论⽂中没有提到)
24if 0 < pX < opt.outputResW - 1 and 0 < pY < opt.outputResH - 1: # 当前坐标在特征图内
25 diff = torch.Tensor((hm[pY][pX + 1] - hm[pY][pX - 1], hm[pY + 1][pX] - hm[pY - 1][pX])) # 当前热图点右侧减左侧值,当前点热图下边减上边值
26 preds[i][j] += diff.sign() * 0.25 # diff.sign()得到diff每个元素的正负;此处将preds进⾏偏移
27 preds += 0.2 # preds进⼀步偏移??
28
29 preds_tf = s(preds.size())
30 preds_tf = transformBoxInvert_batch(preds, pt1, pt2, inpH, inpW, resH, resW) # 热图中关节点坐标映射回原始图像上的坐标
31
32return preds, preds_tf, maxval # 返回关节点在原始图像裁剪后图像上的坐标,在原始图像上的坐标,热图最⼤值
View Code
4.3 P-NMS
p _poseNMS.py配置参数如下(固定的参数,并未体现出通过训练得到):
1 delta1 = 1
2 mu = 1.7
3 delta2 = 2.65
4 gamma = 22.48
5 scoreThreds = 0.3
6 matchThreds = 5
7 areaThres = 0#40 * 40.5
家庭装修施工合同8 alpha = 0.1
9
10 pose_nms如下:
11def pose_nms(bboxes, bbox_scores, pose_preds, pose_scores):
12'''
13 Parametric Pose NMS algorithm
14 bboxes: bbox locations list (n, 4)
15 bbox_scores: bbox scores list (n,) # 各个框为⼈的score
16 pose_preds: pose locations list (n, 17, 2) 各关节点的坐标
17 pose_scores: pose scores list (n, 17, 1) 各个关节点的score
18'''
19#global ori_pose_preds, ori_pose_scores, ref_dists
20
21 pose_scores[pose_scores == 0] = 1e-5
22 final_result = []
23
春酱24 ori_bbox_scores = bbox_scores.clone() # 各个框为⼈的score,下⾯要删除,此处先备份
25 ori_pose_preds = pose_preds.clone() # 各关节点的坐标,下⾯要删除,此处先备份
26 ori_pose_scores = pose_scores.clone() # 各个关节点的score,下⾯要删除,此处先备份 [n, 17, 1]
27
28 xmax = bboxes[:, 2] # 检测到的⼈在原始图像上的坐标
29 xmin = bboxes[:, 0]
30 ymax = bboxes[:, 3]
31 ymin = bboxes[:, 1]
32
33 widths = xmax - xmin # 检测到的⼈的宽⾼
34 heights = ymax - ymin
35 ref_dists = alpha * np.maximum(widths, heights) # alpha=0.1,为论⽂中的1/10,此处为NMS中当前batch各个⼈⼦框的阈值[n,]
36
37 nsamples = bboxes.shape[0]
38 human_scores = an(dim=1) # 当前batch各个⼈姿态的均值 [n, 1]
39 human_ids = np.arange(nsamples)
40 pick = [] # Do pPose-NMS
41 merge_ids = []
42while(human_scores.shape[0] != 0):
43 pick_id = torch.argmax(human_scores) # Pick the one with highest score 出分值最⾼的姿态的索引
44 pick.append(human_ids[pick_id]) # 由于后⾯要delete array的部分值,因⽽此处保存索引
45# num_visPart = torch.sum(pose_scores[pick_id] > 0.2)
46
47 ref_dist = ref_dists[human_ids[pick_id]] # Get numbers of match keypoints by calling PCK_match 当前⼈NMS⼦框的阈值
48 simi = get_parametric_distance(pick_id, pose_preds, pose_scores, ref_dist) # 公式(10)的距离,[n],由于每次均会删除id,因⽽n递减
49 num_match_keypoints = PCK_match(pose_preds[pick_id], pose_preds, ref_dist) # 返回满⾜条件的点的数量,[n],由于每次均会删除id,因⽽n递减
50
51# Delete humans who have more than matchThreds keypoints overlap and high similarity # gamma = 22.48,matchThreds = 5,
52 delete_ids = torch.from_numpy(np.arange(human_scores.shape[0]))[(simi > gamma) | (num_match_keypoints >= matchThreds)] # 迭代删除的索引
53
54if delete_ids.shape[0] == 0:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论