基于多特征融合的图像中人物交互检测方法
摘要
本发明公开了一种基于多特征融合的图像中人物交互检测方法,利用目标检测算法检测出图片中所有实例信息,包括人体位置信息以及物体位置和类别信息等,然后输入训练好的人物交互行为识别网络,检测待测图片中人物对之间的交互行为。本发明在利用位姿捕获交互关系的全局空间配置的基础上,关注于人与物体交集区域提供的有效信息,学习更加精细的局部特征,增加了正确人物交互对匹配的概率,并借助短期记忆选择模块对人和物体及其背景区域信息进行有效的筛选利用,通过各类特征的融合,提高了人物交互检测的精度。
2013房贷利率权利要求
1.一种基于多特征融合的图像中人物交互检测方法,其特征在于:其操作步骤为:
步骤1:输入原始图片;
步骤2:目标检测;
步骤3:构建人物交互识别网络;
步骤4:检测待测图片人物交互行为;
在所述步骤2中,利用目标检测算法检测出图片中所有实例信息,包括人体位置信息以及物体位置和类别信息后,输入训练好的人物交互行为识别网络,检测待测图片中人物对之间的交互行为;
在所述步骤3中,人物交互识别网络采用多支流神经网络结构,包括成对支流、交集支流和短期记忆选择支流,网络对图片中<人-物体>实例对各类特征进行了学习训练。
2.根据权利要求1所述的基于多特征融合的人物交互检测方法,其特征在于:在所述步骤2中,目标检测的过程为:
采用训练好的目标检测器对输入图片进行目标检测,得到人的候选框bh以及人的置信度sh和物体的候选框bo以及物体的置信度so,其中下标h表示人体、o表示物体。
3.根据权利要求1所述的基于多特征融合的人物交互检测方法,其特征在于:在所述步骤3中,构建人物交互识别网络包括以下步骤:
1)提取整张图片卷积特征:
使用经典残差网络ResNet-50对原始输入图片进行卷积特征提取,得到整张图片的全局卷积特征图F,与目标检测结果的人体位置bh、物体位置bo一起作为人物交互检测网络的输入;
2)构建成对支流:
根据给定的人物边界框生成一幅具有两个通道的二进制图像Bh,o,将其输入包含两个卷积层两个池化层的浅层卷积神经网络,两个卷积层卷积核大小都是5×5,卷积核的数量分别为64和32,池化层均为最大池化;然后经过平铺位置特征图,得到位置特征向量fsp国家干部级别,其中下标sp表示人和物体相对位置,之后将向量输入全连接层分类器和sigmoid激活函数得到位置特征支流在各交互类别上分类结果其中上标a∈{1,...,A}是所对应的交互类别,其中A是所有交互类别数;
3)构建交集支流:
首先根据人与物体位置求取人物对交集边界框坐标binter,其中下标inter表示人与物体的交集,并利用感兴趣区域池化操作ROI Pooling在全局卷积特征图F上截取交集区域卷积特征,之后使用残差块Res对特征进行优化,并通过全局平均池化层GAP后得到人物对交集区域特征finter;同时,对图片人体关键点检测结果进行编码,在每个人物对的最小外接矩形框中,模型对不同关节点之间按COCO数据集提供的骨架模型用不同灰度值的连线连接,用于表征身体的不同部位,其中COCO数据集是由微软公司制作的适用于各类计算机视觉任务的大型公开数据集;矩形框内其余区域像素值都设为0,并且将矩形框调整至一个固定尺度64×64,得到位姿特征图;然后通过两个卷积池化层提取位姿特征fpose,其中下标pose表示人体位姿,两个卷积层卷积核大小都是5×5,卷积核的数量分别为32和16,池化层均采用最大池化;然后将交集区域特征finter与位姿特征fpose进行拼接并通过两个全连接层进行特征融合得到finter-pose,将其输入全连接层分类器和sigmoid函数得到交集特征支流A维分类结果
4)构建短期记忆选择支流:2023年法定节假日
首先根据人体位置坐标bh在全局卷积特征图F上进行ROI Pooling操作提取人体区域特征,之后再利用残差块Res优化特征并通过全局平均池化GAP得到池化后的人体特征向量fh;
根据物体位置坐标bo在全局卷积特征图F上进行ROI Pooling操作提取物体区域特征,之后利用残差块Res优化特征并通过全局平均池化GAP得到池化后的物体视觉特征向量其中上标vis表示语义特征,并选取Google-News数据集上预训练后的可公开使用的Word2vec向量作为物体语义特征,针对每一个物体类别的标签可提取一个300维的语义特征向量其中上标sem表示语义特征;之后将物体的语义特征向量与视觉特征向量拼接后经过一个全连接层,最终获得1024维的物体特征向量fo;
对于共同区域的视觉特征,首先根据人和物体的边界框计算最小外接矩形,即两个边界框的并集区域bunion,其中下标union表示人与物体并集,之后在卷积特征图上通过共同区域边界框坐标进行ROI Pooling操作规范化到7×7固定大小,之后经过残差块和全局平均池化提取得到2048维的视觉特征向量之后与成对支流输出的位置特征向量fsp硬连接,并送入全连接层得到1024维融合后的共同区域特征funion;
最后将人体特征fh,物体特征fo和人和物体共同区域特征funion教师节日快乐祝福语输入短期记忆选择模块,短期记忆选择模块由两个门控循环单元(Gated Recurrent Unit,GRU)单元组成,将共同区域特征funion作为短期记忆模块的初始状态,第一个GRU单元输入为人的表征fh,第二个单元输入为物体的表征fo,最后经由短期记忆选择模块的输出状态得到表征fhoi,经过全连接层分类器和sigmoid函数得到短期记忆选择支流分类结果
牛气冲天押韵句5)训练人物交互识别网络:
三个支流共同构成整个人物交互识别网络,将训练集中的样本作为人物交互行为识别网络
的输入,计算三支流的交叉熵损失函数之和,利用梯度下降法更新网络参数,直到优化达到最大次数,则终止训练,得到训练好的人物交互行为识别网络。
4.根据权利要求1所述的基于多特征融合的人物交互检测方法,其特征在于:在所述步骤4中,检测待测图片中人物交互行为的检测过程为:
针对待测图片先经过目标检测得到人与物体位置类别信息,之后将所有信息送入训练好的人物交互识别网络进行判断;采取先分类后融合的特征融合方式,即每个支流分别提取特征并进行检测分类,然后再对各支流分类结果分数进行融合得到最后的人物交互行为检测结果;然后针对每个人物对(bh,bo),人物交互检测最终得分计算公式如下:
其中sh,so为目标检测结果人体和物体的置信度,为在A类交互行为分类任务中属于每一类别的概率得分向量,中的*表示不同的支流。
说明书
技术领域
[0001]本发明属于利用计算机视觉进行图像中视觉关系检测和理解的技术领域,具体涉及一种基于多特征融合的图像中人物交互检测方法。
背景技术
[0002]图像中的人物交互(Human-Object Interaction,HOI)检测的目标是利用计算机视觉自动检测出输入图片中发生交互的人、物体等目标的具体位置,并识别出<人-物体>对之间的交互行为类别,从而实现机器对图像内容的自动理解。人物交互检测是通过计算机视觉自动理解深层次视觉关系、实现高级人工智能的核心技术,可广泛应用于智能机器人、安全监控、信息检索、人机交互等诸多领域。
[0003]现有的人物交互检测方法大多数是从目标检测的结果出发,将图中所有的人和物体完全配对,提取出人和物体的特征,以及<人-物体>对间的空间特征来推测人与物体之间的交互行为。这种仅依靠实例级特征的推测方式在处理相对复杂的交互类时仍存在不足,导致整体检测精度不高。首先,由于缺乏细节线索,难以确定具有实例级别表示的人与物体实例的相关性,容易导致人和未发生交互物体之间的错误关联。另外,仅依靠相似的实例级特征来区分精细粒度的交互类型时,特征之间的内在联系未被有效利用,无法对复杂情况进行准确判断。
五年级科学下册教学计划发明内容
[0004]为了解决现有技术问题,本发明的目的在于克服已有技术存在的不足,提供一种基于多特征融合的图像中人物交互检测方法。该方法在利用人体位姿捕获交互行为的全局空间配置基础上,关注于图像场景中的人体与物体的交集区域所提供的有效信息,通过多支流神经网络学习更加精细的局部特征,增加了正确匹配<人-物体>交互对的概率,并通过短期记忆选择模块,对人体和物体及其背景区域信息进行有效的筛选利用,通过各类特征的融合实现人物交互行为检测。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论