第35卷第2期
2010年4月
广西大学学报:自然科学版Jou rna l of G uangx iU niversity :N a t Sc i Ed V o.l 35N o .2A rp .2010
收稿日期:2009 12 01;修订日期:2010 01 25
基金项目:广西科学基金资助项目(桂科自0991058);广西高校人才小高地建设创新团队资助计划项目(桂教人
[2007]71号)
通讯联系人:覃团发(1966 ),男,广西宾阳人,广西大学教授,博士;E m a i:l tfqin @gxu .edu 。
文章编号:1001 7445(2010)02 0310 05一种基于MPEG 7颜特征和块运动信息的
关键帧提取方法
顾家玉,覃团发,陈慧婷
(广西大学计算机与电子信息学院,广西南宁530004)
摘要:为了改进现有关键帧提取方法在相邻帧间相似性测度方面的不足,提出一种基于M PEG 7颜布局特
征匹配和块运动信息度量的关键帧选取方法。给出颜布局特征的提取、相似度计算方法以及利用图像分块
计算运动信息的方法,并结合距离累加算法提取视频镜头关键帧。实验结果表明,本方法比基于图像综合特
征关键帧提取方法检索性能有明显提高,不易产生冗余和漏检,提取的关键帧能够充分代表镜头的内容。
关键词:关键帧提取;M PEG 7;颜布局特征;块运动信息;距离累加
中图分类号:TP391 文献标识码:A
A video key fra m e retrieval m ethod based on color features
and block movi ng infor mati on for M PEG 7
GU Jia yu ,Q I N Tuan fa ,CHEN H ui ting
(Co ll ege o f Co m pute r and E lectronic In f o r m ati on ,G uangx i U niversit y,N ann i ng 530004,Ch i na)
Abst ract :I n order to i m prove the deficiency o f co m parability m easure bet w een t h e fra m es i n the re
centm ethod o f key fra m e extracti n g ,a ne w m ethod of key fra m e ex tracting based on co lor layou t fea
ture and block m ov i n g infor m a ti o n o fMPEG 7is proposed i n this paper Th is paper g i v es them ethod
of ex tracting the color layout feature and m atch i n g the m,and g i v es the m ethod of co m puti n g the
b lock m ov i n g i n f o r m ation by using i m age seg m entati o n sche m e ,and t h en ,it extracts the key fra m es
by co m bing the cu m u lative distance of detection m ethods The experi m ent results sho w that our
m ethod is m ore accurate than the m et h od ,w hich uses the i n tegrated feature of i m age to ex tract the
7本布局key fra m es ,and doesn t easy to have redundancy and undetected ,and the ex tracted key fra m es
m ake a good representation for v i d eo contents
K ey w ords :key fra m e extracti n g ;M PEG 7;co l o r layout feature ;block m ov i n g infor m ati o n ;cum u
lative d istance
基于内容的视频检索(C onten t Based V i d eo Retrieva,l CBVR)是对视频内容进行分析、提取帧图像的
颜(灰度)、纹理、形状等视觉特征和运动特征并以此建立索引来进行检索[1]。
关键帧是反映一组镜头中主要信息内容的一帧或若干帧图像,关键帧的作用类似于文本检索中的关键词。用关键帧来代表镜头,这样就可以用图像检索的技术对视频镜头进行检索,大大减少了视频索
311第2期顾家玉等:一种基于M PEG 7颜特征和块运动信息的关键帧提取方法
引的数据量,同时也为查询和检索视频提供了一个组织框架。正是由于关键帧的提取在基于内容的视频检索中占有非常重要的地位,近年来受到了研究者的广泛关注,也取得了很多研究成果。目前关键帧选取方法主要分为基于镜头边界法、基于帧图像信息法和基于运动的分析法。SUN基于时空颜分布的关键帧提取方法,它最终目的是得到一幅构造的关键帧[2],当背景有变化时,这种方法就不再适用; SZE[3]等利用全局统计帧图像坐标像素值,取概率最大值作为该镜头关键帧在该位置的像素值,恢复出一幅镜头的关键帧图像[3],这种方法在恢复关键帧的过程中会存在较大误差,影响视频检索结果;戎佳雄等利用镜头间信息来检索关键帧[4],这种方法对新闻和访谈视频效果较好。
在图像的低层视觉特征中,颜是最显著、最稳定的视觉特征。颜特征定义比较明确,抽取也相对容易,具有旋转、平移不变性,对各种变形都不敏感,表现出相当强的鲁棒性[5 6],因此基于颜的关键帧提取得到了广泛的重视。同时视频是由随时间变化的一序列帧图像组成,运动是视频的一个最主要特征,因此利用视频的运动信息也是视频处理的一个大趋势。
目前,已有研究者陆续提出一系列利用颜信息以及和其他底层信息结合的方法来检索关键帧,它们利用了直方图、累积直方图以及颜、纹理、形状等方法,这些方法只是侧重于图像的全局信息,而一个镜头的帧序列在时间上是连续的,内容上差别也不大,只是运动目标在帧图像上的位置不同,这就需要一种方法能在空间上局部反映帧图像的变化。鉴于此,本文提出一种基于MPEG 7颜布局特征与块运动信息相结合的方法,图像的颜布局特征能充分反映图像各个坐标位置的颜信息[7],而块运动信息
又可以局部反映帧图像信息变化,因此,相邻两幅帧图像的相似度就可以用两者精确的来判断。基于一个镜头中视觉内容变化的连续性,文中关键帧的提取算法采用距离累加的方法,这种方法计算量小,同时也能很好避免关键帧的漏检和冗余。
1 关键帧提取距离累加算法
本文关键帧的提取采取镜头帧序列距离累加算法。由该方法选取的关键帧,其数目不受最大定值的限制,做到了镜头内容差别变化大时多选取,变化小时少选取,并能充分反映各种镜头的视频内容,同时,有效控制关键帧的漏检和冗余。
假设要提取关键帧的镜头的图像帧集合为F={f1,f2, ,f n},要使{f1,f2, ,f n}形成对集合F的变化特点有良好简要的表示,必须使f i(i=1,2, ,n-1)与f1之间能存在足够的差异。由此,可以得到帧序列距离累加的关键帧提取算法:
选择f1为关键帧输出;
!i=1,m=2;
∀计算sum d=#m-1j=1d(f j,f j+1)
∃若sum d> ,则选择f m为关键帧输出,并令i=m;
%m=m+1;
&若m>n,则算法结束,退出程序,否则转到∀。
其中,d(f j,f j+1)是利用颜布局特征和运动信息度量得到的两相邻视频帧之间的距离, 是个阈值,用来控制关键帧的选择数目, 值越大,提取的关键帧数量越少,反之,就越多。
2 视频帧图像距离计算方法
2 1 颜布局提取
颜布局描述符以一种非常紧密的形式有效地表示了图像的颜空间分布信息[8]。它以非常小的计算代价,带来高的检索效率。因此,颜布局特征在视频镜头关键帧提取中有很重要的意义。颜布局提取方法如下:
将图像从RGB空间映射到YCbCr空间,映射公式为
Y=0 299∋R+0 587∋G+0 114∋B,C b=-0 169∋R-0 331∋G+0 500∋B,C r=0 500∋R-
广西大学学报:自然科学版第35卷0 419∋G -0 081∋B 。
!
将整幅图像分成64块,每块尺寸为(W /8)((H /8),其中W 为整幅图像的宽度,H 为整幅图像的高度,计算每一块中所有像素的各个颜分量(Y ,Cb ,Cr )的平均值,并以此作为该块的代表颜(Y ,C b ,Cr );
∀对帧图像中各块的颜分量平均值进行DCT 变换,得到各分量的一系列DCT 系数;
∃对各分量的DCT 系数,通过之字形扫描和量化,取出各自DCT 变换的低频分量,这三组低频分量共同构成该帧图像的颜布局描述符。
2 2 颜布局特征相似性度量
根据颜布局特征的提取步骤,假设得到两副图像的颜布局描述符CLD 1={DY i ,DCb i ,DCr i }(i =1, ,6)和CLD 2={DY i ),DCb i ),DC r i )}(i =1, ,6),它们的颜布局相似度度量为
d (CLD 1,CLD 2)=#I w
bi (DC b i -DC b i ))2+#I w r i (DC r i -DC r i ))2+#I w yi (DY i -DY i ))2
,
(1)其中(DY i ,DCb i ,DCr i )表示各颜分量的第i 个DCT 系数,这里i =1, ,6是为了提高检索精度,根据
DCT 变换原理,DCT 系数取18时,(Y ,C b ,Cr )各个颜分量的DCT 系数就有6个。权重w yi ,w bi ,w ci 对低频分量系数取较大值,对高频分量系数取较小值。
2 3 运动信息度量C B B C B A A B B A A B C B B C 图1 图像划分策略F i g 1 M ethod of i m age seg m enta ti on
运动是视频的显著特征,利用运动特征可以对视频进行更加精确的处理[9]。对视频运动信息的提取一般用运动补偿的方法,
对于运动补偿中的图像块及其权重,我们这里做了如下改进:根
据构图理论,图像的显著对象或主题位于图像中心区域的概率最
大,因此图像中心获得的视觉关注度最高,图像的四周部分次之,
四角区域通常得到的视觉关注度最小的特点,笔者利用图1所示
的图像分块策略,把图像划分成互不重叠的16块,有A,B,C 三类
区域,按照4∗2∗1的比例给它们分配不同的权重,这样可以有重
点地突出用户的关注区域,同时限制了背景的范围。
在图像划分和运动补偿特征的基础上,本文帧图像运动信息
提取如下: 将图像分成互不重叠的16块,有A,B,C 三类区域,按照4∗2∗1的比例给它们分配不同的权重。 !对于第k 帧中第i 块b i (k ),在k +1中到一个与它最相似的第m 块b i ,m (k +1),判断标准如下:
D k,k+1(i)=D (b k (k ),b i ,m (k +1))+m i n j=1, ,16
D (b i (k ),b i,j (k +1)),(2)这里判断块的相似性用的是图像亮度信息。
∀第k 帧中各块的D k,k +1(i)值乘以它们的权重c i 并进行加和就得到整幅图像的距离:
d (k ,k +1)=
#16i=1c i D k,k+1(i)。(3)
2 4 帧图像相似性测度
为了使颜布局特征和运动信息特征在相似度计算时具有可比性,需要对两个距离进行归一化处理,假设对于同一副图像,使用颜布局得到的距离为d 1,d 1+[0,m ax (d 1)],使用运动补偿得到的距离为d 2,
d 2+[0,m ax (d 2)],对其归一化处理如下d 1=[m ax (d 1)-d 1]m ax (d 1), d 2=[m ax (d 2)-d 2]m ax (d 2)
,(4)此时得到d 1,d 2的范围为[0,1],如果两幅图像最相似,则相似性测度为1,否则为0~1的一个数,最不相似时为0。312
第2期顾家玉等:一种基于M PEG 7
颜特征和块运动信息的关键帧提取方法(a)
视频镜头中的部分帧图像(b)本文算法关键帧提取结果( =3
5)(c)文献[10]关键帧提取结果( =4 0)图2 关键帧提取结果比较F ig 2 Co m par ison of key fra m e extract i on
!综合颜布局和运动补偿进行关键帧提取时,文
中采用的距离公式:
d =w 1d 1+w 2d 2,(5)
w 1,w 2为权重,分别对应这两种颜特征在相似度计算
中的相对重要性,需要满足w 1+w 2=1,w 1,w 2+[0,1],
实验中认为颜布局和运动补偿信息同样重要,设置为
w 1=w 2=0 5。
3 实验结果比较分析
基于以上思想,本文以V isual C ++6 0为实验环
境实现了一个关键帧提取原型系统。为了检测本文提出
的基于M PEG 7颜布局特征和区域运动信息的关键帧
提取算法的性能,选择文献[10]中的基于综合特征的关
键帧提取方法作为比较对象,文献[10]中的综合特征是
颜欧式空间,形状大小、离散度、离心率和纹理特征。
进行的实验内容为: 关键帧提取效果比较;!冗余和漏
检关键帧的比较。实验采用几种不同类型的视频节目,
包括新闻、体育、电影以及音乐MTV 等共50个视频系
列。每个视频系列从1000帧到3000帧不等。
关键帧提取效果比较。实验采用下载资源
(http ://search .gougou .co m )中的,天下足球-06世界杯
进球集锦−中的一个进球镜头,镜头共有151帧,为了方
便实验结果比较,将原始帧序列以10帧为一个间隔,从
中选取15幅图像按原始顺序显示在图2(a)中,本文算
法对此镜头提取的关键帧显示在图2(b)中,文献[10]
提取的关键帧显示在图2(c)中。两种方法在提取关键
帧的过程中都可以根据需要改变 值,使冗余和漏检之
间达到一个平衡。
比较图2(a)和图2(b)可以看到图2(b)中提取的
关键帧能够很好的反映视频镜头的内容,并且没有冗余
和漏检。比较图2(a)和图2(c)可以看到综合颜欧式
空间,形状大小、离散度、离心率和纹理提取相同数量关
键帧的情况下,没有把视频内容表达完整,并且还出现
pic103、p ic108、pic109这三个冗余的关键帧。通过比较
可知,颜布局和区域运动信息结合在表示空间颜信
息和局部运动物体变化上有很大的优越性,检索效果明
显优于颜欧式空间,形状大小、离散度、离心率和纹理
的组合。
!冗余和漏检关键帧的比较。为了更加全面的比
较两种方法的优劣,实验分别用这两种方法对新闻、体
育、电影以及音乐MTV 等共85个视频镜头进行关键帧
提取,以表的形式记录统计结果,统计内容包括镜头数
量、镜头包含帧数、选取关键帧数、冗余选取关键帧数量
以及漏检数。实验过程中 的取值为2 5~6, 值的选313
314
广西大学学报:自然科学版第35卷
择宗旨是控制关键帧的数量,使冗余和漏检达到最佳平衡。
表1显示了本文系统及文献[10]方法的实验结果比较数据,其中(p)代表本文方法,(r)代表文献[10]方法。比较表中数据,明显可以看到本文系统提取的关键帧基本没有冗余和漏检,结果优于文献[10]综合颜欧式空间,形状大小、离散度、离心率和纹理得到的结果。
表1 本文系统与文献[10]方法的实验结果比较数据
T ab 1 Co m pare our m ethod s test resu lts w ith[10]
视频镜头镜头数帧数选取关键帧数冗余选取数漏检关键帧数体育306424(p):260(r):259(p):1(r):5(p):1(r):3新闻204664(p):118(r):120(p):1(r):4(p):0(r):4电影205463(p):194(r):201(p):0(r):6(p):1(r):5 M TV15624(p):50(r):60(p):1(r):5(p):2(r):3
本文利用颜布局特征能够很精确反映图像空间信息,而图像块运动信息特征又能精确反映图像区域运动物体变化信息,并且在图像分块的过程中采用权重为4∗2∗1的分块策略,重点突出了受关注区域运动物体信息变化。将图像颜布局特征与运动特征相结合降低了算法复杂度,同时提高了检索精度。
4 结 语
本文结合M PEG 7颜特征中的颜布局描述符和图像块运动信息,利用距离累加算法来提取关键帧。实验结果表明,本文算法充分利用了帧图像颜空间信息和受关注区域物体运动信息的变化,提高图像了匹配精度,同时,与关键帧提取的距离累加方法相结合,降低了算法的复杂度。更重要的是,本文算法形成的系统对镜头提取的关键帧能够很好的反映镜头的内容,同时解决了关键帧冗余和漏检的问题,而且,通过调整 的值,可以根据用户需要改变关键帧的提取数量。下一步的研究工作:从基于非压缩域的关键帧提取过渡到基于压缩域的关键帧提取,进一步减小视频检索的数据量。
参考文献:
[1] 章毓晋 基于内容的视觉信息检索[M] 北京:科学出版社,2003:359 369
[2] SUN Z H,JI A K B,C HEN H X V i deo key fra m e ex tracti on based on spatial te mpora l co l or d istri buti on[J] IEEE Inte r
nati ona lC onfe rence on Intelli g ent Infor m a tion H i ding and M ulti m edia S i gna l P rocessing,2008,196 199
[3] SZE K W,LAM K M,Q I U G P A N e w key fram e representati on for video segm ent re trieval[J] IE
EE T ransacti ons on
circu its and system s f o r v ideo techno l ogy,2005,9(15):1148 1155
[4] 戎佳雄,吴立德 基于镜头间信息的关键帧提取[J] 计算机科学,2005,32(12):220 222
[5] 官倩宁,覃团发,帅勤,等 综合M PEG 7中纹理和颜特征的图像检索方法[J] 计算机应用研究,2008,25(3):
957 960
[6] 吴晓,曹其新 基于颜和区域运动目标识别的研究[J] 广西大学学报:自然科学版,2009,34(3):361 365
[7] 金莲芳,覃团发,王海霞,等 基于结构量化直方图的图像检索方法[J] 中国图象图形学报,2006,11(2):
180 185
[8] 王海霞,覃团发 综合M PEG 7中颜特征的图像检索方法[J] 计算机应用研究,2005,22(3):164 165
[9] HAN J AL IC A lan Shot boundary detection:unrave l ed and resolved[J] IEEE T rans C i rcuits Sy st
V i deo T echno,l2002,12
(2):90 105
[10]岩峰,吴渝,徐世龙 基于综合特征分析的视频关键帧检索[J] 数字视频,2008,32(07):13 16
(责任编辑 梁碧芬)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论