基于支持向量机和HMM的音频信号分类算法
陈戈珩;胡明辉;吴天华
【摘 要】Classification method based on Hidden Markov Model (HMM ) is combined with that on SVM to build a hybrid Automatic audio classification system ,which can classify four kinds audio stream such as mute ,music ,speech & music and speech .Experimental results show that the second classifier is better than the others .%将基于隐马尔可夫的分类方法与基于支持向量机的分类方法相结合 ,构造了一种混合语音识别系统 ,可以对静音、音乐、带背景语音和纯语音(语音+音乐)四类音频信号进行分类.实验结果表明 ,该算法的两级分类效果较好.
【期刊名称】《长春工业大学学报(自然科学版)》
【年(卷),期】2015(036)004
【总页数】5页(P369-373)
【关键词】音频分类;HMM;向量机
【作 者】陈戈珩;胡明辉;吴天华
【作者单位】长春工业大学计算机科学与工程学院,吉林长春 130012;长春工业大学计算机科学与工程学院,吉林长春 130012;长春工业大学计算机科学与工程学院,吉林长春 130012
【正文语种】中 文
【中图分类】TN912.3
0 引 言
在多媒体技术的飞速发展形势下,基于内容的音频检索技术在多媒体、网络等领域正发挥着极其重要的作用和应用价值。由于音频信号除了含有一些基本的信息如编码方法、量化精度、采样率等注册信息外,由于语音信号本身就是一种缺乏内容语义的符号表示和缺乏结构化组织的二进制流,这直接使音频信号的检索问题受到非常大的限制。因此,对于如何提取相关音频信号中的内容语义和结构化信息,使无序的音频变得有序化,是实用化音频检索的关键技术。音频信号的自动分类是提取音频信号的结构和内容语义的重要手段,是音频分析和音频检索的研究热点。
在众多的分类方法中,基于隐马尔可夫(HMM)[1]的 分 类 方 法 和 基 于 支 持 向 量 机(SVM)[2]的分类方法是当前比较常用的两种方法。本质上隐马尔科夫模型是一种双重的随机过程,它对时间的随机统计特性具有极强的刻画能力,对连续的动态音频信号的多类分类具有较好的效果。支持向量机是基于统计学理论发展起来的机器学习法[3],更大程度反映各类别间的不同,主要用于两类之间。
隐马尔科夫模型是经典的统计估计方法之一,它对动态时间序列具有很强的建模能力,且计算量较小。这种方法的局限性在于对先验知识的过多依赖,利用这种方法需要预先知道样本参数的分布形式,在现实中很难做到。支持向量机采用结构风险最小化准则代替了经验风险最小化准则,并结合神经网络[4]、机器学习、统计学习等方面的技术,在解决分线性、高维和小样本的问题中表现出诸多特有的优势。
1 音频特征分析
在对音频数据进行分类之前,首先对原始音频数据进行特征提取。因此音频数据分类的关键所在是进行特征分析,对音频特征的选取较为严格,既要能够充分表示音频的时域特征,又要很好地表示频域特征,为减少环境对特征的影响,要求其具有一般性和鲁棒性。
对原始音频数据首先进行预处理以减少尖锐噪声(音频的采样率为22.050kHz),其次将对音频数据进行分割,分割成1 000ms的clip(22 050个采样),相邻的两个片段没有重叠的部分,对每一clip加25ms的Hamming窗形成帧,相邻帧间有12.5ms的数据重叠,最后计算每一帧的傅里叶变换系数F(w)和频域能量:
式中
fs——采样频率。
根据音频帧计算以下基于clip的音频特征。
1.1 静音比例
在一个音频段中所含的静音帧与总的帧数的比:
一般来说,由于语音的连贯性不是很强,音乐相对较连贯,所以语音的静音比例要比音乐的静音比例高很多。长春分类信息
1.2 子带能量比均值
将频域划分为4个子带区间sbi(i=0,1,2,3),分 别 为 ,并计算各子带的能量为:
在频域中各子带能量与总能量的比值称为子带能量比:
片段中的各帧子带能量比的均值被称为子带能量比均值。
1.3 带宽均值和频率中心均值
1.3.1 频率中心均值
片段中音频的帧频率中心的平均值。频率中心是度量音频亮度的指标:
1.3.2 带宽均值
片段中所有音频帧的带宽的平均值。带宽是衡量音频频域方位的指标:
语音的带宽范围一般在0.3~3.4kHz左右,音乐的带框比较宽,一般在22.050kHz左右。
1.4 高过零率比率[5]
由于语音是由清音和浊音的不断交替构成,因此语音的过零率的变换要高于音乐信号的过零率。如果设定一个过零率的阈值,那么在一个音频段中,可以计算出高于这个过零率的帧在整个段中所占的比例。这个比例就是高过零率比率,简称HZCRR。
ZCR阈值一般为一个片段中ZCR平均值的1.5倍,N为一个片段中总帧数,ZCR(n)是第n帧的过零率。
1.5 低频率能量比率
语音信号比音乐信号中含有更多的静音帧。如果设定一个能量的阈值,那么在一个音频段中可以计算出低于这个阈值的帧在整个段中所占的比例。这个比值就是低频率能量比,简称LFER。
式中:N——一个片段中的总帧数;
E(n)——第n帧的频域能量;
AVE——片段中各帧能量的均值。
1.6 基音频率标准方差
基因频率的标准方差是用来表示在一个片段中基因频率变化范围的大小。
1.7 频谱迁移
频谱迁移是指在音频片段中所有相邻帧频谱之间的平均差异。频谱变迁的公式为:
1.8 和谐度
一个片段中基音频率不等于0的帧数所占总帧数的比例称为和谐度,比例越大,和谐度越高。
1.9 平滑基音比
如果第i帧与第i-1帧的基因频率的差值小于一定的范围,并且第i帧的基因频率非0,则第i帧称为基因平滑帧。一个片段中平滑基因比是指平滑帧占基因频率大于零的帧数之比。
在以上分析中,由于段特征是在帧特征基础上计算得来的,所以先提取了音频数据的帧特
征。音频数据分类的特征集合是在段特征基础上构造出来的,但是不同音频特征的值有很大程度的差异,因此要先进行归一化处理。公式如下:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论