HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

面向家居多特征参数融合的声纹识别方法与流程

2021-01-28 16:01:53|355|起点商标网
面向家居多特征参数融合的声纹识别方法与流程

本发明属于声纹识别领域,具体涉及一种面向家居多特征参数融合的声纹识别方法。



背景技术:

声纹识别也称为说话人识别,包括说话人辨认和说话人确认。声纹识别应用领域十分广泛,包括金融领域、军事安全、医疗领域以及家居安全领域等等。在许多声纹识别系统的识别之前,除了预处理操作外,特征参数和模型匹配对识别的准确率至关重要。

传统单一的特征参数无法较好的表达说话人的语音特征,可能会产生过拟合,并且mfcc特征参数容易并模仿。除了单一的特征之外,许多学者将gfcc和mfcc直接相连接,形成新的特征参数向量,这样会带来维度灾难,同时增加系统的计算量。因此,目前的家居声纹识别算法无法满足较好的表达说话人的特征需求,其识别的准确率有待提高。



技术实现要素:

发明目的:为了克服现有技术中存在的不足,提供一种面向家居多特征参数融合的声纹识别方法,有效的解决了单一特征参数无法完全表达说话人的语音特征的问题,提高了声纹识别的准确率。

技术方案:为实现上述目的,本发明提供一种面向家居多特征参数融合的声纹识别方法,包括如下步骤:

s1:分别计算提取到语音信号的mfcc特征参数、gfcc特征参数和lpcc特征参数;

s2:分别利用mfcc特征参数、gfcc特征参数和lpcc特征参数训练三个混合高斯模型;

s3:将三个混合高斯模型的结果加权融合,进行软判决,设定阈值,用随机梯度下降法,得到最优的权重系数,输出最终的识别结果。

进一步的,所述步骤s1中语音信号在进行特征参数提取之前经过预处理操作。

进一步的,所述步骤s1中预处理操作包括采样量化、预加重、分帧加窗、端点检测。

进一步的,所述步骤s1中mfcc特征参数的提取过程为:

a1)对输入的语音信号进行预处理,生成时域信号,对每一帧语音信号通过快速傅里叶变换或离散傅里叶变换处理得到语音线性频谱;

a2)将线性频谱输入mel滤波器组进行滤波,生成mel频谱,取mel频谱的对数能量,生成相应的对数频谱;

a3)通过使用离散余弦变换将对数频谱求解转换为mfcc特征参数。

进一步的,所述步骤s1中gfcc特征参数的提取过程为:

b1)将语音信号进行预处理,生成时域信号,通过快速傅里叶变换或离散傅里叶变换处理得到离散功率谱;

b2)对离散功率谱求平方生成语音能量谱,使用gammatone滤波器组进行滤波处理;

b3)对每个gammatone滤波器的输出进行指数压缩,获得一组指数能量谱;

b4)使用离散余弦变换将指数能量谱转化为gfcc特征参数。

进一步的,所述步骤s1中lpcc特征参数的提取过程为:

c1)设定声道模型的系统函数;

c2)设定系统函数的冲击响应,计算冲击响应的复倒谱;

c3)根据复倒谱与倒谱系数的关系,计算得到lpcc特征参数。

进一步的,所述步骤s3中识别结果的判定方式为:当加权融合的结果大于等于阈值时,识别为目标说话人,否则识别为非目标说话人。

有益效果:本发明与现有技术相比,将mfcc特征参数、gfcc特征参数和lpcc特征参数进行融合,弥补了单一特征参数无法较好的表达说话人的特征的缺陷,从而大幅提高声纹识别准确度。

附图说明

图1为本发明方法的总体结构框图;

图2为mfcc特征参数提取流程图;

图3为gfcc特征参数提取流程图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示,本发明提供一种面向家居cnn分类与特征匹配联合的声纹识别方法,包括如下步骤:

1)对输入的说话人的语音进行预处理,预处理包括采样量化、预加重、加窗和分帧、端点检测等。预处理目的是消除发声器官和语音采集设备的干扰,提高系统的识别率。

2)分别计算提取到语音信号的mfcc特征参数、gfcc特征参数和lpcc特征参数;

3)分别利用mfcc特征参数、gfcc特征参数和lpcc特征参数训练三个混合高斯模型,分别为gmm模型a、gmm模型b和gmm模型c;

4)将gmm模型a、gmm模型b和gmm模型c的结果加权融合,进行软判决,设定阈值,用随机梯度下降法,得到最优的权重系数,输出最终的识别结果。

如图2所示,本实施例中mfcc特征参数的提取过程为:

a1)对输入的语音信号s(n)进行预处理,生成时域信号x(n)(信号序列的长度n=256),接着,对每一帧语音信号通过快速傅里叶变换或离散傅里叶变换处理得到语音线性频谱x(k),可表示为:

a2)将线性频谱x(k)输入mel滤波器组进行滤波,生成mel频谱,接着取mel频谱的对数能量,生成相应的对数频谱s(m)。

这里,mel滤波器组是一组三角带同滤波器hm(k),且需满足0≤m≤m,其中m表示滤波器的数量,通常为20~28。带通滤波器的传递函数可以表示为:

式(2)中,f(m)为中心频率。

其中,之所以对mel能量频谱取对数,是为了促进声纹识别系统性能的提升。语音线性频谱x(k)到对数频谱s(m)的传递函数为:

a3)通过使用离散余弦变换(dct)将对数频谱s(m)求解转换为mfcc特征参数,mfcc特征参数的第n维特征分量c(n)的表达式为:

通过上述步骤获得的mfcc特征参数仅反映语音信号的静态特性,可通过求其的一阶、二阶差分得到动态特性参数。

本实施例中gfcc(gammatone频率倒谱系数)特征参数的提取过程中应用到gammatone滤波器,其设计方案为:

gammatone滤波器组用于模拟耳蜗基底膜的听觉特性,其时域表达式如下:

g(f,t)=tn-1e-2πbtcos(2πfi+φi)u(t),1≤i≤n(5)式中,n——滤波器个数;

n----滤波器级数,一般取4;

i——滤波器序数;

fi——滤波器的中心频率;

u(t)——单位阶跃函数;

bi——滤波器的衰减因子;

φi——序列为i的滤波器的相位,一般取0。

每个滤波器的带宽与人耳的听觉临界频带有关,根据心理学的理论,临界频带可用等效矩形带宽来表达:

滤波器的衰减因子bi与带宽有关,脉冲响应的衰减率由衰减因子bi决定。其表达式为:

bi=1.019ebr(f)(7)

gammatone滤波器的时域冲激函数是模拟函数,为了方便计算处理,需要对其离散化,对式(4)进行拉普拉斯变换有:

输入的语音信号s(n)与gi(n)经过卷积运算可得gammatone滤波器的输出。

gfcc特征参数的提取过程类似于mfcc特征参数的提取过程,只需要用gammatone滤波器组代替传统的mel滤波器组,这样就有效地利用了gammatone滤波器的耳蜗基底膜特性,能很好地对语音信号进行非线性处理。

基于上述gammatone滤波器,如图3所示,gfcc(gammatone频率倒谱系数)特征参数的提取过程为:

b1)首先将输入的语音信号s(n)进行预处理,生成时域信号x(n),通过快速傅里叶变换或离散傅里叶变换处理得到离散功率谱x(k),其表达式为:

b2)对离散功率谱x(k)求平方生成语音能量谱,然后使用gammatone滤波器组进行滤波处理。

b3)为了更好地改善声纹识别系统性能,对每个滤波器的输出进行指数压缩,获得一组指数能量谱s1,s2,…,sm:

式中,e(f)——指数压缩值,m——滤波器通道数。

b4)最后,使用离散余弦变换(dct)将指数能量谱转化为gfcc特征参数,其表达式为:

式中,l——特征参数的维度。

本实施例中lpcc(线性预测倒谱系数)特征参数的提取过程为:

假设声道模型的系统函数如下:

式(12)中p是预测器的阶数。

设h(n)是h(z)的冲击响应,是h(n)的复倒谱,则

综合式(12)和式(13)两式,并对z-1求导,简化后可以得到:

把公式(14)等号两边z-1各次幂的系数相加,可得到复倒谱,如下:

根据复倒谱与倒谱系数的关系:

可以计算得到线性预测倒谱系数:

其中c(n)为线性预测倒谱系数lpcc,an为线性预测系数。

本实施例中的步骤4中gmm模型a、gmm模型b和gmm模型c的混合度均取1024。三个模型的输出结果分别为a、b、c,对三个结果进行加权融合,权重系数为ωi且最终结果d=ω1a+ω2b+ω3c,设定阈值γ,当d大于等于阈值γ时,识别为目标说话人,否则识别为非目标说话人。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips