基于自适应语音增强的声纹识别装置的制作方法

2021-01-28 14:01:12|

264|

起点商标网

本实用新型涉及智能识别技术领域，更具体地说涉及一种基于自适应语音增强的声纹识别装置。

背景技术：

语音信号的质量在很大程度上影响到声纹识别装置的准确率。在语音拾取过程中，由于环境的影响，特别在远距离(说话人距离拾音设备麦克风0.5米以上时)拾音时，由于环境的背景噪声、环境空间的声波反射(亦称为混响)、不同传送媒介的频响不同等因素，造成语音声纹的畸变，从而影响声纹识别的识别率。同时，设备中的电路噪声等也会影响声纹识别的识别率。

此外，移动变化的声源信号也会对语音信号产生负面影响，这是由于声源的自动造成其声波声场在空间的变化。现如今，在声纹识别的技术领域，大多采用近距离拾音(声源距离拾音设备麦克风小于0.5米)拾音，而对于远距离拾音无法得到较好的声纹识别率。但是，声纹识别作为一项非接触式生物特征识别手段，解决远距离拾音的声纹识别才能体现出非接触式生物特征识别的价值；同时，在实际应用中，只能处理近距离拾音的声纹识别成为了其自身的一种负担，有时还得不到使用者的配合。因此，从技术和实用的角度出发，降低环境噪声、环境混响、设备电路噪声等的影响，改善语音信噪比等是提高远距离拾音时声纹识别率的重要技术手段。

技术实现要素：

实用新型目的在于提供一种基于自适应语音增强的声纹识别装置，以解决现有技术中所存在的一个或多个技术问题，实现远距离拾音条件下的声纹识别，扩展声纹识别的应用范围；至少提供一种有益的选择或创造条件。

为解决上述技术问题所采用的技术方案：

基于自适应语音增强的声纹识别装置，包括拾音模块、语音增强处理模块、音频接口以及配置有声纹识别软件的pc电脑，所述拾音模块、所述语音增强处理模块、所述音频接口以及所述pc电脑依次相连；语音信号通过所述拾音模块传输至所述语音增强处理模块，经过所述语音增强处理模块处理后的语音信号经过所述音频接口传输至所述pc电脑进行声纹识别。

作为上述技术方案的进一步改进，所述语音增强处理模块包括音频输入端、音频处理装置以及音频输出端，所述音频输入端、所述音频处理装置以及所述音频输出端依次连接；

所述音频处理装置包括：

前置放大模块，用于对语音信号进行放大处理，所述前置放大模块对语音信号进行放大，同时具备带通滤波功能，滤除声纹识别需要的频谱以外的低频和高频信号，提高语音的信噪比；所述前置放大模块的放大增益与拾音模块的增益相关，使放大后的语音信号峰值幅度为模数转换输入满幅的-10db左右为宜；

模数转换模块，用于将语音信号由模拟信号转换成数字信号；

数字信号处理模块，将转换成数字信号后的语音信号进行降噪、语音增强处理；所述数字信号处理模块采用基于时间频率域的语音降噪方法，降低背景噪声和环境的混响等，同时尽量保持语音信号不变，达到降噪、语音增强的效果；

数模转换模块，用于将降噪、语音增强后的语音信号由数字信号转换成模拟信号，供监听使用，亦可输出供其他音频处理使用；

所述前置放大模块、所述模数转换模块、所述数字信号处理模块以及所述数模转换模块依次连接；所述音频输入端连接至所述拾音模块；所述数模转换模块的输出即为音频输出端。

作为上述技术方案的进一步改进，所述音频接口是usb声卡接口或者电平音频输入接口。

作为上述技术方案的进一步改进，所述数字信号处理模块对语音信号进行分帧以及加窗，提取语音信号中的特征矢量，并根据特征矢量生成待识别语音。

作为上述技术方案的进一步改进，所述pc电脑对输入的待识别语音进行端点检测、频谱分析以及pitch和mfcc的混合特征参数分析，并利用高斯混合模型对待识别语音进行声纹匹配识别。

本技术方案中，将经过增强处理后的语音信号传输至pc电脑后，pc电脑中的声纹识别软件对语音信号进行声纹建模(学习)和/或声纹识别，并将识别结果进行屏幕显示和记录保存等；在使用服务器的情况下，pc电脑可作为网络接口实现与服务器的通信，声纹识别的具体运算由服务器中软件完成。

本技术方案中，所述数字信号处理模块对转换成数字信号后的语音信号进行分帧、加窗，语音端点检测，保留信号中的语音部分，生成特征矢量，并根据特征矢量生成待识别语音。

本实用新型的有益效果是：本技术方案在将语音信号传输至pc电脑之前，利用语音增强处理模块先对语音信号进行预处理，语音增强处理模块根据背景噪声和语音信号特征的差异，进行降噪以及语音增强处理，同时降低了环境混响的影响，提高了语音信号的信噪比，因而改善了语音信号的特征矢量，有利于提高声纹识别的识别率。

附图说明

下面结合附图和实施例对本实用新型做进一步的说明；

图1是本实用新型的电路结构示意图。

具体实施方式

本部分将详细描述本实用新型的具体实施例，本实用新型之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本实用新型的每个技术特征和整体技术方案，但其不能理解为对本实用新型保护范围的限制。

在本实用新型的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本实用新型和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本实用新型的限制。

在本实用新型的描述中，如果具有“若干”之类的词汇描述，其含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

本实用新型的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本实用新型中的具体含义。

参照图1，本申请公开了一种基于自适应语音增强的声纹识别装置，其第一实施例，包括拾音模块、语音增强处理模块、音频接口以及配置有声纹识别软件的pc电脑，所述拾音模块、所述语音增强处理模块、所述音频接口以及所述pc电脑依次相连；语音信号通过所述拾音模块传输至所述语音增强处理模块，经过所述语音增强处理模块处理后的语音信号经过所述音频接口传输至所述pc电脑进行声纹识别。具体地，本实施例在将语音信号传输至pc电脑之前，利用语音增强处理模块先对语音信号进行预处理，语音增强处理模块根据背景噪声和语音信号特征的差异，进行降噪以及语音增强处理，同时降低了环境混响的影响，提高了语音信号的信噪比，因而改善了语音信号的特征矢量，有利于提高声纹识别的识别率。

进一步作为优选的实施方式，本实施例中，所述语音增强处理模块包括音频输入端、音频处理装置以及音频输出端，所述音频输入端、所述音频处理装置以及所述音频输出端依次连接；

所述音频处理装置包括：

前置放大模块，用于对语音信号进行放大处理，所述前置放大模块对语音信号进行放大，同时具备带通滤波功能，滤除声纹识别需要的频谱以外的低频和高频信号，提高语音的信噪比；所述前置放大模块的放大增益与拾音模块的增益相关，使放大后的语音信号峰值幅度为模数转换输入满幅的-10db左右为宜；为了减少因前置放大造成的噪声，本实施例中采用了平衡差分放大电路，大幅度地降低了电路噪声和其他干扰噪声；

模数转换模块，用于将语音信号由模拟信号转换成数字信号；本实施中采用了采样精度16位、标称adc信噪比85db的模数转换芯片，采样率为16khz，通常上述指标的模数转换芯片可以满足要求，但不排除使用精度更高、信噪比更好的芯片；采样率以8khz至16khz为宜，但不排除更高的采样率，虽然在语音声纹识别中更高的采样率对识别率并无明显的影响；

数字信号处理模块，将转换成数字信号后的语音信号进行降噪、语音增强处理；所述数字信号处理模块采用基于时间频率域的语音降噪方法，降低背景噪声和环境的混响等，同时尽量保持语音信号不变，达到降噪、语音增强的效果；本实施例设定的降噪深度为12db(即对噪声最大降低12db)，但不限于此降噪深度，通常降噪深度在6db至15db之间，对声纹识别都得到明显的效果；

数模转换模块，用于将降噪、语音增强后的语音信号由数字信号转换成模拟信号，供监听使用，亦可输出供其他音频处理使用；本实施例中所述数模转换模块的采样率与所述模数转换模块相同，也采用了精度为16位的数模转换芯片，可根据需求采用同等级别或更高精度的芯片；

本实施例中经过降噪、语音增强的语音信号送入pc电脑，在pc电脑上进行声纹识别的处理，或经过pc电脑上传到服务器进行声纹识别。

本实施例中对语音信号进行分帧、加窗，语音端点检测(vad-voiceactivitydetection)，保留信号中的语音部分(称为有效语音信号)，剔除非语音(静音)部分(称为无效信号)，之后对上述保留的有效语音信号进行特征分析，利用频谱分析以及pitch和mfcc进行特征分析计算，得到相应的特征矢量；在声纹库已建立完成的前提下，将上述有效语音的特征矢量与已建立的声纹库进行匹配比较(数据与模型的相关系数和概率值的计算)，做出声纹识别的最终判断。本实施采用了高斯混合模型算法进行声纹识别，但本实用新型的重点在于对语音信号的增强处理后进行声纹识别，以达到声纹识别率的改善，因此，本实用新型并不局限于高斯混合模型算法的声纹识别，可应用于神经网络、深度学习等各种声纹识别算法的场景。

通常，拾音模块获取的信号能量与声源距离的平方成反比下降，而环境噪声和混响并不因此而减弱，因此造成信噪比下降，声纹识别率降低，甚至无法识别。本实施例通过自适应语音增强处理，降低信号中的噪声和混响，提高语音信号的信噪比，改善了声纹识别的识别率，扩大了声纹识别拾音距离，使声纹识别更加容易和可靠。在环境噪声和混响保持不变的情况下，对声纹识别的最大拾音距离做了对比实验测试，无本实施例中语音增强处理时，最大拾音距离约为0.5米，采用本实施例中语音增强处理时，最大拾音距离超过2米。

本实施例中所述pc电脑使用高斯混合模型算法，在声纹识别测试前，首先需要建立声纹库，并建立高斯混合模型。本实施采用最大期望算法(em算法)对样本语音特征矢量进行分解计算，得到高斯混合模型的各个参数，根据上述em算法计算得到的高斯混合模型参数，对测试语音进行声纹识别测试。

为了提高系统识别的实时性，用动态时间规整算法(dtw算法)计算测试样本的pitch与各训练样本pitch间的最小距离，取得分小的前35％训练样本，然后，用gmm计算测试样本特征参数分别在这前35％的训练样本中分布的最大似然概率；完成训练后，再进行声纹识别的过程中利用完成训练的高斯混合模型对输入的语音信号进行声纹识别。本实施例将高斯混合模型应用于说话人声纹识别，在训练阶段，要为每个说话人建立模型，即每个说话人的语音特征向量先经过聚类分析，得到加权系数、均值矢量和协方差矩阵的初始值，然后按照em算法，通过迭代为每个人确定一组参数，即每个人得到一组加权系数、均值矢量和协方差矩阵作为参数建立起模型，声纹识别准确度高。

以上对本实用新型的较佳实施方式进行了具体说明，但本实用新型并不限于所述实施例，熟悉本领域的技术人员在不违背本实用新型精神的前提下还可作出种种的等同变型或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。