一种基于噪声场景识别的活动语音检测方法及系统与流程
2021-01-28 15:01:13|326|起点商标网
本发明涉及语音数据处理
技术领域:
,具体涉及一种基于噪声场景识别的活动语音检测方法及系统。
背景技术:
:在一段语音信号中往往会存在着停顿、间歇等现象,这些“无声”段会与环境噪声叠加成为不包含有效语音信息,这类信息占据较大的数据传输资源,同时干扰语音信号处理的效果;活动语音检测(voiceactivitydetection,vad)技术的目标就是从信号中检测出真正的语音段落而去除这些“无声”部分,从而减轻后续语音信号处理过程的负担,因此,活动语音检测技术广泛应用于语音编码、说话人识别、自动语音识别、异常声音检测等系统中。鉴于活动语音检测技术的广泛应用需求,近年来研究学者们提出了很多相关的检测方法,这些方法可以分为无监督类方法与有监督类方法;无监督类方法主要以特征与阈值设计、门限规则制定为核心,典型的特征包括短时能量、短时过零率、谱熵等,无监督类方法在噪声环境下性能下降明显,通常需要与降噪算法搭配使用;而有监督类方法将活动语音检测问题视为语音信号与噪声信号的二分类问题,通过事先学习噪声数据,在噪声环境下的性能高于无监督类方法。有监督类方法主要由特征提取和分类器设计两个环节构成;在特征提取方面,为了能够有效区分噪声和语音信号的声学特性,目前研究学者从不同角度提取高维特征,如能量特征、过零率特征、梅尔频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)特征、模糊熵特征、自相关系数特征、小波系数特征等,并将多种特征组合使用以融合多角度的特征信息,然而,虽然这些特征组合在特定噪声类型下具有一定的噪声与语音区分能力,但是在实际应用中,由于噪声类型的时变性,针对通用情况设定的特征组合往往难以在动态噪声场景下表现出稳定的区分能力,而且特征的高维化往往也给后续的分类器使用带来负担。在分类器设计方面,为了构建噪声信号和语音信号的二分类模型,现有技术常采用基于mfcc特征与支持向量机(supportvectormachine,svm)的检测方法、基于模糊熵特征与svm的检测方法、基于多层感知机(multilayerperceptron,mlp)的检测方法;在分类器选择方面,随着机器学习方法的不断发展,针对单一分类器数据建模能力的有限性,近年来发展出集成学习和深度学习方法,通过提高建模的广度和深度,提升了分类器模型的泛化能力;在分类器建模策略方面,有监督类方法在模型训练过程中,对特定类型下的噪声和语音信号进行区分性建模,从而在音频流中检测出语音信号。以上分类器的设计、分类器的选择以及分类器的建模策略在单一的噪声类型下表现不错,但由于噪声类型的多变性,针对不同噪声特性的建模参数也不尽相似,因此,训练得到在多种不同噪声类型下都具有良好区分性的模型分类器设计是目前亟待解决的问题。技术实现要素:针对上述问题,本发明的一个目的是提供一种基于噪声场景识别的活动语音检测方法,该方法在含噪语音和噪音信号二分类之前,对当前的噪声类型进行检测识别,将动态噪声环境转化为限定噪声环境,进而可以针对具体噪声类型在高维特征中优选出最具有区分性的特征组合,可以针对具体噪声类型设计模型参数,从而保证了整个检测过程在不同噪声类型下性能的有效性和稳定性;本发明构建了噪声类型分类器、语音噪声分类器;在噪声类型识别方面,提出基于t-sne与随机森林的噪声聚类与分类方法;在含噪语音和噪声信号区分识别方面,提出基于随机森林的特征选择与分类器构建方法。本发明的第二个目的是提供一种基于噪声场景识别的活动语音检测系统,该系统容易实现、调试方便。本发明所采用的第一个技术方案是:一种基于噪声场景识别的活动语音检测方法,包括以下步骤:s1:从音频信号中提取面向噪声分类任务的优选特征,将所述优选特征值输入噪声类型分类器以识别所述音频信号中的噪声类型;s2:根据所述噪声类型,确定适用于面向语音与噪声分类任务的优选特征和分类器;s3:从所述音频信号中提取所述面向语音与噪声分类任务的优选特征的特征值,并将所述面向语音与噪声分类任务的优选特征的特征值输入所述语音噪声分类器,判断所述音频信号中是否存在语音信号。优选地,所述噪声类型分类器是通过t-sne聚类分析和随机森林方法构建的。优选地,所述噪声类型分类器是通过以下方式构建的:s1-1:构建噪声信号库,所述噪声信号库包括多种类型的噪声信号;s1-2:采用时频域信号处理方法提取所述噪声信号库中的每个噪声信号的多个音频特征的特征值;s1-3:基于所述音频特征的特征值,采用t-sne方法对所述噪声信号库中的噪声信号进行聚类分析;s1-4:采用随机森林方法从所述多个音频特征中挑选出多个噪声分类优选特征;s1-5:基于所述噪声分类优选特征,采用随机森林方法训练噪声类型分类模型。优选地,所述音频特征包括过零率、mfcc、频谱质心、频谱扩散、谱熵、谱通量、频谱滚边、谐波比、基频、频域能量、带宽和小波分量中的多个或全部。优选地,所述噪声分类优选特征包括频谱质心、小波奇异值、小波能量和频谱滚边特征中的一个或多个。优选地,所述语音噪声分类器是通过采用随机森林方法构建的。优选地,所述语音噪声分类器是通过以下方式构建的:s3-1:分别利用不同类型的噪声信号,对纯净语音进行加噪处理,得到分别对应各种噪声类型的含噪语音和噪声信号;s3-2:采用时频域信号处理方法提取各个含噪语音信号与对应噪声信号的多个音频特征的特征值;s3-3:基于对应各个噪声类型的含噪语音信号与噪声信号,采用随机森林方法从所述多个音频特征中挑选出各个噪声类型下面向语音与噪声分类任务的优选特征;s3-4:基于各个噪声类型下面向语音与噪声分类任务的优选特征,采用随机森林方法训练用于各个噪声类型的含噪语音与噪声分类模型。优选地,所述噪声类型包括白噪声、小汽车内噪音、战斗机噪音和其他噪音。本发明所采用的第二个技术方案是:一种基于噪声场景识别的活动语音检测系统,包括:第一特征提取单元,用于从音频信号中提取面向噪声分类任务的优选特征;噪声分类识别单元,用于根据所述面向噪声分类任务的优选特征值通过噪声类型分类器识别所述音频信号中的噪声类型;模型选择单元,用于根据所述噪声类型,确定适用于所述音频信号面向语音与噪声分类任务的优选特征和分类器;第二特征提取单元,用于从所述音频信号中提取所述面向语音与噪声分类任务的优选特征的特征值;语音检测单元,用于根据所述面向语音与噪声分类任务的优选特征的特征值通过所述语音噪声分类器判断所述音频信号中是否存在语音信号。优选地,所述噪声类型分类器是通过t-sne聚类分析和随机森林方法构建的,所述语音噪声分类器是通过采用随机森林方法构建的。上述技术方案的有益效果:(1)针对活动语音检测技术应用场景噪声类型、噪声强度复杂多变,而现有检测方法较少考虑动态噪声环境条件的现状,提出了一套动态噪声环境下活动语音检测的有效方法,有效保证了在不同噪声类型下、不同噪声强度下语音检测的准确率。(2)针对单一音频特征在活动语音检测中的难以充分、全面表征音频特性信息的问题,以及噪声场景下语音信号非平稳的特性,提出基于mfcc、小波分解、奇异值分解等方法的时频域特征提取方法,实现从多视角挖掘音频信号的特性信息。(3)针对动态噪声环境下,由于噪声类型与噪声强度多变,面向通用场景设计的特征和分类模型在动态场景下往往难以表现出稳定、有效的检测能力的问题,构建基于t-sne聚类分析与随机森林分类的噪声类型分类器,通过t-sne可视化聚类方法将n种噪声信号聚类为m(m≤n)种不同特性的噪声类型,再通过随机森林针对m种噪声进行特征选择和分类器训练,从而在实时语音检测中可以将动态开放的噪声环境转换为特定的噪声场景来处理,进而保证活动语音检测的准确率。(4)针对单一分类器建模能力的有限性,应用了集成学习中的随机森林方法,针对不同特性噪声类型下含噪语音与噪声的可分性特征不同的问题,采用随机森林特征选择方法对不同类型噪声下的最具可区分性的特征进行优选,并基于优选特征组合训练对应的含噪语音与噪声分类模型;由于在建模过程中充分考虑了不同噪声类型的信号特性,该方法可以有效应对动态噪声环境,获得稳定的语音检测能力。(5)试验数据的分析结果验证了本发明在动态噪声环境条件下语音检测的有效性,具有很好的实际工程应用价值。(6)试验数据的分析结果验证了本发明提出的方法比svm、mlp等方法的分类识别准确率更高。附图说明图1为本发明一种基于噪声场景识别的活动语音检测方法流程图;图2为噪声类型分类模型的训练和使用流程框图;图3为含噪语音与噪声分类模型的训练和使用流程框图;图4为基于t-sne的6种噪声的聚类特性分析可视化结果图;图5为面向噪声分类的特征重要度排序及累计特征对应的识别准确率图;图6为面向噪声分类的特征重要度排名前中后的特征的可分性情况图;图7为噪声类型分类模型训练中各参数值与分类准确率的对应关系图;图8为噪声类型分类器的测试结果混淆矩阵图;图9为不同噪声环境、不同信噪比下各分类器的识别结果对比图;图10为本发明一种基于噪声场景识别的活动语音检测系统示意图。具体实施方式下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理,但不能用来限制本发明的范围,即本发明不限于所描述的优选实施例,本发明的范围由权利要求书限定。在本发明的描述中,需要说明的是,除非另有说明,“多个”的含义是两个或两个以上;术语“第一”“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性;对于本领域的普通技术人员而言,可视具体情况理解上述术语在本发明中的具体含义。实施例1如图1所示,本实施例公开了一种基于噪声场景识别的活动语音检测方法,包括以下步骤:s1:从音频信号中提取面向噪声分类任务的优选特征,将所述优选特征值输入噪声类型分类器以识别所述音频信号中的噪声类型。如图2所示,噪声类型分类器通过以下步骤进行构建:s1-1:构建噪声信号库,所述噪声信号库包括多种类型的噪声信号;s1-2:采用时频域信号处理方法提取所述噪声信号库中的每个噪声信号的多个音频特征的特征值;针对噪声类型区分的任务,为了从多个角度获取不同噪声信号间的可区分性信息,本发明从中提取了过零率、mfcc、频谱质心、频谱扩散、谱熵、谱通量、频谱滚边、谐波比、基频、频域能量、带宽、小波分量特征等共37维的时频域特征,其中小波分量特征是对音频信号进行小波分解后得到的小波分量提取8维能量特征和6维奇异值特征。具体地,在特征计算中,采用三层小波分解方法将音频信号分解为8个小波分量,然后计算每个分量的能量e3j作为特征,计算公式如下:式中,s3j为重构信号,xjk(j=0,1,…,7;k=1,2,…,n)为s3j的离散点幅值。同时,将小波分解后的8个小波分量组成的矩阵进行奇异值分解,取前6个奇异值作为特征。s1-3:基于所述音频特征的特征值,采用t-sne方法对所述噪声信号库中的噪声信号进行聚类分析;t-sne方法,是一种基于概率的子空间嵌入方法,其核心是将分布在高维空间中的原始数据嵌入到某个低维子空间中,通过采用条件概率取代欧氏距离来描述数据点对间的相似度,尽可能地保持低维空间中的数据与原始高维数据的邻域局部特性一致,同时保留原始高维数据的全局聚类特性。利用t-sne方法在低维空间保持高维数据全局聚类特性的优势,对多种噪声信号的聚类关系进行可视化分析,从而将时频域特性相似的噪声归为一类进行分类识别,以提高识别的准确率。在高维空间中,数据点对xj与xi间的相似度为条件概率pji,条件概率pji表示点xi选取点xj作为其邻域点的概率,pji的值较大时说明该数据点对是近邻关系,反之是远离关系;同样,在低维空间中,可以用条件概率qji来表示映射数据点对yj与yi的相似度;可见,在高维数据嵌入到低维空间的过程中,核心宗旨是寻找一种最优的低维数据表示,使得qji与pji的偏差最小。在t-sne算法中,本发明采用了k-l散度(kullback-leiblerdivergences)来衡量高低维空间中条件概率的匹配程度,并且为了弥补因k-l散度非对称性带来的低维数据堆积的问题,在高维空间中采用高斯分布来模拟数据点对间的概率分布情况,而在低维空间中采用“重尾分布”t分布来模拟数据点对间的概率分布情况,并通过“拉伸”机制促使低维特征形成“同类聚集、异类远离”的趋势,减轻高维数据映射到低维空间时的“堆叠”现象,提高不同类数据间的可分特性,从而在保留高维数据局部特性的同时,尽可能地保持了高维数据的全局聚类特性。s1-4:采用随机森林方法从所述多个音频特征中挑选出多个噪声分类优选特征;本发明中采用基于oob数据分类准确率的特征选择方法,通过oob数据改变前后对应的分类准确率的变化情况,来衡量不同维度上特征的重要度水平,具体过程如下:基于由n个样本构成的训练数据集,构建k个分类决策树,每个决策树的训练数据采用bootstrap从总训练数据集中随机抽取,则第i维特征的重要度水平可以这样计算:①将第k个决策树tk所对应的oob数据标记为dk;②基于决策树tk对测试数据dk进行分类识别,记录正确识别的样本个数为rk;③对测试数据dk中的特征xi的数值进行扰动,再基于决策树tk对扰动后的测试数据dk,i进行分类识别,记录正确识别的样本个数为rk,i;④对于k=1,2,…,k,重复上述步骤①~③,每次记录rk和rk,i的结果;⑤特征xi的重要度水平可由此计算:采用不同的时频域方法提取音频特征,可以从多个视角更加全面地描述音频的时频域特性,但多视角特征在提供更充分的音频特性的同时也由于特征高维化、数据结构复杂化增加了后续分类算法的负担,且高维数据间存在着相关性,冗余信息会干扰有效特性的展现。因此,本发明采用基于随机森林的特征优选方法,优选的低维特征只包括重要度前7的特征,在有效保留能够描述不同噪声信号间、语音与噪声信号间可分特性特征的同时去除共性冗余信息特征,从而提高不同类型噪声信号之间、语音与噪声信号之间分类识别的准确率。s1-5:基于所述噪声分类优选特征,采用随机森林方法训练噪声类型分类模型。本发明中针对噪声分类任务,训练噪声类型分类模型(随机森林分类器)形成噪声类型分类器;通过前面的噪声聚类将噪声进行归类,通过特征优选从频域特征中优选出可分特性较好的特征参加模型训练及验证测试。针对不同的噪声类型,基于优选出的可分性良好的低维特征,构建噪声类型分类模型的训练数据集;根据该训练数据集训练噪声类型分类模型形成噪声类型分类器。随机森林(randomforest,rf)是一种采用bagging策略的集成学习方法,是由若干个决策树基分类器构成的集成分类器,分类的最终结果由各个决策树的投票结果共同来决定,从而可将多个若分类器集成为一个强分类器,获得比单一决策树更好的分类性能。训练噪声类型分类模型具体步骤为:①构建训练数据集每个决策树的训练数据集是采用bootstrap重采样方法从总训练数据集n中按一定比例有放回的随机抽取的,每次抽取后剩余的数据称为袋外数据(outofbagdata,oobdata),也就是每个决策树训练效果的测试数据,通过分类器对oob数据的测试误差来评估各个分类器的性能。②选择最优的特征组合进行节点分支每个决策树在训练过程中,从全部特征数据中随机抽取部分维度的特征,并依据gini增益最大化原理选择最优的特征组合进行节点分支。③投票通过集合所有决策树的输出结果进行投票,票数最高的类别即为模型最终的决策结果。训练好的噪声类型分类模型即噪声类型分类器的性能评价指标包括精确率(pr)、召回率(rr)、f1分数(f1-score)以及准确率(acc),具体定义如下:其中,tp表示把正样本识别为正样本的个数,fp表示把负样本识别为正样本的个数,tn表示把负样本识别为负样本的个数,fn表示把负样本识别为正样本的个数。如图2所示,噪声类型分类器在使用阶段的操作为:①将输入的实时音频信号按照训练阶段中面向噪声分类任务优选出的特征名录提取优选特征;②将提取的面向噪声分类任务的优选特征值输入噪声类型分类器以识别所述音频信号中的噪声类型。s2:根据噪声类型,确定适用于音频信号面向语音与噪声分类任务的优选特征和分类器;s3:从音频信号中提取面向语音与噪声分类任务的优选特征值,并将面向语音与噪声分类任务的优选特征值输入语音噪声分类器,判断所述音频信号中是否存在语音信号。如图3所示,语音噪声分类器通过以下步骤进行构建:s3-1:分别利用不同类型的噪声信号,对纯净语音进行加噪处理,得到分别对应各种噪声类型的含噪语音和噪声信号;s3-2:采用时频域信号处理方法提取各个含噪语音信号与对应噪声信号的多个音频特征的特征值;s3-3:基于对应各个噪声类型的含噪语音信号与噪声信号,采用随机森林方法从所述多个音频特征中挑选出各个噪声类型下面向语音与噪声分类任务的优选特征;s3-4:基于各个噪声类型下面向语音与噪声分类任务的优选特征,采用随机森林方法训练用于各个噪声类型的含噪语音与噪声分类模型。针对不同的噪声类型,基于优选出的可分性良好的低维特征,构建含噪语音与噪声分类模型的训练数据集;根据该训练数据集训练含噪语音与噪声分类模型(随机森林分类器),具体步骤为:①构建训练数据集每个决策树的训练数据集是采用bootstrap重采样方法从总训练数据集n中按一定比例有放回的随机抽取的,每次抽取后剩余的数据称为袋外数据(outofbagdata,oobdata),也就是每个决策树训练效果的测试数据,通过分类器对oob数据的测试误差来评估各个分类器的性能。②选择最优的特征组合进行节点分支每个决策树在训练过程中,从全部特征数据中随机抽取部分维度的特征,并依据gini增益最大化原理选择最优的特征组合进行节点分支。③投票通过集合所有决策树的输出结果进行投票,票数最高的类别即为模型最终的决策结果。训练好的含噪语音与噪声分类模型即语音噪声分类器的性能评价指标包括精确率(pr)、召回率(rr)、f1分数(f1-score)以及准确率(acc)。语音噪声分类器在使用阶段的操作为:①根据噪声类型,确定适用于音频信号面向语音与噪声分类任务的优选特征和分类器。②从音频信号中提取面向语音与噪声分类任务的优选特征的特征值,并将面向语音与噪声分类任务的优选特征的特征值输入语音噪声分类器,判断音频信号中是否存在语音信号。活动语音检测的核心是有效区分含噪语音信号与噪声信号,在实际应用中,由于语音所处的环境背景中噪声类型复杂多变,不同噪声下含噪语音与噪声的信号的区分性特征也不同,采用统一的特征和分类器难以在多种噪声类型下都取得最好的识别结果,因此,本发明提出一种基于随机森林特征选择与语音噪声分类器的构建方法,针对不同的噪声类型优选不同的特征组合并训练形成特定的语音噪声分类器,从而提高算法模型在不同环境下的适应能力。下面结合具体应用实例分析本发明的实际效果:1、音频数据来源在本发明的案例分析中,语音信号是在数据集thchs-30中随机选取了30条不同说话人的音频,男女生各15条。噪声信号是在noisex-92标准噪音库中选取了6种噪声作为分析对象,分别是白噪声(white)、餐厅内噪音(babble)、工厂内噪声(factory2)、小汽车内噪音(volvo)、坦克内噪声(m109)和战斗机噪音(f16)。2、基于t-sne聚类分析与随机森林的噪声类型分类器的构建(1)时频域特征提取对6种噪声信号,首先统一重采样到8khz,然后以20ms为帧长、10ms为帧移进行分帧,并提取37维的时频域特征,这些特征的维度与特征名称的对应关系如表1所示。表1音频特征维度及特征名称对应关系维度特征名称维度特征名称维度特征名称1过零率18谱通量22频域能量2~14mfcc19频谱滚边23带宽15~16频谱质心、频谱扩散20谐波比24~31小波能量17谱熵21基频32~37小波奇异值(2)将上述特征值采用t-sne聚类特性分析方法进行聚类分析对6种噪声的特征进行t-sne可视化聚类分析的结果如图4所示。从图中可以看出,这6种噪声形成了4个聚类群,其中babble、factory和m109的噪声特征聚集在一起,而volvo、f16、white三种噪声各自聚集为一堆。因此,我们认为,在本发明提取的高维特征下,babble、factory和m109三种噪声环境可以视为一种类别的噪声,而volvo、f16、white又各自视为一种类别的噪声,后续对这四种类别的噪声进行识别分类即可。(3)面向噪声分类识别任务采用随机森林方法进行特征优选针对多种不同噪声识别分类的任务,在特征优选中,每类噪声抽取1500组特征样本,每组特征样本数据维度37。其中,根据前面噪声聚类特性分析结果,babble、factory2与m109三种噪声的特性相似,归为一类,这里从每种噪声中抽取500组特征样本组成1500组。由此,我们得到4×1500×37的数据集,其中,每类噪声样本中随机抽取三分之二作为模型训练数据,剩下三分之一作为测试数据。各个维度特征的重要度排序结果如图5中的柱状图所示,累积特征对应的测试数据识别准确率如图5中的折线图所示。从图中可以看到,对于区分不同种类噪声最为有用的前7个特征是第15、37、29、19、31、35、30维特征,在这7个描述特征下,不同噪声的分类准确率即可达到99.55%,而后继续增加第17、2、23、33、34维特征后,最高准确率没有提升,直到增加到13个描述特征,最高准确率达到99.7%,此后再增加特征也没有提升识别准确率。因此,在不同种类噪声区分任务中,为了提升识别准确率、提高检测识别过程的时效性,本发明中优选的低维特征只包括重要度前7的特征,对照表1,在实时检测中只需要计算频谱质心、小波奇异值、小波能量、频谱滚边特征。为了进一步验证随机森林特征优选结果的有效性,下面给出特征重要度排名靠前的、居中的、和靠后的各2个特征的特征值分布情况,如图6所示,从图6中可以明显看出,重要度排名靠前的特征,在4种噪声间具有明显的可分性,排名居中的特征,只能够区分部分噪声,而排名靠后的特征,无法区分不同的噪声。可见,基于随机森林得到的优选特征确实具有更好的可分特性,对于区分不同噪声具有明显的优势。(4)训练噪声类型分类模型本发明中针对噪声分类识别任务,训练噪声类型分类模型(随机森林分类器)形成噪声类型分类器,通过前面的噪声聚类与特征优选,最终将6种噪声归为4类噪声场景,即babble\factory\m109与volvo、f16、white,并从37维的时频域特征中优选出7维可分特性较好的特征参加模型训练及验证测试。每类噪声场景下的训练数据为1500组样本,共计6000组样本;每类噪声场景下的测试数据为1500组样本,共计6000组样本。在模型训练过程中,为了避免模型过拟合,确保模型在未来使用数据上的泛化能力,本发明采用了5-fold交叉验证方法;为了得到使训练和验证测试准确率最大化的参数组合,本发明采用了网格搜索方法对参数进行寻优,考虑各个参数对随机森林模型性能的影响程度情况,本发明主要对树的个数n_estimators、树的最大深度max_depth,以及树节点的最小叶子数min_samples_leaf三个参数进行了寻优;设定各参数的寻优范围:n_estimators为[10:10:100],max_depth为[2:1:10],min_samples_leaf为[1:1:5];参数优化的结果如图7所示,最终确定各参数的最优值为n_estimators=20,max_depth=9,min_samples_leaf=1。在网络搜索寻优得到的参数设定下,进行5次训练和验证测试,将5次运行结果的均值作为最终的训练与验证测试结果,在总体数据上,训练准确率为99.81%,测试准确率为98.97%;在各类别噪声数据上,噪声类型分类器的性能指标如表2所示,噪声类型分类器在4类不同的噪声测试数据上的混淆矩阵如图8所示,可以明显看到,该噪声类型分类器具有良好的噪声识别准确率以及对未知测试数据的泛化能力,在实际使用过程中,还可以通过对连续音频采用多段测试结果投票决策的方式,进一步确保噪声识别的准确性。表2本发明噪声类型分类器的性能指标列表类别prrrf1-scoreclass0:babble\factory\m1090.9740.9880.980class1:volvo111class2:white111class3:f160.9880.9740.980噪声类型分类器性能评价指标包括精确率(pr)、召回率(rr)、f1分数(f1-score)以及准确率(acc),具体定义如下:其中,tp表示把正样本识别为正样本的个数,fp表示把负样本识别为正样本的个数,tn表示把负样本识别为负样本的个数,fn表示把负样本识别为正样本的个数。3、基于随机森林的语音噪声分类器(1)时频域特征提取首先,在6种不同的噪声信号下,对纯净语音进行加噪处理,信噪比分别为10db、5db、0db、-5db。然后,对加噪语音和噪声的样本信号数据,统一重采样到8khz,再以20ms为帧长、10ms为帧移进行分帧,并提取37维的时频域特征,这些特征的维度与特征名称的对应关系如表1所示。(2)面向含噪语音与噪声分类任务的语音特征优选在含噪语音与噪声分类的任务中,由于不同信噪比下噪声与语音的混淆程度不同,可用于区分二者的优选特征也不同,因此,本发明中针对某一类噪声场景,在不同信噪比下优选对应的特征。针对4类噪声场景下的含噪语音与噪声的分类识别任务,在特征优选中,在10db、5db、0db、-5db四种信噪比下,每类噪声及其含噪语音各抽取3000组特征样本,每组特征样本数据维度37。其中,对于第一类噪声(babble、factory2与m109)场景,从每种噪声及其含噪语音中各抽取1000组特征样本组成3000组。由此,每类噪声场景每种信噪比下我们得到2×3000×37的数据集,其中,每类噪声样本中随机抽取一半作为随机森林模型训练数据,剩下一半作为测试数据。每类噪声每种信噪比下的语音特征优选结果取top10汇总,如表3所示,从表中可以看出,4类噪声场景下,在10db、5db、0db的信噪比下,优选出的特征维度重合度比较高,说明这些特征在这些信噪比下不仅能够有限区分含噪语音与噪声信号,而且具有较好的抗工况扰动能力;而-5db下得到的优选特征与前3种信噪比下差异比较大。因此,本发明中,在各类噪声场景下,对10db、5db、0db三种信噪比下的优选特征取并集作为最终的特征序列来训练模型,而-5db信噪比下单独训练一个模型,并在每个模型训练中采用网格搜索方法进行模型参数寻优。表3不同噪声环境下含噪语音与噪声分类的语音特征优选结果明细表(3)含噪语音与噪声分类模型的训练本发明中针对含噪语音与噪声的分类识别任务,训练含噪语音与噪声分类模型(随机森林分类器)形成语音噪声分类器并测试;本发明在每类噪声场景下,对10db、5db、0db三种信噪比统一训练一个模型,根据表3中特征优选的结果选取训练特征,训练和测试数据各1500组样本;对-5db信噪比单独训练一个模型,根据上节语音特征优选的结果选取训练特征,训练和测试数据各1500组样本;为了验证随机森林在含噪语音与噪声二分类中的优势,基于训练和测试数据样本,本发明在训练含噪语音与噪声分类模型(随机森林分类器)的同时也训练了svm模型和两层的感知器mlp模型,且三个模型都采用网格搜索方法实现模型参数的调优;各个分类器的识别准确率如表4所示,对比如图9所示,从中可以比较明显的看到,在不同噪声环境类别和不同信噪比下,语音噪声分类器的识别准确率都是最好的,而svm分类器和mlp分类器的识别效果相当;对于不同噪声类型,在信噪比不低于5db的情况下,语音噪声分类器的分类准确率可以达到95%以上;信噪比为0db时,volvo和white噪声下分类准确率在96%以上,f16噪声下准确率在91%以上,而class0噪声下准确率下降到85.3%;而当信噪比继续降低到-5db时,识别准确率普遍下降很多,此时应该与语音降噪算法结合来保证语音检测的准确率。表4不同噪声环境不同信噪比下不同分类器的识别结果列表实施例2实施例1中的基于噪声场景识别的活动语音检测方法可通过如下活动语音检测系统实现。如图10所示,一种基于噪声场景识别的活动语音检测系统,包括:第一特征提取单元,用于从音频信号中提取面向噪声分类任务的优选特征;噪声分类识别单元,用于根据面向噪声分类任务的优选特征通过噪声类型分类器识别音频信号中的噪声类型;模型选择单元,用于根据噪声类型,确定适用于音频信号面向语音与噪声分类任务的优选特征和分类器;第二特征提取单元,用于从音频信号中提取面向语音与噪声分类任务的优选特征的特征值;语音检测单元,用于根据面向语音与噪声分类任务的优选特征的特征值通过语音噪声分类器判断音频信号中是否存在语音信号。噪声类型分类器是通过t-sne聚类分析和随机森林方法构建的,语音噪声分类器是通过采用随机森林方法构建的。本发明针对活动语音检测技术应用场景噪声类型、噪声强度复杂多变,而现有检测方法较少考虑动态噪声环境条件的现状,提出了一套动态噪声环境下活动语音检测的有效方法及系统,有效保证了在不同噪声类型下、不同噪声强度下语音检测的准确率。针对单一音频特征在活动语音检测中的难以充分、全面表征音频特性信息的问题,以及噪声场景下语音信号非平稳的特性,提出基于mfcc、小波分解、奇异值分解等方法的时频域特征提取方法,实现从多视角挖掘音频信号的特性信息。针对动态噪声环境下,由于噪声类型与噪声强度多变,面向通用场景设计的特征和分类模型在动态场景下往往难以表现出稳定、有效的检测能力的问题,构建基于t-sne聚类分析与随机森林分类的噪声类型分类器,通过t-sne可视化聚类方法将n种噪声信号聚类为m(m≤n)种不同特性的噪声类型,再通过随机森林针对m种噪声进行特征选择和分类器训练,从而在实时语音检测中可以将动态开放的噪声环境转换为特定的噪声场景来处理,进而保证活动语音检测的准确率。针对单一分类器建模能力的有限性,应用了集成学习中的随机森林方法,针对不同特性噪声类型下含噪语音与噪声的可分性特征不同的问题,采用随机森林特征选择方法对不同类型噪声下的最具可区分性的特征进行优选,并基于优选特征组合训练对应的含噪语音与噪声分类模型;由于在建模过程中充分考虑了不同噪声类型的信号特性,该方法可以有效应对动态噪声环境,获得稳定的语音检测能力。试验数据的分析结果验证了本发明在动态噪声环境条件下语音检测的有效性,具有很好的实际工程应用价值;试验数据的分析结果同时还验证了本发明提出的方法比svm、mlp等方法的分类识别准确率更高。虽然已经参考优选实施例对本发明进行了描述,但在不脱离本发明范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例,而是包括落入权利要求范围内的所有技术方案。本发明未详细阐述部分属于本领域技术人员的公知技术。当前第1页1 2 3 
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
热门咨询
tips