基于DNN和频带内互相关系数的单通道语音增强算法的制作方法

2021-01-28 18:01:10|

463|

起点商标网

本发明涉及语音信号处理领域，具体为一种基于深度神经网络(deepneuralnetworks,dnn)和频带内互相关系数的单通道语音增强算法。

背景技术：

语音增强在语音信号处理领域一直备受关注。语音增强旨在抑制带噪语音中的噪声成分或构造噪声掩蔽，提升增强语音的听感和整体质量，常用于自动语音识别、助听器、通讯等领域。根据传声器数量的多少，语音增强可以分为单通道语音增强和多通道语音增强。相比多通道语音增强，单通道语音增强只需要一个传声器，具有成本低、易于实现等优点，受到了广泛关注。

根据是否需要语音和噪声的先验信息，单通道语音增强算法可分为有监督和无监督两大类。但是研究表明，传统的无监督增强算法并不能提高语音的可懂度。近年来，单通道语音增强问题主要由基于数据训练的有监督语音增强算法来解决。其中，以基于dnn的算法为代表，在语音增强中的应用更为广泛。基于dnn的有监督语音增强算法，借助dnn的深层非线性结构，擅长处理高维数据，可以充分挖掘语音信号的上下文信息，学习带噪语音和纯净语音之间的非线性关系，在非平稳噪声和低信噪比下显示出明显的优势。

凸优化研究的是定义在凸集上的凸函数(目标函数)最小化问题，该方法已经普及到通信以及信号处理方面的优化问题中。相较于一般的数学最优化问题，凸优化的特殊性在于局部最优值必然是全局最优值。在单通道语音增强中，当带噪语音和噪声的能量谱已知的条件下，计算目标语音的能量谱可看作一个凸优化过程。在单通道语音增强算法中，首先要估计噪声，但由于噪声的不确定性，噪声估计难免产生过估，影响语音的整体质量。为解决噪声过估问题，bao等在文献(baof,abdullawh.noisemaskingmethodbasedonaneffectiveratiomaskestimationingammatonechannels[j].asia-pacificsignalandinformationprocessingassociationtransactionsonsignalandinformationprocessing,2018,7.)利用gammatone滤波器组的非线性特征，首先计算带噪语音和噪声在各频带内的互相关系数，然后利用凸优化算法迭代处理初始掩蔽，得到语音能量谱的估计值。但该方法还要对语音能量谱做聚类处理，由于聚类方法的准确性要求很高，恢复的增强语音的听感和可懂度可能达不到预期效果。ge等对初始掩蔽做了改进，在文献(葛宛营,张天骐.基于掩蔽估计与优化的单通道语音增强算法[j].计算机应用,2019,39(10):3065-3070.)提出一种结合改进直接判决(decisiondirected,dd)算法和频带内互相关系数(inter-channelcorrelationfactor,iccfactor)的掩蔽估计与优化算法。但该算法无法有效抑制噪声，影响了增强语音的整体质量。

鉴于此，本发明提出一种基于dnn和频带内互相关系数的单通道语音增强算法，优化后的算法可以在增加掩蔽中的语音成分的同时，有效提升噪声抑制效果，得到更接近目标语音的增强语音。

技术实现要素：

本发明所要解决的技术问题，是针对当前语音增强算法噪声抑制效果差的问题，提出一种基于dnn和频带内互相关系数的单通道语音增强算法。优化后的算法可以在增加掩蔽中的语音成分的同时，有效提升噪声抑制效果，得到更接近目标语音的增强语音。

本发明解决上述技术问题而提出的技术方案的实施办法为：首先提取带噪语音时频单元级别的特征，将带噪语音能量谱作为dnn的输入特征；接着为利用带噪语音和噪声的相关信息，以各频带内带噪语音与真实噪声的互相关系数，即噪声存在概率作为dnn的训练目标，训练dnn模型；然后，以理想比值掩蔽(idealratiomask,irm)为凸优化的优化目标，利用dnn模型得到的互相关系数估计值构造凸优化的目标函数；最后，采用改进dd算法得到初始掩蔽，联合dnn和凸优化，采用梯度下降法对初始掩蔽迭代优化。利用迭代得到的“新掩蔽”和带噪语音合成增强语音。

语音增强的主要目的是抑制噪声，从带噪语音中获得感兴趣的语音。本发明采用casa中的gammatone滤波器组处理语音信号，将其由一维时域变换到二维时频域，分到带宽和中心频率各不相同的128个频带内。然后采用交叠分段的方法，对每个频带内的语音信号进行分帧加窗处理，得到时频单元序列，计算各时频单元的能量得到语音信号的能量谱。假定带噪语音由纯净语音和噪声加性合成，纯净语音和噪声相互独立。带噪语音经滤波器组处理后，其能量可以表示为:

y(t,f)＝r(t,f)+d(t,f)(1)

其中，t为时间帧，f为中心频率，y(t,f)、r(t,f)和d(t,f)分别表示带噪语音、纯净语音和噪声的能量。

casa语音增强通过掩蔽和带噪语音得到增强语音，本发明语音增强的计算目标是一个理想比值掩蔽(irm)，由irm和带噪语音合成增强语音，理想比值掩蔽表示为：

得到带噪语音能量谱后，利用噪声估计方法得到噪声的能量谱。在带噪语音和噪声的能量谱已知的条件下，计算可看作一个凸优化过程。凸优化实质是以目标语音的能量r(t,f)为优化目标，通过缩小计算得到的与y(t,f)-d(t,f)的差值，使目标语音的能量估计值更接近最优值。但是语音能量取值范围为(0,+∞),且各个时频单元内的能量各不相同，导致每次迭代计算的计算量很大。本发明以基于casa的计算目标理想比值掩蔽mr(t,f)代替r(t,f)，作为凸优化的优化目标，表示为：

其中，每次迭代的计算量远远小于以为优化目标。

目标函数j[mr(t,f)]的表达式为：

式中，为带噪语音的掩蔽，ρ(t,f)为带噪语音和噪声的频带内互相关系数，λ＝0.01。

噪声估计难免存在误差，如果对噪声过估，语音能量的估计值可能会出现负值。虽然可以借助补偿手段消去这些负值，但是会损失语音成分，使语音的听感和可懂度变差。为解决噪声过估问题，目标函数中引入带噪语音和噪声的频带内互相关系数ρ。

带噪语音和噪声的频带内互相关系数ρ(t,f)∈[0,1]，表达式为：

式中，yt,f和dt,f分别为时间帧为t、频带中心频率为f的时频单元内，带噪语音和估计噪声的时域信号经过离散傅里叶变换后的幅度谱，符号t表示矩阵转置。和分别为yt,f和dt,f的平均值。

带噪语音与噪声的互相关系数的计算是基于在非语音段，带噪语音和噪声的幅度谱有某种相关性。

然而从式(5)可以看出，利用公式计算ρ，要先对噪声进行估计，噪声估计不可避免会引入误差。为利用ρ解决噪声过估问题的同时，避免新的噪声估计误差的引入，影响增强语音整体质量，本发明利用dnn的深层非线性结构，通过训练一个dnn模型从带噪语音中得到互相关系数。

训练阶段是一个不断更新权重和偏置的过程。测试阶段，输入带噪语音的特征，通过训练好的dnn模型，得到训练目标的预测值构造凸优化的目标函数。通过凸优化算法不断减小my(t,f)-ρ(t,f)·my(t,f)-mr(t,f)的值，不满足迭代条件时停止，得到目标语音的掩蔽估计

以理想比值掩蔽为优化目标的凸优化是在优化掩蔽，使目标语音的掩蔽估计值更接近最优值。本发明利用基于dnn的噪声存在概率估计值构造凸优化的目标函数，联合dnn和凸优化，采用凸优化算法迭代处理初始掩蔽。

目标函数确定后，采用梯度下降法求算法中第k次迭代时梯度▽^k的计算公式如下：

对mr(t,f)的第k次迭代结果为：

其中，μ为每次迭代的步长，μ＝0.01。迭代停止条件为：

其中，θ＝0.0001。

附图说明

图1本发明的算法结构示意图；

图2本发明互相关系数和带噪语音时域波形的比较；

图3本发明的dnn结构图；

图4本发明各算法进行语音增强的频谱图；

具体实施方式

以下结合附图和具体实例，对本发明的实施作进一步的描述。

图1所示为本发明的算法流程示意图，具体步骤如下：

1)确定迭代初值由改进dd算法做掩蔽估计，得到初始掩蔽令k＝0,将初始掩蔽作为凸优化的迭代初值

2)确定凸优化的优化目标和目标函数。优化目标为理想比值掩蔽(irm)；目标函数由dnn模型得到的噪声存在概率估计值构造。

3)确定搜索方向。由式(6)得到搜索方向-▽^k。

4)更新迭代点。由式(7)计算迭代点。

5)判断迭代停止条件。当满足δ≤θ时，迭代停止；否则，k＝k+1，跳转至第二步。

图2为互相关系数和带噪语音时域波形的比较,从图中可以清楚看到ρ在非语音段和语音段的变化。在理想情况下(估计的噪声和带噪语音几乎完全匹配或相关)，非语音段ρ的值接近于1。相反，在语音段ρ下降到一个比较小的值。1-ρ可以作为纯净语音的增益因子，使带噪语音中保留更多的语音成分。即ρ可以看做噪声的增益因子，作为带噪语音的噪声存在概率，抑制带噪语音中的残留噪声和音乐噪声，解决噪声过估问题。

dnn结构如图3所示，包含一个输入层，三个隐层和一个输出层。输入层设置128个神经元，x为模型的输入特征。本发明以带噪语音能量谱作为dnn模型的输入特征，由于语音信号具有时间相关性，将连续的5帧信号(前两帧、当前帧、后两帧)合并作为输入特征，维度为640×300。隐层每层设置1024个神经元，用来学习输入特征间的非线性关系。输出层设置128个神经元，ρ为模型的输出，即训练目标。一般基于dnn的语音增强的训练目标为纯净语音的掩蔽或幅度谱，为减小计算噪声存在概率时，噪声估计引入的误差，本发明的训练目标为ρ。

对纯净语音信号加0db的noisex-92数据库中的f16噪声，图4分别为用本发明算法、用本发明算法所用dnn模型直接估计irm的算法(简称“irm”)、文献(葛宛营,张天骐.基于掩蔽估计与优化的单通道语音增强算法[j].计算机应用,2019,39(10):3065-3070.)的“梯度下降法”和文献(gerkmannt,hendriksrc.unbiasedmmse-basednoisepowerestimationwithlowcomplexityandlowtrackingdelay[j].ieeetransactionsonaudiospeech&languageprocessing,2012,20(4):1383-1393.)的“噪声估计法”进行语音增强的频谱图。

从图4可以看出，与图4-(b)纯净语音的频谱图相比，图4-(d)“irm”、图4-(e)“梯度下降法”和图4-(f)“噪声估计法”这三种算法的频谱图语音恢复程度比较差。语音段受噪声干扰严重，频谱图存在块状缺失,频谱成分缺失，只有低频段(语音能量主要集中区域)能恢复部分语音；非语音段有大量的噪声残留，噪声抑制效果差。相比较，图4-(c)本发明算法频谱图的低频段语音能量成分比较清晰，可以有效重构语音频谱成分；非语音段噪声去除明显。说明用dnn模型得到的带噪语音与噪声的互相关系数用来表示噪声存在概率，估计的噪声更接近真实值，可以有效恢复语音且抑制噪声。

本发明提出一种基于dnn和频带内互相关系数的单通道语音增强算法，来提升算法的噪声抑制效果。并联合dnn和凸优化问题中的梯度下降法法对初始掩蔽进行掩蔽优化后，利用新的掩蔽恢复增强语音。仿真结果表明，即使在低信噪比下，本发明算法仍能有效重构目标语音频谱成分，说明本发明算法可有效抑制噪声并提升语音的整体质量。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除