一种单通道语音同时降噪和去混响系统的制作方法

2021-01-28 14:01:12|

296|

起点商标网

本发明涉及信号处理技术领域，尤其是涉及了一种单通道语音同时降噪和去混响系统。

背景技术：

语音作为人类交流信息的主要手段之一，语音降噪和去混响一直在语音信号处理中占据着重要的地位。在真实环境中，语音信号往往会同时包含混响和噪声，会严重影响语音的质量和可懂度，同时对语音识别和声纹识别系统的性能影响也比较大。因此，语音去混响和降噪就显得很重要。为了解决语音去混响问题，在过去的多年很多方法也被提出来。加权预测误差(wpe)算法在信号层面处理语音去混响，即延时线性预测。wpe首先通过多个历史帧得到与频率相关的线性预测滤波器。然后在子带域从原始混响信号中减去滤波后的信号，得到增强信号。但是，当噪声和混响同时存在时，wpe算法的性能会受到严重的影响，制约着该方法的应用。

近年来，随着计算机技术的发展，基于深度学习的语音去混响方法得到了很大的发展，受到了越来越多人的关注。基于深度学习的语音去混响方法通过训练语音去混响模型，建立混合语音特征参数与目标干净语音信号的特征参数之间的映射关系，这样对于任意输入的混合语音信号都可以通过建立的去混模型来输出目标干净语音信号，从而达到语音去混响的目的。但是采用这些方法仅仅使用幅值谱作为特征，不具有区分性，限制着语音去混响的性能。在语音同时包含噪声和混响的情况下，增强后的语音音质无法保证。

技术实现要素：

为解决现有技术的不足，实现在语音同时包含噪声和混响的情况下，仍能保持增强后的语音有较高音质目的，本发明采用如下的技术方案：

一种单通道语音同时降噪和去混响系统，包括：语音降噪模块、语音去混响模块和联合训练模块，语音降噪模块利用深度聚类算法训练深度嵌入式特征提取器，从混合的语音信号中提取深度嵌入式特征，将输入的混合语音映射到一个没有噪声的嵌入式空间中，因此深度嵌入式特征不包含噪声，且对混响和直达声区分性很大；语音去混响模块与语音降噪模块连接，将混响语音信号从深度嵌入式特征中去除，估计出干净目标的直达声，从而实现语音降噪和去混响的目的；联合训练模块分别与语音降噪模块和语音去混响模块连接，用于联合优化语音降噪和语音去混响模块，提升增强后语音的质量和可懂度。

所述语音降噪模块对输入的混合语音信号进行短时傅里叶变换，将时域信号变换到频域信号后，对其进行建模，利用深度聚类算法提取深度嵌入式特征，将输入的混合语音映射到一个没有噪声的嵌入式空间中，深度嵌入式特征利用深度神经网络训练得到，语音降噪模块的训练损失目标函数为：

v是深度嵌入式特征，表示实数，tf是经过傅里叶变换后的时频块，b是每一个时频块直达声和混响的对应关系，表示平方frobenius范数，从而达到语音降噪的目的。

所述语音去混响模块利用深度神经网络实现，网络的输入为深度嵌入式特征，输出为估计的目标浮点掩蔽值，公式如下：

是估计的目标浮点掩蔽值，语音去混响模块的训练损失目标函数为：

|y(t，f)|是混合语音的幅值谱，|x(t，f)|是目标干净直达声的幅值谱，利用输入的混合语音的幅值谱|y(t，f)|与估计的目标浮点掩蔽值进行逐点乘积，得到估计的目标干净直达声的幅值谱，在估计的目标干净直达声的幅值谱和目标干净直达声的幅值谱之间计算均方误差。

所述联合训练模块用于联合优化语音降噪模块和语音去混响模块，将语音降噪模块的目标函数和语音去混响模块的目标函数以一定的权重进行线性相加作为最终的目标函数，以此来进行联合优化语音降噪模块和语音去混响模块，提升语音增强系统的性能。

总的训练目标函数为：

jtotal＝λjdc+(1-λ)j

λ是语音降噪模块和语音去混响模块的权重，最终，通过联合训练的方式优化整个语音降噪和去混响模块。

本发明的优势和有益效果在于：

本发明的语音降噪模块通过特征提取进行降噪，且提取的特征区分了混响和直达声，从而提升了语音去混响系统对混响和直达声的区分性；语音去混响模块，通过训练神经网络以估计出目标干净直达声，从而提升语音去混响的性能；联合训练模块，联合优化语音降噪模块与语音去混响模块，在获得具有区分性的深度嵌入式特征的同时也保证了语音增强的性能，使得增强后的语音会更加清晰、可懂，音质更好。

附图说明

图1是本发明的模块结构示意图。

图2是本发明中语音降噪模块的结构示意图。

图3是本发明中语音去混响模块的结构示意图。

图4是本发明中联合训练模块的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，一种单通道语音同时降噪和去混响系统，包括：语音降噪模块，利用深度聚类算法训练一个深度嵌入式特征提取器，从混合的语音信号中提取深度嵌入式特征，将输入语音映射到一个没有噪声的嵌入式空间里，因此深度嵌入式特征不包含噪声，且对混响和直达声区分性很大；语音去混响模块，与语音降噪模块连接，利用该区分性将混响语音信号从深度嵌入式特征中去除，估计出干净目标的直达声，从而实现语音降噪和去混响的目的；联合训练模块，分别与语音降噪模块和语音去混响模块连接，用于联合优化语音降噪和语音去混响模块，提升增强后语音的质量和可懂度。

如图2所示，语音降噪模块对输入的混合语音信号进行短时傅里叶变换，将时域信号变换到频域信号，然后对其进行建模；其中，语音降噪模块利用深度聚类算法提取深度嵌入式特征，将输入的同时带噪和混响的语音映射到一个没有噪声的嵌入式空间里，即只包含混响的深度嵌入式特征上，深度嵌入式特征利用深度神经网络训练得到，语音降噪模块的训练损失目标函数为：

其中，v是深度嵌入式特征，表示实数，tf是经过傅里叶变换后的时频块，b是每一个时频块直达声和混响的对应关系，表示平方frobenius范数，例如：如果直达声在时频块tf比混响的能量大，则btf，1＝1且btf，2＝0；否则btf，1＝0且btf，2＝1，这样就相当于将输入的混合语音映射到一个只包含混响且无噪声的嵌入式空间中，达到语音降噪的目的。

如图3所示，语音去混响模块用于训练语音去混响模型，该模块利用深度神经网络实现，网络的输入为深度嵌入式特征，输出为估计的目标浮点掩蔽值，公式如下：

其中，是估计的目标浮点掩蔽值，语音去混响模块的训练损失目标函数为：

其中，|y(t，f)|为混合语音的幅值谱，|x(t，f)|为目标干净直达声的幅值谱，利用输入的混合语音的幅值谱|y(t，f)|与估计的目标浮点掩蔽值进行逐点乘积，得到估计的目标干净直达声的幅值谱，在估计的幅值谱和真实的幅值谱之间计算均方误差。

如图4所示，联合训练模块用于联合优化语音降噪模块和语音去混响模块，语音降噪模块的目标函数和语音去混响模块的目标函数以一定的权重进行线性相加作为最终的目标函数，以此来进行联合优化各个模块，提升语音增强系统的性能。

总的训练目标函数为：

jtotal＝λjdc+(1-λ)j

其中，λ表示语音降噪模块和语音去混响模块的权重，最终，通过联合训练的方式优化整个语音降噪和去混响系统。

训练完成后，将混合语音信号依次输入语音降噪模块和语音去混响模块，得到目标干净直达声信号。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除