一种音频处理方法、装置、电子设备和可读存储介质与流程

2021-01-28 15:01:18|

346|

起点商标网

本申请涉及计算机技术领域，具体而言，涉及一种音频处理方法、装置、电子设备和可读存储介质。

背景技术：

目前，语音识别技术被应用的场景越来越多，语音识别面临的环境越来越复杂，特别是目标声源(例如：点声源)和噪声声源(例如：扩散声源，扩散声源包含回声和风声等声源)混合在一起时，此时对目标声源的语音识别难度较大。

由于噪声声源对目标声源会产生较大的干扰，因此在对目标声源和噪声声源混合在一起的混合声源进行语音识别时，导致目标声源的识别率较低。

技术实现要素：

有鉴于此，本申请的目的在于提供一种音频处理方法、装置、电子设备和可读存储介质，以提高目标声源的识别率。

第一方面，本申请实施例提供了一种音频处理方法，所述音频处理方法包括：

获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号；

利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计；

基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。

可选地，当所述第二语音信号中还包含所述目标语音信号，其中，所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值，所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时，所述利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：

分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；

分别对所述第一语音信号的时频谱和所述第二语音信号的时频谱进行非负矩阵分解nmf处理，得到所述第一语音信号对应的第一nmf基矩阵和所述第二语音信号对应的第二nmf基矩阵；

根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵；

利用所述第三nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

可选地，所述根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵，包括：

根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵。

可选地，所述根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵，包括：

使用第三阈值，对所述第一nmf基矩阵中的各元素进行比较；

根据比较结果，确定所述第一nmf基矩阵中大于或者等于所述第三阈值的元素所在的候选位置，以将所述候选位置作为所述目标语音信号对应的元素在所述第一nmf基矩阵中的位置；

使用数字0，对所述第二nmf基矩阵中与所述候选位置相同的目标位置上的元素进行替换，以将替换后的所述第二nmf基矩阵作为所述第三nmf基矩阵。

可选地，所述利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：

分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；

对所述第二语音信号的时频谱进行nmf处理，得到所述第二语音信号对应的第二nmf基矩阵；

利用所述第二nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

可选地，所述基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱，包括：

基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱。

可选地，所述基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱，包括：

计算所述第一语音信号的时频谱与所述噪声估计的欧式距离；

基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱。

可选地，所述基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱，包括：

对所述欧式距离进行正则化处理，以得到大于0小于1的增益系数；

计算所述第一语音信号的时频谱和所述增益系数的乘积，以将所述乘积作为所述目标语音信号的时频谱。

可选地，在得到所述目标语音信号的时频谱后，所述音频处理方法还包括：

对所述目标语音信号的时频谱进行反傅里叶变换，得到所述目标语音信号的时域信号。

可选地，在得到所述目标语音信号的时域信号后，所述音频处理方法还包括：

对所述目标语音信号的时域信号进行语音识别。

第二方面，本申请实施例提供了一种音频处理装置，所述音频处理装置包括：

获取单元，用于获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号，所述获取单元将所述第一语音信号和所述第二语音信号发送给重构单元；

所述重构单元，用于利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，所述重构单元将所述噪声估计和所述第一语音信号的时频谱发送给处理单元；

所述处理单元，用于基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。

可选地，当所述第二语音信号中还包含所述目标语音信号，其中，所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值，所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时，所述重构单元的配置在用于利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：

分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；

根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵；

利用所述第三nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

可选地，所述重构单元的配置在用于根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵，包括：

根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵。

可选地，所述重构单元的配置在用于根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵，包括：

使用第三阈值，对所述第一nmf基矩阵中的各元素进行比较；

使用数字0，对所述第二nmf基矩阵中与所述候选位置相同的目标位置上的元素进行替换，以将替换后的所述第二nmf基矩阵作为所述第三nmf基矩阵。

可选地，所述重构单元的配置在用于利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：

分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；

对所述第二语音信号的时频谱进行nmf处理，得到所述第二语音信号对应的第二nmf基矩阵；

利用所述第二nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

可选地，所述处理单元的配置在用于基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱，包括：

基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱。

可选地，所述处理单元的配置在用于基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱，包括：

计算所述第一语音信号的时频谱与所述噪声估计的欧式距离；

基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱。

可选地，所述处理单元的配置在用于基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱，包括：

对所述欧式距离进行正则化处理，以得到大于0小于1的增益系数；

计算所述第一语音信号的时频谱和所述增益系数的乘积，以将所述乘积作为所述目标语音信号的时频谱。

可选地，所述处理单元还用于：

在得到所述目标语音信号的时频谱后，对所述目标语音信号的时频谱进行反傅里叶变换，得到所述目标语音信号的时域信号。

可选地，所述处理单元还用于：

在得到所述目标语音信号的时域信号后，对所述目标语音信号的时域信号进行语音识别。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第一方面中任一项所述的音频处理方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面中任一项所述的音频处理方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请实施例中，在获得第一语音信号和第二语音信号后，由于第一语音信号中包含目标语音信号和噪声信号，第二语音信号中包含噪声信号，因此可以通过第二语音信号得到噪声信号的特有信息，进而可以利用第二语音信号对第一语音信号的时频谱进行重构处理，得到第一语音信号的噪声估计，该噪声估计能够表征出第一语音信号中噪声信号的信号强度占比，从而可以利用该噪声估计消除第一语音信号中噪声信号对目标语音信号的干扰，以得到目标语音信号的时频谱，由于得到的目标语音信号的时频谱不再受噪声信号的干扰，或者说降低了噪声信号对目标语音信号的时频谱的干扰，因此得到的目标语音信号的时频谱相对比较纯净，从而在对目标语音信号的时频谱进行识别时，有利于提高目标语音的识别率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一提供的一种音频处理方法的流程示意图；

图2为本申请实施例一提供的另一种音频处理方法的流程示意图；

图3为本申请实施例一提供的另一种音频处理方法的流程示意图；

图4为本申请实施例一提供的另一种音频处理方法的流程示意图；

图5为本申请实施例一提供的另一种音频处理方法的流程示意图；

图6为本申请实施例一提供的另一种音频处理方法的流程示意图；

图7为本申请实施例二提供的一种音频处理装置的结构示意图；

图8为本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

需要提前说明的是，本申请实施例涉及到的装置或电子设备等可以执行在单个服务器上，也可以执行在服务器组。服务器组可以是集中式的，也可以是分布式的。在一些实施例中，服务器相对于终端，可以是本地的，也可以是远程的。在一些实施例中，服务器可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(communitycloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。

另外，本申请实施例涉及到的装置或电子设备还可以执行在移动设备、平板计算机、膝上型计算机或交通工具的内置设备等设备上，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能电器设备的控制设备、智能监控设备和智能电视等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能头盔、智能手表、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(personaldigitalassistant，pda)、游戏设备、导航设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、增强现实头盔等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。

值得注意的是，在本申请提出申请之前，由于目标声源受噪声声源的影响较大，在对目标声源和噪声声源混合在一起的混合声源进行语音识别时，目标声源的识别率较低。然而，本申请提供的音频处理方法可以提高目标语音的识别率，即可以提高目标声源的识别率。

实施例一

图1为本申请实施例一提供的一种音频处理方法的流程示意图，如图1所示，该音频处理方法包括以下步骤：

步骤101、获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号。

具体的，由于第一语音信号为目标语音信号和噪声信号的混音信号，第二语音信号中包含噪声信号，因此可以通过第二语音信号可以得到噪声信号的特有信息，以便将第一语音信号中的噪声信号消除掉。

需要说明的是，关于第一语音信号和第二语音信号的获取方式在此不做具体限定，例如，可以通过特定的语音采集方式获取到第一语音信号和第二语音信号，或者是，通过特定的语音处理方式从混合音频中得到第一语音信号和第二语音信号，关于第一语音信号和第二语音信号的获取方式在此不再详细说明。

步骤102、利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计。

具体的，由于能够根据第二语音信号得到噪声信号的特有信息，因此可以利用该特有信息对第一语音信号的时频谱进行重构处理，得到第一语音信号中噪声信号的信号强度占比(即：噪声估计)，以便为消除噪声信号提供消除依据。

需要说明的是，关于具体的重构方式可以根据实际需要进行设置，在此不做具体限定。

步骤103、基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。

具体的，在确定出第一语音信号的噪声估计后，可以确定出噪声信号在第一语音信号中的信号强度占比，因此可以实现对噪声信号的消除，从而得到目标语音信号的时频谱。

需要注意的是，关于利用噪声估计和第一语音信号的时频谱得到目标语音信号的时频谱的具体实现方式可以根据实际需要进行设定，在此不做具体限定。

在一个可行的实施方案中，图2为本申请实施例一提供的另一种音频处理方法的流程示意图，如图2所示，当所述第二语音信号中还包含所述目标语音信号，其中，所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值，所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时，在执行步骤102时，可以通过以下步骤实现：

步骤201、分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱。

步骤202、分别对所述第一语音信号的时频谱和所述第二语音信号的时频谱进行nmf(nonnegativematrixfactorization，非负矩阵分解)处理，得到所述第一语音信号对应的第一nmf基矩阵和所述第二语音信号对应的第二nmf基矩阵。

步骤203、根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵。

步骤204、利用所述第三nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

具体的，在第一语音信号和第二语音信号都包含目标语音信号和噪声信号，其中，第一语音信号中主要包括目标语音信号，第二语音信号中主要包括噪声信号时，为了得到噪声信号的特有信息，可以得到第一语音信号对应的第一nmf基矩阵和第二语音信号对应的第二nmf基矩阵，由于nmf基矩阵能够在频域上表征音频信号的统计学特征，且由于第一语音信号中主要包括目标语音信号，第二语音信号中主要包括噪声信号，因此可以利用两nmf基矩阵中相似的数据，得到噪声信号的噪声信号的第三nmf基矩阵，由于第三nmf基矩阵可以认为是纯净的噪声信号的nmf基矩阵，因此可以利用第三nmf基矩阵对第一语音信号的时频谱进行重构处理，得到所述噪声估计。

举例说明，图2所示方法中的第一语音信号和第二语音信号的得到方式可以是对包含有目标语音信号和噪声信号的混合音频进行盲源分离后得到的，由于盲源分离对点声源的分离效果很好，对扩散声源的分离效果很差，因此得到的两个音频信号中，一路音频信号基本只包括噪声信号(包含少量的目标语音信号)，另一路会包含一定量的噪声信号和大部分的目标语音信号，在经过盲源分离后得到的目标语音信号仍受到噪声信号的较大影响，因此可以对受噪声信号影响较大的混合音频作为本申请实施例中的第一语音信号，将基本只包括噪声信号的音频信号作为本申请实施例中的第二语音信号，需要说明的是，上述方式仅是本申请实施例提供的一种第一语音信号和第二语音信号的获取方式，但是并不对本申请实施例形成限定，关于第一语音信号和第二语音信号的获取方式在此不做具体限定。需要注意的是，关于第一阈值和第二阈值的大小可以根据实际需要进行设定，在此不做具体限定。

在一个可行的实施方案中，在执行步骤203时，可以根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵。

具体的，由于第一nmf基矩阵中主要表征的是目标语音信号，第二nmf基矩阵主要表征的噪声信号，因此可以利用第一nmf基矩阵的特性，筛选出第二nmf基矩阵中的目标语音信号对应的元素，然后将目标语音信号对应的元素从第二nmf基矩阵中消除掉，从而得到相对纯净的噪声信号的第三nmf基矩阵。

需要说明的是，第二nmf基矩阵中的目标语音信号对应的元素的消除方式可以根据实际需要进行设定，在此不做具体限定。

在一个可行的实施方案中，图3为本申请实施例一提供的另一种音频处理方法的流程示意图，如图3所示，在根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵时，可以通过以下步骤实现：

步骤301、使用第三阈值，对所述第一nmf基矩阵中的各元素进行比较。

步骤302、根据比较结果，确定所述第一nmf基矩阵中大于或者等于所述第三阈值的元素所在的候选位置，以将所述候选位置作为所述目标语音信号对应的元素在所述第一nmf基矩阵中的位置。

步骤303、使用数字0，对所述第二nmf基矩阵中与所述候选位置相同的目标位置上的元素进行替换，以将替换后的所述第二nmf基矩阵作为所述第三nmf基矩阵。

具体的，由于第一语音信号中包含目标语音信号和噪声信号，并且目标语音信号主要的信号，因此在得到第一nmf基矩阵后，在第一nmf基矩阵中，目标语音信号对元素的值会高于噪声信号对应的元素，因此引入第三阈值，并将第一nmf基矩阵中大于或者等于第三阈值的元素作为目标语音信号对应的元素，小于第三阈值的元素作为噪声信号对应的元素，从而可以确定出目标语音信号对应的元素在第一nmf基矩阵中的位置，由于第一nmf基矩阵和第二nmf基矩阵中的目标语音信号所在的位置可以认为是相同的，因此在确定出第一nmf基矩阵中目标语音信号对应的元素的位置后，可以将第二基矩阵中相同位置上的元素替换为0，从而得到相对纯净的噪声信号的第三nmf基矩阵。

举例说明，在对第一语音信号的时频谱和所述第二语音信号的时频谱进行nmf处理后，可以得到两个体量相等的nmf基矩阵，例如，第一nmf基矩阵和第二nmf基矩阵都为3*3的矩阵，当第一nmf基矩阵中第一行第三列的元素和第二行第二列的元素都小于第三阈值时，可以将第二nmf基矩阵中第一行第三列的元素和第二行第二列的元素都替换为0，然后将替换后的第二nmf基矩阵作为第三nmf基矩阵。

需要说明的是，以上示例仅是对本申请实施例的实现原理进行说明，并不对本申请实施例形成限定，关于第三阈值的具体数值可以根据实际需要进行设定，在此不做具体限定。

在一个可行的实施方案中，图4为本申请实施例一提供的另一种音频处理方法的流程示意图，如图4所示，在执行步骤102时，还可以通过以下步骤实现：

步骤401、分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱。

步骤402、对所述第二语音信号的时频谱进行nmf处理，得到所述第二语音信号对应的第二nmf基矩阵。

步骤403、利用所述第二nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

具体的，当第二语音信号为纯净的噪声信号时，得到的第二语音信号对应的第二nmf基矩阵能够表征噪声信号的统计学特征，从而可以直接利用第二nmf基矩阵对第一语音信号的时频谱进行重构处理，进而得到噪声估计。

需要注意的是，关于具体的重构方式可以根据实际需要进行设定，但是所有通过重构处理得到第一语音信号的噪声估计的方式均属于本申请实施例的保护范围。

在一个可行的实施方案中，在得到第一语音信号的噪声估计后，在基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱时，可以基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱。

具体的，在得到噪声估计后，可以确定出第一语音信号的时频谱中噪声信号的信号强度占比，因此可以利用噪声估计将第一语音信号中的噪声信号消除掉，从而得到目标语音信号的时频谱。

在一个可行的实施方案中，图5为本申请实施例一提供的另一种音频处理方法的流程示意图，如图5所示，在执行基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱的步骤时，可以通过以下步骤实现：

步骤501、计算所述第一语音信号的时频谱与所述噪声估计的欧式距离。

步骤502、基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱。

具体的，第一语音信号的时频谱和噪声估计的欧式距离能够表示第一语音信号的时频谱中每个时频点上的目标语音信号的时频幅度谱成分的多少，欧式距离越大表示该时频点上的目标语音信号的时频幅度谱成分越多，反之亦然，因此在得到欧式距离之后，可以确定出第一语音信号的时频谱中各个时频点上的目标语音的时频幅度谱成分的多少，并基于欧式距离对第一语音信号的时频谱进行增益计算后，可以得到目标语音信号的时频谱。

在一个可行的实施方案中，图6为本申请实施例一提供的另一种音频处理方法的流程示意图，如图6所示，在执行步骤502时，可以通过以下步骤实现：

步骤601、对所述欧式距离进行正则化处理，以得到大于0小于1的增益系数。

步骤602、计算所述第一语音信号的时频谱和所述增益系数的乘积，以将所述乘积作为所述目标语音信号的时频谱。

具体的，欧式距离能够表示某一时频点上的目标语音信号的时频幅度谱成分的多少，为了确定出该时频点上的目标语音信号的时频幅度谱所占的比例，需要对欧式距离进行正则化处理，以得到大于0小于1的增益系数，该增益系数能够表示该时频点上的目标语音信号的时频幅度谱所占的比例，在得到增益系数之后，对第一语音信号的时频谱和增益系数进行乘积运算，从而得到目标语音信号的时频谱。

在一个可行的实施方案中，在得到目标语音信号的时频谱后，可以对所述目标语音信号的时频谱进行反傅里叶变换，得到所述目标语音信号的时域信号。

具体的，在得到目标语音信号的时域信号之后，可以通过时域信号对目标语音信号进行分析或处理。

在一个可行的实施方案中，在得到目标语音信号的时域信号之后，可以对所述目标语音信号的时域信号进行语音识别。

具体的，由于目标语音信号的时域信号基本不再受噪声信号的干扰，因此在对目标语音信号的时域信号进行语音识别时，能够得到识别率较高的识别结果。

实施例二

图7为本申请实施例二提供的一种音频处理装置的结构示意图，如图7所示，该音频处理装置包括：

获取单元71，用于获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号，所述获取单元将所述第一语音信号和所述第二语音信号发送给重构单元；

所述重构单元72，用于利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，所述重构单元将所述噪声估计和所述第一语音信号的时频谱发送给处理单元；

所述处理单元73，用于基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。

在一个可行的实施方案中，当所述第二语音信号中还包含所述目标语音信号，其中，所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值，所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时，所述重构单元72的配置在用于利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：

分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；

根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵；

利用所述第三nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

在一个可行的实施方案中，所述重构单元72的配置在用于根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵，包括：

根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵。

在一个可行的实施方案中，所述重构单元72的配置在用于根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵，包括：

使用第三阈值，对所述第一nmf基矩阵中的各元素进行比较；

使用数字0，对所述第二nmf基矩阵中与所述候选位置相同的目标位置上的元素进行替换，以将替换后的所述第二nmf基矩阵作为所述第三nmf基矩阵。

在一个可行的实施方案中，所述重构单元72的配置在用于利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：

分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；

对所述第二语音信号的时频谱进行nmf处理，得到所述第二语音信号对应的第二nmf基矩阵；

利用所述第二nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

在一个可行的实施方案中，所述处理单元73的配置在用于基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱，包括：

基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱。

在一个可行的实施方案中，所述处理单元73的配置在用于基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱，包括：

计算所述第一语音信号的时频谱与所述噪声估计的欧式距离；

基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱。

在一个可行的实施方案中，所述处理单元73的配置在用于基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱，包括：

对所述欧式距离进行正则化处理，以得到大于0小于1的增益系数；

计算所述第一语音信号的时频谱和所述增益系数的乘积，以将所述乘积作为所述目标语音信号的时频谱。

在一个可行的实施方案中，所述处理单元73还用于：

在得到所述目标语音信号的时频谱后，对所述目标语音信号的时频谱进行反傅里叶变换，得到所述目标语音信号的时域信号。

在一个可行的实施方案中，所述处理单元73还用于：

在得到所述目标语音信号的时域信号后，对所述目标语音信号的时域信号进行语音识别。

关于上述单元的详细介绍可参考实施例一的相关说明，在此不再详细赘述。

实施例三

图8为本申请实施例三提供的一种电子设备的结构示意图，包括：处理器801、存储介质802和总线803，所述存储介质802包括如图7所示的装置，所述存储介质802存储有所述处理器801可执行的机器可读指令，当电子设备运行上述的定位方法时，所述处理器801与所述存储介质802之间通过总线803通信，所述处理器801执行所述机器可读指令，以执行以下步骤：

获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号；

利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计；

基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。

在一个可行的实施方案中，当所述第二语音信号中还包含所述目标语音信号，其中，所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值，所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时，所述处理器801执行利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计的执行所述机器可读指令时，包括：

分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；

根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵；

利用所述第三nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

在一个可行的实施方案中，所述处理器801执行根据所述第一nmf基矩阵和所述第二nmf基矩阵，得到所述噪声信号的第三nmf基矩阵的所述机器可读指令时，包括：

根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵。

在一个可行的实施方案中，所述处理器801执行根据所述第一nmf基矩阵，将所述第二nmf基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三nmf基矩阵的所述机器可读指令时，包括：

使用第三阈值，对所述第一nmf基矩阵中的各元素进行比较；

使用数字0，对所述第二nmf基矩阵中与所述候选位置相同的目标位置上的元素进行替换，以将替换后的所述第二nmf基矩阵作为所述第三nmf基矩阵。

在一个可行的实施方案中，所述处理器801执行利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计的所述机器可读指令时，包括：

分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；

对所述第二语音信号的时频谱进行nmf处理，得到所述第二语音信号对应的第二nmf基矩阵；

利用所述第二nmf基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

在一个可行的实施方案中，所述处理器801执行基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱的所述机器可读指令时，包括：

基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱。

在一个可行的实施方案中，所述处理器801执行基于所述噪声估计，去除所述第一语音信号的时频谱中的所述噪声信号，以得到所述目标语音信号的时频谱的所述机器可读指令时，包括：

计算所述第一语音信号的时频谱与所述噪声估计的欧式距离；

基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱。

在一个可行的实施方案中，所述处理器801执行基于所述欧式距离，对所述第一语音信号的时频谱进行增益计算，以得到所述目标语音信号的时频谱的所述机器可读指令时，包括：

对所述欧式距离进行正则化处理，以得到大于0小于1的增益系数；

计算所述第一语音信号的时频谱和所述增益系数的乘积，以将所述乘积作为所述目标语音信号的时频谱。

在一个可行的实施方案中，在得到所述目标语音信号的时频谱后，所述处理器801执行对所述目标语音信号的时频谱进行反傅里叶变换，得到所述目标语音信号的时域信号的所述机器可读指令。

在一个可行的实施方案中，在得到所述目标语音信号的时域信号后，所述处理器801执行对所述目标语音信号的时域信号进行语音识别的所述机器可读指令。

关于具体执行的方法步骤和原理参见实施例一的说明，在此不再详细赘述。

实施例四

本申请实施例四还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以下步骤：

获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号；

利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计；

基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。

在本申请实施例中，该计算机程序被处理器运行时还可以执行其它机器可读指令，以执行如实施例一中其它所述的方法，关于具体执行的方法步骤和原理参见实施例一的说明，在此不再详细赘述。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述音频处理方法，从而降低噪声信号对目标语音信号的干扰，进而提高目标语音信号的识别率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。