HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

音频处理网络的训练及立体声重构方法和装置与流程

2021-01-28 16:01:20|357|起点商标网
音频处理网络的训练及立体声重构方法和装置与流程

本公开涉及音频处理技术领域,尤其涉及一种音频处理网络的训练及立体声重构方法和装置。



背景技术:

立体声重构是指将给定单通道音频恢复成多通道的立体声音频,使音频具有立体感。传统的立体声重构方式通常是用采集到的立体声样本训练一个神经网络,再把需要重构的音频输入神经网络,得到重构的立体声。但是,采集立体声样本需要使用专业的设备,导致成本较高,且用来训练神经网络的训练数据比较少,神经网络容易过拟合,从而使立体声重构的准确性较低。



技术实现要素:

本公开提供一种音频处理网络的训练及立体声重构方法和装置。

根据本公开实施例的第一方面,提供一种音频处理网络的训练方法,所述方法包括:获取训练场景的单通道音频样本和所述训练场景的混合音频样本;基于所述单通道音频样本对所述音频处理网络进行第一训练,以使所述音频处理网络执行立体声重构任务;基于所述混合音频样本对所述音频处理网络进行第二训练,以使所述音频处理网络执行声源分离任务;基于所述第一训练和第二训练,确定所述音频处理网络。

在一些实施例中,所述音频处理网络包括第一子网络和第二子网络;所述第一子网络用于根据所述训练场景的特征图对所述单通道音频样本进行处理,得到至少一个第一中间处理结果,并将所述至少一个第一中间处理结果输出至所述第二子网络;所述第二子网络用于根据所述训练场景的特征图和所述至少一个第一中间处理结果,对所述单通道音频样本进行立体声重构。

在一些实施例中,所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:将所述单通道音频样本输入所述第一子网络,获取所述第一子网络输出的至少一个第一中间处理结果;将所述训练场景的特征图和所述至少一个第一中间处理结果输入所述第二子网络,对所述第二子网络进行第一训练。

在一些实施例中,所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:将所述单通道音频样本和所述训练场景的特征图输入所述第一子网络,对所述第一子网络进行第一训练。

在一些实施例中,所述第一子网络和所述第二子网络均包括多个层;所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:将所述训练场景的特征图和所述单通道音频样本输入所述第一子网络进行处理,得到所述第一子网络的第m层的第一中间处理结果;将所述第一子网络的第m层的第一中间处理结果作为所述第二子网络的第m层的输入,以对所述第二子网络进行第一训练,1≤m<n,n为第一子网络的层数。

在一些实施例中,所述音频处理网络包括第一子网络和第二子网络,所述场景中的声源的数量为多个;所述第一子网络用于根据所述训练场景中的多个声源的特征图对所述混合音频样本进行处理,得到至少一个第二中间处理结果,并将所述至少一个第二中间处理结果输出至所述第二子网络;所述第二子网络用于根据所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果,对所述混合音频样本进行声源分离。

在一些实施例中,所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:将所述混合音频样本输入所述第一子网络,获取所述第一子网络输出的至少一个第二中间处理结果;将所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果输入所述第二子网络,对所述第二子网络进行第二训练。

在一些实施例中,所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:将所述混合音频样本和所述训练场景中的多个声源的特征图输入所述第一子网络,对所述第一子网络进行第二训练。

在一些实施例中,所述方法还包括:获取所述训练场景中各个声源的图像;分别对所述训练场景中各个声源的图像进行特征提取,得到所述训练场景中各个声源的特征;将所述训练场景中各个声源的特征映射到空白的特征图上,得到所述训练场景中各个声源的特征图,所述训练场景中各个声源中任意两个声源的特征在所述空白的特征图上的距离大于预设的距离阈值。

在一些实施例中,所述第一子网络和所述第二子网络均包括多个层;所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:将所述训练场景中各个声源的特征图和所述混合音频样本输入所述第一子网络进行处理,得到所述第一子网络的第n层的第二中间处理结果;将所述第一子网络的第n层的第二中间处理结果作为所述第二子网络的第n层的输入,以对所述第二子网络进行第二训练,1≤n<n,n为第一子网络的层数。

在一些实施例中,所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:基于所述单通道音频样本对所述音频处理网络进行第一训练,以确定所述单通道音频样本在各个目标通道上的音频的第一掩膜;分别根据第k个目标通道对应的第一掩膜确定所述第k个目标通道的第一音频频谱,k为正整数;基于各个目标通道的第一音频频谱确定第一损失函数,并在所述第一损失函数满足预设的第一条件的情况下,停止所述第一训练。

在一些实施例中,所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:基于所述混合音频样本对所述音频处理网络进行第二训练,以确定所述混合音频样本在各个目标通道上的音频的第二掩膜;分别根据第q个目标通道对应的第二掩膜确定所述第q个目标通道的第二音频频谱,q为正整数;基于各个目标通道的第二音频频谱确定第二损失函数,并在所述第二损失函数满足预设的第二条件的情况下,停止所述第二训练。

在一些实施例中,所述单通道音频样本的幅值为多个目标通道的音频样本的幅值的平均值,所述多个目标通道为基于所述单通道音频样本重构得到的立体声音频所包括的通道;所述混合音频样本的幅值为所述混合音频样本中包括的各个声源的音频样本的幅值的平均值。所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:

在一些实施例中,所述基于所述单通道音频样本对所述音频处理网络进行第一训练,包括:基于所述单通道音频样本和所述训练场景的特征图,对所述音频处理网络进行第一训练;和/或所述基于所述混合音频样本对所述音频处理网络进行第二训练,包括:基于所述混合音频样本和所述训练场景中各个声源的特征图,对所述音频处理网络进行第二训练。

根据本公开实施例的第二方面,提供一种立体声重构方法,所述方法包括:获取目标场景的特征图和所述目标场景的单通道音频;将所述目标场景的单通道音频和所述目标场景的特征图输入音频处理网络,以使所述音频处理网络根据所述目标场景的特征图对所述目标场景的单通道音频进行立体声重构;其中,所述音频处理网络基于任一实施例所述的音频处理网络的训练方法训练得到。

根据本公开实施例的第三方面,提供一种音频处理网络的训练装置,所述装置包括:第一获取模块,用于获取训练场景的单通道音频样本和所述训练场景的混合音频样本;第一训练模块,用于基于所述单通道音频样本对所述音频处理网络进行第一训练,以使所述音频处理网络执行立体声重构任务;第二训练模块,用于基于所述混合音频样本对所述音频处理网络进行第二训练,以使所述音频处理网络执行声源分离任务;确定模块,用于基于所述第一训练和第二训练,确定所述音频处理网络。

在一些实施例中,所述音频处理网络包括第一子网络和第二子网络;所述第一子网络用于根据所述训练场景的特征图对所述单通道音频样本进行处理,得到至少一个第一中间处理结果,并将所述至少一个第一中间处理结果输出至所述第二子网络;所述第二子网络用于根据所述训练场景的特征图和所述至少一个第一中间处理结果,对所述单通道音频样本进行立体声重构。

在一些实施例中,所述第一训练模块包括:第一输入单元,用于将所述单通道音频样本输入所述第一子网络,获取所述第一子网络输出的至少一个第一中间处理结果;第二输入单元,用于将所述训练场景的特征图和所述至少一个第一中间处理结果输入所述第二子网络,对所述第二子网络进行第一训练。

在一些实施例中,所述第一训练模块包括:第三输入单元,用于将所述单通道音频样本和所述训练场景的特征图输入所述第一子网络,对所述第一子网络进行第一训练。

在一些实施例中,所述第一子网络和所述第二子网络均包括多个层;所述第一训练模块包括:第四输入单元,用于将所述训练场景的特征图和所述单通道音频样本输入所述第一子网络进行处理,得到所述第一子网络的第m层的第一中间处理结果;第一训练单元,用于将所述第一子网络的第m层的第一中间处理结果作为所述第二子网络的第m层的输入,以对所述第二子网络进行第一训练,1≤m<n,n为第一子网络的层数。

在一些实施例中,所述音频处理网络包括第一子网络和第二子网络,所述场景中的声源的数量为多个;所述第一子网络用于根据所述训练场景中的多个声源的特征图对所述混合音频样本进行处理,得到至少一个第二中间处理结果,并将所述至少一个第二中间处理结果输出至所述第二子网络;所述第二子网络用于根据所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果,对所述混合音频样本进行声源分离。

在一些实施例中,所述第二训练模块包括:第五输入单元,用于将所述混合音频样本输入所述第一子网络,获取所述第一子网络输出的至少一个第二中间处理结果;第六输入单元,用于将所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果输入所述第二子网络,对所述第二子网络进行第二训练。

在一些实施例中,所述第二训练模块包括:第七输入单元,用于将所述混合音频样本和所述训练场景中的多个声源的特征图输入所述第一子网络,对所述第一子网络进行第二训练。

在一些实施例中,所述装置还包括:第二获取模块,用于获取所述训练场景中各个声源的图像;特征提取模块,用于分别对所述训练场景中各个声源的图像进行特征提取,得到所述训练场景中各个声源的特征;映射模块,用于将所述训练场景中各个声源的特征映射到空白的特征图上,得到所述训练场景中各个声源的特征图,所述训练场景中各个声源中任意两个声源的特征在所述空白的特征图上的距离大于预设的距离阈值。

在一些实施例中,所述第一子网络和所述第二子网络均包括多个层;所述第二训练模块包括:处理单元,用于将所述训练场景中各个声源的特征图和所述混合音频样本输入所述第一子网络进行处理,得到所述第一子网络的第n层的第二中间处理结果;第八输入单元,用于将所述第一子网络的第n层的第二中间处理结果作为所述第二子网络的第n层的输入,以对所述第二子网络进行第二训练,1≤n<n,n为第一子网络的层数。

在一些实施例中,所述第一训练模块包括:第一确定单元,用于基于所述单通道音频样本对所述音频处理网络进行第一训练,以确定所述单通道音频样本在各个目标通道上的音频的第一掩膜;第二确定单元,用于分别根据第k个目标通道对应的第一掩膜确定所述第k个目标通道的第一音频频谱,k为正整数;第三确定单元,用于基于各个目标通道的第一音频频谱确定第一损失函数,并在所述第一损失函数满足预设的第一条件的情况下,停止所述第一训练。

在一些实施例中,所述第二训练模块包括:第四确定单元,用于基于所述混合音频样本对所述音频处理网络进行第二训练,以确定所述混合音频样本在各个目标通道上的音频的第二掩膜;第五确定单元,用于分别根据第q个目标通道对应的第二掩膜确定所述第q个目标通道的第二音频频谱,q为正整数;第六确定单元,用于基于各个目标通道的第二音频频谱确定第二损失函数,并在所述第二损失函数满足预设的第二条件的情况下,停止所述第二训练。

在一些实施例中,所述单通道音频样本的幅值为多个目标通道的音频样本的幅值的平均值,所述多个目标通道为基于所述单通道音频样本重构得到的立体声音频所包括的通道;所述混合音频样本的幅值为所述混合音频样本中包括的各个声源的音频样本的幅值的平均值。

在一些实施例中,所述第一训练模块用于:基于所述单通道音频样本和所述训练场景的特征图,对所述音频处理网络进行第一训练;和/或所述第二训练模块用于:基于所述混合音频样本和所述训练场景中各个声源的特征图,对所述音频处理网络进行第二训练。

根据本公开实施例的第四方面,提供一种立体声重构装置,所述装置包括:第二获取模块,用于获取目标场景的特征图和所述目标场景的单通道音频;输入模块,用于将所述目标场景的单通道音频和所述目标场景的特征图输入音频处理网络,以使所述音频处理网络根据所述目标场景的特征图对所述目标场景的单通道音频进行立体声重构;其中,所述音频处理网络基于任一实施例所述的音频处理网络的训练装置训练得到。

根据本公开实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第六方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。

本公开实施例采用单通道音频样本以及音频分离任务中所使用的混合音频样本共同训练音频处理网络,一方面,训练过程中采用的训练样本为单通道音频,无需通过专门的设备来采集立体声样本,降低了立体声重构的成本;另一方面,通过将音频分离任务中所使用的混合音频样本加入到立体声重构任务的训练样本中,增加了样本数量,从而减轻了训练出的音频处理网络的过拟合,提高了立体声重构的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。

图1是传统的立体声音频的采集过程示意图。

图2是本公开实施例的音频处理网络的训练方法的流程图。

图3是本公开实施例的音频处理网络的示意图。

图4a至4c是本公开实施例的音频处理网络的结构和原理的示意图。

图5是本公开实施例的立体声重构方法的流程图。

图6是本公开实施例的音频处理网络的训练装置的框图。

图7是本公开实施例的立体声重构装置的框图。

图8是本公开实施例的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案,并使本公开实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

立体声音频是指具有立体感的音频,立体声音频能够使用户感知到声源的空间信息(例如,位置信息和深度信息),从而增强用户的听觉体验。当用户观看视频时,获取与视频中声源位置信息相符合的立体声效果能够提高用户的观看体验。但是,对于便携式设备来说,录制立体声音频是很不方便的。通常,手机和相机等便携式设备只有单声道或线阵麦克风,无法录制真正的立体声音频。为了获取真正的立体声音频,需要使用虚拟头部录音系统(dummyheadrecording)或双耳麦克风(binauralmicrophone)来创造人类真正感知到的真实的三维音频感觉。如图1所示,场景中包括钢琴和大提琴两个声源,则可通过虚拟头部录音系统或者双耳麦克风获取立体声音频,从该立体声音频中可以感知钢琴和大提琴两个声源的位置和深度。然而,由于设备的成本和重量等方面的限制,采集到的立体声音频是有限的。因此,有必要对单通道音频进行立体声重构,以将单通道音频恢复成立体声音频。

传统的立体声重构方式通常是用采集到的立体声样本训练一个神经网络,再把需要重构的音频输入神经网络,得到重构的立体声。但是,采集立体声样本需要使用专业的设备,导致成本较高,且用来训练神经网络的训练数据比较少,神经网络容易过拟合,从而使立体声重构的准确性较低。

基于此,本公开实施例提供一种音频处理网络的训练方法,如图2所示,所述方法包括:

步骤201:获取训练场景的单通道音频样本和所述训练场景的混合音频样本;

步骤202:基于所述单通道音频样本对所述音频处理网络进行第一训练,以使所述音频处理网络执行立体声重构任务;

步骤203:基于所述混合音频样本对所述音频处理网络进行第二训练,以使所述音频处理网络执行声源分离任务;

步骤204:基于所述第一训练和第二训练,确定所述音频处理网络。

应当说明的是,考虑到上述步骤202与步骤203在执行时机上不存在先后顺序的限制,因此,步骤202可以在步骤203之前执行,也可以在步骤203之后执行,此外,步骤202与步骤203还可以并行执行。在本公开中,对于步骤202、步骤203的执行时机不予限定,可以包括但不限于上述例举的情况。

本公开实施例通过采用单通道音频样本和混合音频样本共同训练所述音频处理网络,一方面,训练过程中采用的训练样本为单通道音频,无需通过专门的设备来采集立体声样本,降低了立体声重构的成本;另一方面,通过将音频分离任务中所使用的混合音频样本加入到立体声重构任务的训练样本中,增加了样本数量,从而减轻了训练出的音频处理网络的过拟合,提高了音频处理网络的泛化性,从而提高了立体声重构的准确性。

本公开实施例中的立体声音频样本可以包括两个或两个以上的目标通道,可选地,所述立体声音频样本可以是双耳音频,即所述立体声音频样本包括左声道和右声道,每个声道即为一个目标通道。可选地,所述目标通道也可以是立体声音频样本包括的其他类型的多个通道。本公开实施例中的训练场景可以是电影院场景、音乐会场景等,所述训练场景中可包括至少一个声源。所述声源可以输出音频信号,根据人的两只耳朵接收到的音频信号的时间和信号强度,人类可以感知到立体声效果。为了便于描述,下文均以对单通道音频样本进行立体声重构以恢复双耳音频,且场景中的声源数量是2为例,对本公开实施例的技术方案进行说明。本领域技术人员可以理解,本公开实施例的方案不限于此,例如,声源数量可以是1或者大于2,又例如,目标通道的数量可以大于2。

在步骤201中,立体声音频样本中每个通道可能同时包括多个声源的音频,例如,在图1所示的场景中,左声道既包括钢琴的音频,又包括大提琴的音频;右声道既包括钢琴的音频,又包括大提琴的音频。不同音频在不同声道的播放时间和响度中的至少一者不同,从而使得双耳可以区分不同声源的位置和深度。

在传统方式中,用于进行立体声重构的音频处理网络一般是基于立体声音频样本训练得到的。而本公开实施例中的音频处理网络则是基于单通道音频样本和混合音频样本获取的,所述单通道音频样本和混合音频样本都是通过单个通道采集的音频样本。为了便于处理,可以假设所述单通道音频样本的幅值为多个目标通道的音频样本的幅值的平均值,所述多个目标通道为基于所述单通道音频样本重构得到的立体声音频所包括的通道。以所述多个目标通道包括左声道和右声道为例,假设左声道和右声道上的时域音频样本分别为al和ar,则时域的单通道音频样本amono可记为:

amono=(al+ar)/2。

对所述时域的单通道音频样本amono进行短时傅立叶变换,得到频域的单通道音频样本smono。所述频域的单通道音频样本smono可用于进行立体声重构。为了便于描述,下文中的单通道音频样本均指所述频域的单通道音频样本smono。值得注意的是,当多个通道的音频被平均以后,将丢失所有的空间信息。

所述左声道和右声道上均可包括多个声源的音频。为了便于处理,可以假设所述混合音频样本的幅值为所述混合音频样本中包括的各个声源的音频样本的幅值的平均值。以两个声源为例,假设声源分别为a和b,令声源a和声源b的时域音频样本分别为aa和ab,则时域的混合音频样本amix可记为:

amix=(aa+ab)/2。

对所述时域的混合音频样本amix进行短时傅立叶变换,得到频域的混合音频样本smix。所述频域的混合音频样本smix可用于进行声源分离。为了便于描述,下文中的混合音频样本均指所述频域的混合音频样本smix。

本公开实施例获取的单通道音频样本和混合音频样本均为单个通道上的音频样本,换言之,本公开实施例的音频处理网络可以通过单个通道上的音频样本进行训练,无需专业的立体声音频采集设备对立体声音频样本进行采样,降低了处理成本,同时增加了可获取到的训练数据的数量,降低了训练出的音频处理网络的过拟合程度。

值得注意的是,音频分离与立体声重构是两个完全不同的任务,二者本质上是不同的。例如,音频分离与立体声重构的目标不同,立体声重构的目标是根据单通道音频恢复出立体声音频,立体声音频中的每个通道的音频都可以包括多个声源的音频信号,而音频分离的目标是将不同声源的音频信号分离开来。正是由于存在上述区别,因此,传统的立体声重构方式没有考虑到将二者结合起来,并采用音频分离的训练数据来对用于进行立体声重构的音频处理网络进行训练。然而,音频分离与立体声重构又有着类似之处,即,二者都试图将场景中的显著图像位置与特定的声源联系起来,并且都以单通道的音频作为输入,并试图将输入的音频分成多个部分。因此,本公开开创性地将音频分离与立体声重构结合起来。

为解决音频分离与立体声重构的目标不同这一技术问题,本公开提出,将音频分离视为立体声重构的极端情况,即,两个声源的音频信号分别位于双耳的左右两侧,且两个声源相隔较远。例如,两个声源只在人类视线的边缘可见,从而将声源分离任务视为视野中最左和最右部分有声源的左右声道的立体声重构任务。在这种情况下,在左声道上获取到的右侧声源的音频可以忽略不计,在右声道上获取到的左侧声源的音频也可以忽略不计。这样,在进行立体声重构时,每个通道上只包括一个声源的音频信号,从而使立体声重构的目标与音频分离的目标保持一致。这样,就可以对音频分离和立体声重构进行联合处理。

并且,训练出的音频处理网络既能够处理立体声重构任务,又能够处理音频分离任务。也就是说,本公开实现了通过一个网络框架处理立体声重构和音频分离两种任务。

在步骤202中,可以基于所述单通道音频样本和所述训练场景的特征图,对所述音频处理网络进行第一训练。其中,可以通过获取训练场景图像,对所述训练场景图像进行特征提取,从而得到所述训练场景的特征图。其中,所述训练场景图像可以是一张或多张照片,也可以是训练场景视频中的一帧或多帧图像帧。所述特征提取可以通过神经网络(例如,resnet18)实现,也可以通过其他方式实现,本公开对此不做限制。

在一些实施例中,所述音频处理网络包括第一子网络和第二子网络。其中,所述第一子网络(例如,unet神经网络)用于根据所述训练场景的特征图对所述单通道音频样本进行处理,得到至少一个第一中间处理结果,并将所述至少一个第一中间处理结果输出至所述第二子网络,对所述第二子网络进行第一训练。所述对所述单通道音频样本进行处理可包括对所述单通道音频样本进行去卷积处理(deconvolution),得到第一中间处理结果。通过去卷积处理,可以增加特征图的尺寸,从而对输入特征进行由粗到细的精调。

进一步地,为了提高训练效果,在训练过程中,还可以将所述多个目标通道中每个目标通道的音频频谱作为所述第二子网络的第一标签。所述第二子网络用于根据所述训练场景的特征图和所述至少一个第一中间处理结果,对所述单通道音频样本进行立体声重构。

在一些实施例中,还可以将所述单通道音频样本和所述训练场景的特征图输入所述第一子网络,对所述第一子网络进行第一训练。进一步地,为了提高训练效果,在训练过程中,还可以将所述多个目标通道中每两个目标通道的音频频谱差作为所述第一子网络的第二标签。

通过采用两个子网络,其中,第一子网络对音频特征进行处理,第二子网络对视觉特征进行处理,从而使得训练出的音频处理网络能够利用视觉信息辅助进行立体声重构,提高了通过所述音频处理网络进行立体声重构的准确性。

在一些实施例中,所述第一子网络可包括多个层,每一层对应一个第一中间处理结果,该第一中间处理结果作为所述第一子网络中下一层的输入。例如,第x层的输入与所述训练场景的特征图进行卷积处理,得到第x层的第一中间处理结果,所述第x层的第一中间处理结果作为所述第一子网络第x+1层的输入,x为正整数。

进一步地,所述第一子网络和所述第二子网络均可以包括多层。可以将所述训练场景的特征图和所述单通道音频样本输入所述第一子网络进行处理,得到所述第一子网络的第m层的第一中间处理结果;将所述第一子网络的第m层的第一中间处理结果作为所述第二子网络的第m层的输入,以对所述第二子网络进行第一训练,1≤m<n,n为第一子网络的层数。

根据所述第二子网络最后一层的输出结果可以确定所述单通道音频样本在各个目标通道上的音频频谱的预测结果,根据各个目标通道上的音频频谱的预测结果与对应目标通道上的音频频谱的真实结果从而对所述第二子网络进行第一训练。

通过采用多层网络结构,且第一子网络和/或第二子网络中每层网络的输入特征基于上一层的输入特征的中间处理结果得到,从而构成从小到大的金字塔形网络结构,网络的每一层对输入特征进行由粗到细的精调,提高了处理准确性。

在步骤203中,可以基于所述混合音频样本和所述训练场景中各个声源的特征图,对所述音频处理网络进行第二训练。所述训练场景中各个声源的特征图可以是一张特征图,其中包括所述训练场景中各个声源的特征。可以分别获取所述训练场景中各个声源的图像(称为局部图像),每个局部图像中包括一个声源,分别对各个局部图像进行特征提取,以得到对应声源的特征。将所述训练场景中各个声源的特征映射到空白的特征图上,得到所述训练场景中各个声源的特征图,所述训练场景中各个声源中任意两个声源的特征在所述空白的特征图上的距离大于预设的距离阈值。通过将不同声源的特征映射到空白特征图上距离较远的位置,能够使得声源分离任务的任务目标与立体声重构任务的任务目标相同,以便将音频分离任务转化为立体声重构任务,从而便于通过一个网络框架同时对音频分离和立体声重构两种任务进行处理。在一些实施例中,所述音频处理网络包括第一子网络和第二子网络,所述场景中的声源的数量为多个。所述第一子网络用于根据所述训练场景中的多个声源的特征图对所述混合音频进行处理,得到至少一个第二中间处理结果,并将所述至少一个第二中间处理结果输出至所述第二子网络,对所述第二子网络进行第二训练。所述对所述混合音频进行处理,可包括对所述混合音频进行去卷积处理,例如,所述第一子网络可以根据所述场景中各个声源的特征图对所述混合音频进行去卷积处理,得到第二中间处理结果。

进一步地,为了提高训练效果,在训练过程中,还可以将所述训练场景中的多个声源的音频频谱作为所述第二子网络的第三标签。所述第二子网络用于根据所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果,对所述混合音频进行声源分离。

在一些实施例中,还可以将所述混合音频样本和所述训练场景中的多个声源的特征图输入所述第一子网络,对所述第一子网络进行第二训练。进一步地,为了提高训练效果,在训练过程中,还可以将所述训练场景中的多个声源中每两个声源的音频频谱差作为所述第一子网络的第四标签。

通过采用两个子网络,其中,第一子网络对音频特征进行处理,第二子网络对视觉特征进行处理,从而能够利用视觉信息辅助进行声源分离,提高了声源分离的准确性。

在一些实施例中,所述第一子网络可包括多个层,每一层对应一个第二中间处理结果,该第二中间处理结果作为所述第一子网络中下一层的输入。例如,第y层的输入与所述训练场景中各个声源的特征图进行卷积处理,得到第y层的第二中间处理结果,所述第y层的第二中间处理结果作为所述第一子网络第y+1层的输入,y为正整数。

进一步地,所述第一子网络和所述第二子网络均可以包括多层。可以将所述训练场景中各个声源的特征图和所述混合音频样本输入所述第一子网络进行处理,得到所述第一子网络的第n层的第二中间处理结果;将所述第一子网络的第n层的第二中间处理结果作为所述第二子网络的第n层的输入,以对所述第二子网络进行第二训练,1≤n<n,n为第一子网络的层数。

根据所述第二子网络最后一层的输出结果可以确定所述训练场景中各个声源的音频频谱的第二预测结果,根据所述训练场景中各个声源的音频频谱的第二预测结果与对应目标通道上的音频频谱的真实结果从而对所述第二子网络进行第二训练。

如图3所示,是本公开实施例的音频处理网络的具体结构示意图。需要说明的是,尽管图中示出了两个第二子网络,但是,这两个第二子网络实质上是同一个子网络(即,音频处理网络中包括一个第一子网络和一个第二子网络)。

整个流程包括两部分:(a)立体声学习阶段和(b)音频分离学习阶段。所述音频处理网络可以在不同的时间进行不同的阶段,例如,在t1时间,按照图中虚线以下的部分所示的方式进行立体声学习,在t2时间,按照图中虚线以上的部分所示的方式进行分离学习。立体声学习阶段如虚线下半部分:第二子网络(也称为视觉网络)可以是一个apnet,其输入可以是视频的一帧图像,视觉网络将图像转换成视觉特征,如图4b所示。第一子网络(也称为音频网络)是一个unet,输入是单通道音频的快速傅里叶变换(shorttimefastfourier,stft)频谱,输出是左右声道的音频频谱的差。将视觉网络和音频网络进行融合,对左右两个立体声通道音频的频谱进行预测,再转化为立体声音频。

声源分离学习阶段如虚线上半部分所示:第二子网络的视觉输入是两个不同声源的图像,分别用视觉网络转换成特征之后,利用最大池化操作,把两个特征最重要的部分(一般为声源的特征),放置在一个空白的特征图上。这一操作用于模拟把视觉信息分在最左和最右的过程,如图4c所示。音频输入是混合的两个声源,输出分别是声源a的音频和声源b的音频。

整个音频处理网络的结构如图4a所示,是融合音频网络和视觉网络并给出最终预测的网络结构。其中音频网络可以分为编码部分和解码部分。视觉网络在得到视觉特征之后,不同位置的视觉特征会被重构形成一维卷积核,作用在音频网络的解码部分的每一层(即分别与解码部分的每一层的输入特征进行去卷积处理),解码部分的每一层的中间处理结果作为apnet对应层的输入,例如,解码部分的第i-1层的输入特征与视觉特征进行卷积,得到解码部分的第i-1层的中间处理结果解码部分的第i层的输入特征与视觉特征进行卷积,得到解码部分的第i层的中间处理结果解码部分的第i-1层的中间处理结果和解码部分的第i层的中间处理结果分别作为apnet第i-1层的输入和第i层的输入根据apnet网络的最后一层的输出结果,获取左声道和右声道的音频频谱。在一些实施例中,为了便于对视觉特征进行处理,还可以通过向量转换模块将视觉特征转换为向量。

所述第一子网络和第二子网络的训练过程可采用损失函数进行监督,所述第一子网络和第二子网络对应的损失函数可以相同,也可以不同。例如,所述第一子网络可以采用均方误差(meansquareerror,mse)损失函数,所述第二子网络可以采用l2损失函数。进一步地,所述第二子网络在进行立体声学习阶段,每个通道可分别通过损失函数进行监督。同理,所述第二子网络在进行声源分离学习阶段,每个声源可分别通过损失函数进行监督。

在一些实施例中,在立体声学习阶段,可以基于所述音频处理网络重建出的各个目标通道的第一音频频谱确定第一损失函数,并在所述第一损失函数满足预设的第一条件的情况下,停止所述第一训练。所述预设的第一条件可以是所述损失函数的取值小于预设值,也可以是其他条件。

在另一些实施例中,在声源分离学习阶段,可以基于所述音频处理网络分离出的各个声源的第二音频频谱确定第二损失函数,并在所述第二损失函数满足预设的第二条件的情况下,停止所述第二训练。所述第二条件与第一条件可以相同,也可以不同。

在一些实施例中,可以基于所述单通道音频样本对所述音频处理网络进行第一训练,以确定所述单通道音频样本在各个目标通道上的音频的第一掩膜,分别根据第k个目标通道对应的第一掩膜确定所述第k个目标通道的第一音频频谱,k为正整数。根据所述第一掩膜与单通道音频样本,可以获取各个目标通道对应的第一音频频谱。在另一些实施例中,可以基于所述混合音频样本对所述音频处理网络进行第二训练,以确定所述混合音频样本在各个目标通道上的音频的第二掩膜,分别根据第q个目标通道对应的第二掩膜确定所述第q个目标通道的第二音频频谱,q为正整数。根据所述第二掩膜与混合音频样本,可以获取各个目标通道对应的第二音频频谱。

立体声学习阶段与声源分离学习阶段确定掩膜的方式类似,不同之处在于将各个目标通道的音频改为各个声源的音频,并将训练场景的图像改为训练场景中各个声源的局部图像。此处以立体声学习阶段为例,对掩膜的确定方式进行说明,声源分离学习阶段确定掩膜的方式可参考立体声学习阶段。其中,所述掩膜记为:

m={mr,mi},

则每个目标通道的音频频谱sp均可记为如下形式:

sp=(sr(mono)+j*si(mono))(mr+j*mi)。

其中,sr(mono)和si(mono)分别表示一个目标通道(例如,左声道)上的音频的实数部分和虚数部分,mr和mi分别表示所述目标通道商的掩膜m的实数部分和虚数部分,j为虚数单位,例如,将左声道的sr(mono)、si(mono)、mr和mi代入上述公式,则得到左声道的音频频谱同理,将右声道的对应参数代入上述公式,则得到右声道的音频频谱根据目标通道的掩膜来生成目标通道的音频频谱,能够提高频谱恢复的准确性。

本公开实施例具有以下优点:

(1)使用单通道音频进行训练,节约了立体声的采集资源,降低了成本。

(2)同时实现声源分离和立体声重构,节约了计算资源。

(3)提升了立体声重构的效果。

如图5所示,本公开实施例还提供一种立体声重构方法,所述方法包括:

步骤501:获取目标场景的特征图和所述目标场景的单通道音频;

步骤502:将所述目标场景的单通道音频和所述目标场景的特征图输入音频处理网络,以使所述音频处理网络根据所述目标场景的特征图对所述目标场景的单通道音频进行立体声重构;

其中,所述音频处理网络基于前述任一实现方式中的音频处理网络的训练方法训练得到。

进一步地,所述方法还包括:获取目标场景中各个声源的特征图和所述目标场景的混合音频,将所述目标场景中各个声源的特征图和所述目标场景的混合音频输入所述音频处理网络,以使所述音频处理网络根据所述目标场景中各个声源的特征图对所述目标场景的混合音频进行声源分离。

所述音频处理网络的训练方式与推理方式类似,不同之处仅在于训练过程中可能采用标签,而推理过程中无需采用标签,且训练过程中需要采用损失函数进行监督,而推理过程中无需采用损失函数。训练方式的具体实施例可参见上述推理过程的实施例,此处不再展开描述。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图6所示,本公开还提供一种音频处理网络的训练装置,所述装置包括:

第一获取模块601,用于获取训练场景的单通道音频样本和所述训练场景的混合音频样本;

第一训练模块602,用于基于所述单通道音频样本对所述音频处理网络进行第一训练,以使所述音频处理网络执行立体声重构任务;

第二训练模块603,用于基于所述混合音频样本对所述音频处理网络进行第二训练,以使所述音频处理网络执行声源分离任务;

确定模块604,用于基于所述第一训练和第二训练,确定所述音频处理网络。

在一些实施例中,所述音频处理网络包括第一子网络和第二子网络;所述第一子网络用于根据所述训练场景的特征图对所述单通道音频样本进行处理,得到至少一个第一中间处理结果,并将所述至少一个第一中间处理结果输出至所述第二子网络;所述第二子网络用于根据所述训练场景的特征图和所述至少一个第一中间处理结果,对所述单通道音频样本进行立体声重构。

在一些实施例中,所述第一训练模块包括:第一输入单元,用于将所述单通道音频样本输入所述第一子网络,获取所述第一子网络输出的至少一个第一中间处理结果;第二输入单元,用于将所述训练场景的特征图和所述至少一个第一中间处理结果输入所述第二子网络,对所述第二子网络进行第一训练。

在一些实施例中,所述第一训练模块包括:第三输入单元,用于将所述单通道音频样本和所述训练场景的特征图输入所述第一子网络,对所述第一子网络进行第一训练。

在一些实施例中,所述第一子网络和所述第二子网络均包括多个层;所述第一训练模块包括:第四输入单元,用于将所述训练场景的特征图和所述单通道音频样本输入所述第一子网络进行处理,得到所述第一子网络的第m层的第一中间处理结果;第一训练单元,用于将所述第一子网络的第m层的第一中间处理结果作为所述第二子网络的第m层的输入,以对所述第二子网络进行第一训练,1≤m<n,n为第一子网络的层数。

在一些实施例中,所述音频处理网络包括第一子网络和第二子网络,所述场景中的声源的数量为多个;所述第一子网络用于根据所述训练场景中的多个声源的特征图对所述混合音频样本进行处理,得到至少一个第二中间处理结果,并将所述至少一个第二中间处理结果输出至所述第二子网络;所述第二子网络用于根据所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果,对所述混合音频样本进行声源分离。

在一些实施例中,所述第二训练模块包括:第五输入单元,用于将所述混合音频样本输入所述第一子网络,获取所述第一子网络输出的至少一个第二中间处理结果;第六输入单元,用于将所述训练场景中的多个声源的特征图和所述至少一个第二中间处理结果输入所述第二子网络,对所述第二子网络进行第二训练。

在一些实施例中,所述第二训练模块包括:第七输入单元,用于将所述混合音频样本和所述训练场景中的多个声源的特征图输入所述第一子网络,对所述第一子网络进行第二训练。

在一些实施例中,所述装置还包括:第二获取模块,用于获取所述训练场景中各个声源的图像;特征提取模块,用于分别对所述训练场景中各个声源的图像进行特征提取,得到所述训练场景中各个声源的特征;映射模块,用于将所述训练场景中各个声源的特征映射到空白的特征图上,得到所述训练场景中各个声源的特征图,所述训练场景中各个声源中任意两个声源的特征在所述空白的特征图上的距离大于预设的距离阈值。

在一些实施例中,所述第一子网络和所述第二子网络均包括多个层;所述第二训练模块包括:处理单元,用于将所述训练场景中各个声源的特征图和所述混合音频样本输入所述第一子网络进行处理,得到所述第一子网络的第n层的第二中间处理结果;第八输入单元,用于将所述第一子网络的第n层的第二中间处理结果作为所述第二子网络的第n层的输入,以对所述第二子网络进行第二训练,1≤n<n,n为第一子网络的层数。

在一些实施例中,所述第一训练模块包括:第一确定单元,用于基于所述单通道音频样本对所述音频处理网络进行第一训练,以确定所述单通道音频样本在各个目标通道上的音频的第一掩膜;第二确定单元,用于分别根据第k个目标通道对应的第一掩膜确定所述第k个目标通道的第一音频频谱,k为正整数;第三确定单元,用于基于各个目标通道的第一音频频谱确定第一损失函数,并在所述第一损失函数满足预设的第一条件的情况下,停止所述第一训练。

在一些实施例中,所述第二训练模块包括:第四确定单元,用于基于所述混合音频样本对所述音频处理网络进行第二训练,以确定所述混合音频样本在各个目标通道上的音频的第二掩膜;第五确定单元,用于分别根据第q个目标通道对应的第二掩膜确定所述第q个目标通道的第二音频频谱,q为正整数;第六确定单元,用于基于各个目标通道的第二音频频谱确定第二损失函数,并在所述第二损失函数满足预设的第二条件的情况下,停止所述第二训练。

在一些实施例中,所述单通道音频样本的幅值为多个目标通道的音频样本的幅值的平均值,所述多个目标通道为基于所述单通道音频样本重构得到的立体声音频所包括的通道;所述混合音频样本的幅值为所述混合音频样本中包括的各个声源的音频样本的幅值的平均值。

在一些实施例中,所述第一训练模块用于:基于所述单通道音频样本和所述训练场景的特征图,对所述音频处理网络进行第一训练;和/或所述第二训练模块用于:基于所述混合音频样本和所述训练场景中各个声源的特征图,对所述音频处理网络进行第二训练。

如图7所示,本公开还提供一种立体声重构装置,所述装置包括:

第一获取模块701,用于获取目标场景的特征图和目标场景的单通道音频;

第一输入模块702,用于将所述目标场景的单通道音频和所述目标场景的特征图输入音频处理网络,以使所述音频处理网络根据所述目标场景的特征图对所述目标场景的单通道音频进行立体声重构;

其中,所述音频处理网络基于前述任一实现方式中的音频处理网络的训练装置训练得到。

在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。

本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述任一实施例所述的方法。

图8示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器801、存储器802、输入/输出接口803、通信接口804和总线805。其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

处理器801可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器802可以采用rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器802可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器802中,并由处理器801来调用执行。

输入/输出接口803用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口804用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线805包括一通路,在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器801、存储器802、输入/输出接口803、通信接口804以及总线805,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips