基于混合式多任务学习的环境声音识别方法及装置与流程

2021-01-28 15:01:28|

259|

起点商标网

本发明涉及音频识别技术领域，更具体地，涉及一种基于混合式多任务学习的环境声音识别方法及装置。

背景技术：

环境声音识别技术在安全监控、智能家居、多媒体检索等领域都有很大的应用潜力。它通过分析现实生活环境中录制的音频数据，来感知环境语义信息，主要包括声音场景分类、声音事件识别、音频标记等不同任务。这些任务使用的都是现实生活的音频数据，但根据智能计算任务的不同而进行不同的标签标记处理。因此，这些任务在学习上存在很大的相关性，例如多个任务可共享某个音频特征模式(例如，居家环境中的吸尘器声与机器状态监控中的机器运转声具有类似的特征)。

为了利用环境声音识别任务的相关性，一种常用方法是采用迁移学习。具体来讲，就是借助某个任务的音频数据集对深度神经网络进行预训练，然后再在得到的模型上采用目标任务的数据集进行训练和调优，以期得到更好的性能。这种方式在相同的网络结构上使用多个不同任务的数据集进行训练，对数据集的匹配要求以及网络结构设计的限制程度较高，性能优化不确定性较大。近年来，一种新的做法是基于多任务学习的环境声音识别方法。例如，把声音场景识别与声音事件识别两个任务合并到一个网络中进行联合学习：该神经网络的底层是由若干隐层组成的共享层，之上连接两个分支(场景分支与事件分支)，分别输出场景预测结果与事件预测结果。该方法针对环境声音任务的相关性设置了共享层，由于采取多任务学习方式，可减轻过拟合的影响，有望学到更好的共享层特征；而且针对不同任务设置了独立的网络分支，能够针对不同任务提取不同的特征表示。为了得到适合多任务网络的数据集，需要准备具有多任务标签的数据样本。目前主要有两种方法：一是在原有某任务的数据集上人工补打另一任务的标签；二是将多个任务的音频合成起来得到具有多个标签的数据样本。这两种方式均要花费大量人力，使得数据样本的准备成本很高，阻碍了多任务学习方法在环境声音识别领域的应用。

技术实现要素：

鉴于上述问题，本发明提出了一种基于混合式多任务学习的环境声音识别方法及装置，用以实现简易地生成带有多个任务标签的数据样本，大大地降低多任务训练数据的准备成本，并提升环境声音识别的性能。

根据本发明实施例的第一方面，提供一种基于混合式多任务学习的环境声音识别方法，包括：

获取声音场景音频数据集和声音事件音频数据集，其中，所述声音场景音频数据集中包括多个声音场景音频数据，所述声音事件音频数据集中包括多个声音事件音频数据；

根据所述声音场景音频数据集中的音频数据生成对应的第一声谱图集，根据所述声音事件音频数据集中的音频数据生成对应的第二声谱图集；

将所述第一声谱图集和所述第二声谱图集组合以得到混合声谱图集；

利用所述混合声谱图集对构建的多任务学习网络模型进行训练，得到预训练的模型参数；

对所述多任务学习网络模型的网络结构进行调整，以得到单任务学习网络模型；

使用所述预训练的模型参数对所述单任务学习网络模型进行初始化，并利用所述第一声谱图集对所述单任务学习网络模型进行调优训练，以得到环境声音识别的最终模型。

在一个实施例中，优选地，将所述第一声谱图集和所述第二声谱图集组合以得到混合声谱图集，包括：

分别从所述第一声谱图集和所述第二声谱图集中随机选取一张第一声谱图和一张第二声谱图；

将所述第一声谱图和所述第二声谱图按照加权相加的方式组合，得到一张混合声谱图，并将所述第一声谱图和所述第二声谱图的独热标签作为附着在该张混合声谱图上的多标签。

在一个实施例中，优选地，所述多任务学习网络模型的网络输入层上设置有多个共享的隐藏层，所述共享层之上连接声音场景识别分支和声音事件识别分支，所述声音场景识别分支用于输出场景识别结果，所述声音事件识别分支用于输出事件识别结果，所述声音场景识别分支和所述声音事件识别分支分别包括多个隐藏层和一个输出层，其中，所述声音场景识别分支和所述声音事件识别分支的预设隐藏层之间采用互连连接。

在一个实施例中，优选地，对所述多任务学习网络模型的网络结构进行调整，以得到单任务学习网络模型，包括：

分别去除所述声音场景识别分支上的输出层和所述声音事件识别分支上的输出层，并在所述声音场景识别分支和声音事件识别分支上分别添加一个全连接层；

在所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层后添加一个新的输出层，将所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层输出相加，输入所述新的输出层。

在一个实施例中，优选地，使用所述预训练的模型参数对所述单任务学习网络模型进行初始化，并利用所述第一声谱图对所述单任务学习网络模型进行调优训练，包括：

采用随机数方式初始化所述单任务学习网络模型的新的输出层和两个全连接层；

使用所述预训练的模型参数初始化所述单任务学习网络模型的其他各层；

使用所述第一声谱图集对所述单任务学习网络模型进行调优训练，调优训练过程中仅调整所述新的输出层和两个全连接层的连接权重，其他各层保持固化。

在一个实施例中，优选地，所述多任务学习网络模型的总损失函数采用以下计算公式：

loss＝0.5loss1+0.5loss2+l2_loss

其中，loss表示所述总损失函数，loss1表示所述声音场景识别分支的损失函数，loss2表示所述声音事件识别分支的损失函数，l2_loss表示l2正则化项，其中，

n表示所述混合声谱图集中声谱图的数量，根据第i个训练样本中附着的声音场景独热标签与声音事件独热标签信息，表示在所述声音场景识别分支的输出层上对应标签指示类别上的第一预测概率值，表示在声音事件识别分支的输出层上对应标签指示类别上的第二预测概率值，k表示权重w的个数，θ是正则化系数。

根据本发明实施例的第二方面，提供一种基于混合式多任务学习的环境声音识别装置，包括：

获取模块，用于获取声音场景音频数据集和声音事件音频数据集，其中，所述声音场景音频数据集中包括多个声音场景音频数据，所述声音事件音频数据集中包括多个声音事件音频数据；

生成模块，用于根据所述声音场景音频数据集中的音频数据生成对应的第一声谱图集，根据所述声音事件音频数据集中的音频数据生成对应的第二声谱图集；

混合模块，用于将所述第一声谱图集和所述第二声谱图集组合以得到混合声谱图集；

第一阶段训练模块，用于利用所述混合声谱图集对构建的多任务学习网络模型进行训练，得到预训练的模型参数；

模型调整模块，用于对所述多任务学习网络模型的网络结构进行调整，以得到单任务学习网络模型；

第二阶段训练模块，用于使用所述预训练的模型参数对所述单任务学习网络模型进行初始化，并利用所述第一声谱图集对所述单任务学习网络模型进行调优训练，以得到环境声音识别的最终模型。

在一个实施例中，优选地，所述混合模块包括：

选取单元，用于分别从所述第一声谱图集和所述第二声谱图集中随机选取一张第一声谱图和一张第二声谱图；

组合单元，用于将所述第一声谱图和所述第二声谱图按照加权相加的方式组合，得到一张混合声谱图，并将所述第一声谱图和所述第二声谱图的独热标签作为附着在该张混合声谱图上的多标签。

在一个实施例中，优选地，所述模型调整模块包括：

去除单元，用于分别去除所述声音场景识别分支上的输出层和所述声音事件识别分支上的输出层，并在所述声音场景识别分支和声音事件识别分支上分别添加一个全连接层；

添加单元，用于在所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层后添加一个新的输出层，将所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层输出相加，输入所述新的输出层。

在一个实施例中，优选地，所述第二阶段训练模块包括：

第一初始化单元，用于采用随机数方式初始化所述单任务学习网络模型的新的输出层和两个全连接层；

第二初始化单元，用于使用所述预训练的模型参数初始化所述单任务学习网络模型的其他各层；

调优训练单元，用于使用所述第一声谱图集对所述单任务学习网络模型进行调优训练，调优训练过程中仅调整所述新的输出层和两个全连接层的连接权重，其他各层保持固化。

根据本发明实施例的第三方面，提供一种基于混合式多任务学习的环境声音识别装置，包括：

存储器和处理器；

所述存储器用于保存所述处理器执行计算机程序时所使用的数据；

所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，所述设备执行如第一方面实施例中任一项所述的方法。

本发明实施例中，通过生成混合声谱图的方式，可以方便地得到具有多个任务标签的训练样本，其生成速度快，成本极低。另外，可以方便地组合不同环境声音识别任务的数据集，不受人工标记或者音频合成的限制，方便工程人员探索不同环境声音识别任务之间的潜在互补性质。而通过调优方法进一步挖掘多个环境声音识别任务之间的相互补充作用，提升了目标识别任务的性能，提升了环境声音识别的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于混合式多任务学习的环境声音识别方法的流程图。

图2a是本发明一个实施例的环境声音识别基础模型网络结构示意图。

图2b是本发明一个实施例的多任务学习网络模型的网络结构示意图。

图3是本发明一个实施例的一种基于混合式多任务学习的环境声音识别方法中步骤s103的流程图。

图4是本发明一个实施例的一种基于混合式多任务学习的环境声音识别方法中步骤s105的流程图。

图5是本发明一个实施例的单任务学习网络模型的网络结构示意图。

图6是本发明一个实施例的一种基于混合式多任务学习的环境声音识别方法中步骤s106的流程图。

图7是本发明一个实施例的一种基于混合式多任务学习的环境声音识别装置的框图。

图8是本发明一个实施例的一种基于混合式多任务学习的环境声音识别装置中混合模块的框图。

图9是本发明一个实施例的一种基于混合式多任务学习的环境声音识别装置中模型调整模块的框图。

图10是本发明一个实施例的一种基于混合式多任务学习的环境声音识别装置中模型调整模块的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的一种基于混合式多任务学习的环境声音识别方法的流程图，如图1所示，基于混合式多任务学习的环境声音识别方法包括：

步骤s101，获取声音场景音频数据集和声音事件音频数据集，其中，所述声音场景音频数据集中包括多个声音场景音频数据，所述声音事件音频数据集中包括多个声音事件音频数据。

本实施例中声音场景识别使用的数据集是tutacousticscene2017，该数据集分为developmentset和evaluationset，总共有6300个时长为10秒、采样率为44.1khz的音频文件。所有音频分为15个场景类别。声音事件分类使用的数据集是esc-50，该数据集共有2000个时长为5秒、采样率为44.1khz的单声道音频文件，一共有50个声音事件类别。esc-50采用五折交叉验证法划分成了5个fold，每一个fold中分为训练集跟测试集。

步骤s102，根据所述声音场景音频数据集中的音频数据生成对应的第一声谱图集，根据所述声音事件音频数据集中的音频数据生成对应的第二声谱图集。在声音场景音频数据集和声音事件音频数据集上，采用相同的参数，生成同样大小的声谱图，例如梅尔频谱图。

首先，对tutacousticscene2017和esc-50数据集进行预加重、分帧、加窗预处理，然后使用梅尔频率倒谱系数(mfcc)提取特征，得到相应的声谱图集合。分别对tutacousticscene2017和esc-50的声谱图使用窗口大小为128，步长为32进行切割，得到大小为128×128的声谱图图像。

步骤s103，将所述第一声谱图集和所述第二声谱图集按加权相加的组合以得到混合声谱图集。

步骤s104，利用所述混合声谱图集对构建的多任务学习网络模型进行训练，得到预训练的模型参数。

图2a是环境声音识别的基础模型网络结构示意图。图2b的多任务网络模型是在图2a模型的基础上演化得到的。具体来说，图2b的共享层与图2a所示网络模型的对应层一致；图2b的场景分支的各层与图2a的对应各层一致，事件分支与场景分支仅在输出层的节点数以及倒数第二层的卷积核个数上有所不同，其余结构一致。在本发明中所述单任务学习网络模型特指在多任务学习网络模型基础上调整后得到的网络模型(如图5所示)。

具体地，如图2b所示，输出节点数为15的分支是声音场景识别任务分支，输出节点数为50的为声音事件识别任务分支。本实施例在声音场景识别分支与事件分支的第14层与第15层之间建立互连的连接：场景分支的第15层的输入为场景分支第14层的输出乘以α与事件分支第14层的输出乘以β之和；事件分支的第15层的输入为事件分支第14层的输出乘以ε与场景分支第14层的输出乘以γ之和。α、ε取值为0.7，β、γ取值为0.3。

在声音场景识别分支以及声音事件识别分支上，分别使用混合声谱图附着的独热标签，以交叉熵形式计算误差，将两个误差加起来作为该网络的损失函数。

在一个实施例中，优选地，所述多任务学习网络模型的总损失函数采用以下计算公式：

loss＝0.5loss1+0.5loss2+l2_loss

其中，loss表示所述总损失函数，loss1表示所述声音场景识别分支的损失函数，loss2表示所述声音事件识别分支的损失函数，l2_loss表示l2正则化项，其中，

步骤s105，对所述多任务学习网络模型的网络结构进行调整，以得到单任务学习网络模型。

步骤s106，使用所述预训练的模型参数对所述单任务学习网络模型进行初始化，并利用所述第一声谱图集对所述单任务学习网络模型进行调优训练，以得到环境声音识别的最终模型。

在该实施例中，通过生成混合声谱图的方式，可以方便地得到具有多个任务标签的训练样本，其生成速度快，成本极低。另外，可以方便地组合不同环境声音识别任务的数据集，不受人工标记或者音频合成的限制，方便工程人员探索不同环境声音识别任务之间的潜在互补性质。而通过调优方法进一步挖掘多个环境声音识别任务之间的相互补充作用，提升了目标识别任务的性能，提升了环境声音识别的性能。

图3是本发明一个实施例的一种基于混合式多任务学习的环境声音识别方法中步骤s103的流程图。

如图3所示，在一个实施例中，优选地，上述步骤s103包括：

步骤s301，分别从所述第一声谱图集和所述第二声谱图集中随机选取一张第一声谱图和一张第二声谱图。

步骤s302，将所述第一声谱图和所述第二声谱图按照加权相加的方式组合，得到一张混合声谱图，并将所述第一声谱图和所述第二声谱图的独热标签作为附着在该张混合声谱图上的多标签。

例如，在第一声谱图集中取出一张声谱图sa，再在第二声谱图集中随机取出一张声谱图sb，sa、sb为存储频谱值的二维矩阵。计算混合声谱图sm＝0.5*sa+0.5*sb，并使sa、sb原来的独热标签成为附着在sm上的多标签。反复上述步骤直到第一声谱图集中声谱图全部取完，最终得到混合声谱图的训练集。类似地，生成混合声谱图的验证集。

在该实施例中，通过生成混合声谱图的方式，可以方便地得到具有多个任务标签的训练样本，其生成速度快，成本极低。另外，可以方便地组合不同环境声音识别任务的数据集，不受人工标记或者音频合成的限制，方便工程人员探索不同环境声音识别任务之间的潜在互补性质。

图4是本发明一个实施例的一种基于混合式多任务学习的环境声音识别方法中步骤s105的流程图。

如图4所示，在一个实施例中，优选地，上述步骤s105包括：

步骤s401，分别去除所述声音场景识别分支上的输出层和所述声音事件识别分支上的输出层，并在所述声音场景识别分支和声音事件识别分支上分别添加一个全连接层；全连接层的神经元节点数为1024。

步骤s402，在所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层后添加一个新的输出层，将所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层输出相加，输入所述新的输出层。新的输出层的节点数量为环境声音识别任务的分类类别数，输出层的损失函数采取交叉熵的形式。

具体的单任务学习网络模型结构如图5所示。修改混合式多任务学习网络模型的网络结构，在声音场景识别与事件识别两个分支上删除原有的输出层。并在两个分支的第15层之上各添加一层结点个数为1024的全连接层，并将这两个全连接层的输出特征相加，作为输出层的输入，输出层的结点个数为15。然后，加载混合式多任务学习网络模型的预训练参数，将该模型的第1至15层的参数加载到调整后的新网络模型中。接着，使用声音场景的声谱图对该调整后的网络模型的新增全连接层与输出层进行微调训练。

图6是本发明一个实施例的一种基于混合式多任务学习的环境声音识别方法中步骤s106的流程图。

如图6所示，在一个实施例中，优选地，上述步骤s106包括：

步骤s601，采用随机数方式初始化所述单任务学习网络模型的新的输出层和两个全连接层；

步骤s602，使用所述预训练的模型参数初始化所述单任务学习网络模型的其他各层；

步骤s603，使用所述第一声谱图集对所述单任务学习网络模型进行调优训练，调优训练过程中仅调整新的输出层和两个全连接层的连接权重，其他各层保持固化。

在该实施例中，使用隐层固化方法，可以保留各个分支对相应任务的特征提取能力，并通过全连接的方法进行融合，得到更好的识别性能。这种方法为引入环境声音识别的领域知识指导网络模型设计创造了条件。

如表1所示，在进行多任务学习和模型微调之后，声音场景识别任务的预测性能有了大幅提升，证明本发明所提方法的有效性。表1的性能数据是对相应网络模型运行三次后的平均准确率及其标准差。

表1

图7是本发明一个实施例的一种基于混合式多任务学习的环境声音识别装置的框图。

如图7所示，根据本发明实施例的第二方面，提供一种基于混合式多任务学习的环境声音识别装置，包括：

获取模块71，用于获取声音场景音频数据集和声音事件音频数据集，其中，所述声音场景音频数据集中包括多个声音场景音频数据，所述声音事件音频数据集中包括多个声音事件音频数据；

生成模块72，用于根据所述声音场景音频数据集中的音频数据生成对应的第一声谱图集，根据所述声音事件音频数据集中的音频数据生成对应的第二声谱图集；

混合模块73，用于将所述第一声谱图集和所述第二声谱图集组合以得到混合声谱图集；

第一阶段训练模块74，用于利用所述混合声谱图集对构建的多任务学习网络模型进行训练，得到预训练的模型参数；

模型调整模块75，用于对所述多任务学习网络模型的网络结构进行调整，以得到单任务学习网络模型；

第二阶段训练模块76，用于使用所述预训练的模型参数对所述单任务学习网络模型进行初始化，并利用所述第一声谱图集对所述单任务学习网络模型进行调优训练，以得到环境声音识别的最终模型。

图8是本发明一个实施例的一种基于混合式多任务学习的环境声音识别装置中混合模块的框图。

如图8所示，在一个实施例中，优选地，所述混合模块73包括：

选取单元81，用于分别从所述第一声谱图集和所述第二声谱图集中随机选取一张第一声谱图和一张第二声谱图；

组合单元82，用于将所述第一声谱图和所述第二声谱图按照加权相加的方式组合，得到一张混合声谱图，并将所述第一声谱图和所述第二声谱图的独热标签作为附着在该张混合声谱图上的多标签。

图9是本发明一个实施例的一种基于混合式多任务学习的环境声音识别装置中模型调整模块的框图。

如图9所示，在一个实施例中，优选地，所述模型调整模块75包括：

去除单元91，用于分别去除所述声音场景识别分支上的输出层和所述声音事件识别分支上的输出层，并在所述声音场景识别分支和声音事件识别分支上分别添加一个全连接层；

添加单元92，用于在所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层后添加一个新的输出层，将所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层输出相加，输入所述新的输出层。

图10是本发明一个实施例的一种基于混合式多任务学习的环境声音识别装置中模型调整模块的框图。

如图10所示，在一个实施例中，优选地，所述第二阶段训练模块76包括：

第一初始化单元1001，用于采用随机数方式初始化所述单任务学习网络模型的新的输出层和两个全连接层；

第二初始化单元1002，用于使用所述预训练的模型参数初始化所述单任务学习网络模型的其他各层；

调优训练单元1003，用于使用所述第一声谱图集对所述单任务学习网络模型进行调优训练，调优训练过程中仅调整新的输出层和两个全连接层的连接权重，其他各层保持固化。

根据本发明实施例的第三方面，提供一种基于混合式多任务学习的环境声音识别装置，包括：

存储器和处理器；

所述存储器用于保存所述处理器执行计算机程序时所使用的数据；

所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取存储器(ram，randomaccessmemory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种便捷式多功能设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除