音频事件的检测方法、装置、电子设备及存储介质与流程

2021-01-28 15:01:57|

333|

起点商标网

本公开涉及声音识别技术领域，尤其涉及一种音频事件的检测方法、装置、电子设备及存储介质。

背景技术：

声音携带大量信息，并在我们的日常生活中发挥重要作用。我们可以通过接收到的声音判断声音发生在哪里(被称为音频场景，比如地铁，街道等)以及正在发生什么(被称为音频事件，比如警报器，狗叫等)。随着人工智能的飞速发展，计算机也可以对音频场景和音频事件作出判断，其准确性甚至超过了人类。

对于音频事件，音频事件的检测在物联网、移动导航设备等领域以及视觉信息不明确的情况下可以用于感知计算并为用户提供更好的响应。一段音频中包含着各种各样的音频事件，这些音频事件往往是重叠的，即在同一个时间段内可能同时发生多个音频事件。例如，在公共汽车上，我们可能同时听到公共汽车引擎发出的声音、人群说话的声音和交通的声音。相关技术中，音频事件的检测越来越倾向于采用深度学习方法。例如，通过一个已训练的卷积神经网络识别音频数据对应的音频特征，得到音频事件类别。但是，相关技术中的深度学习方法在识别音频特征时，通常只对一种音频事件进行检测，导致音频事件检测不够全面和准确。

技术实现要素：

本公开提供一种音频事件的检测方法、装置、电子设备及存储介质，以至少解决相关技术中音频事件的检测不够全面和准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频事件的检测方法，包括：

获取待识别的音频数据对应的音频特征；

根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征；

对多个子频带特征分别进行特征提取，得到多个子频带目标特征；

根据多个子频带目标特征，得到音频数据中每个音频事件的类别检测结果和时间检测结果。

在其中一个实施例中，对多个子频带特征分别进行特征提取，得到多个子频带目标特征，包括：

将多个子频带特征输入至第一神经网络，得到多个子频带目标特征，第一神经网络包括多个子频带网络，每个子频带网络与一个子频带特征对应。

在其中一个实施例中，子频带网络包括多个依次连接的局部注意力块；将多个子频带特征输入至第一神经网络，得到多个子频带目标特征，包括：

对每个子频带特征，将每个子频带特征输入至与每个子频带特征对应的子频带网络中的第一个局部注意力块，得到子频带中间特征；

将子频带中间特征依次输入至下一个局部注意力块，直至输出每个子频带特征对应的子频带目标特征。

在其中一个实施例中，根据多个子频带目标特征，得到音频数据中每个音频事件的类别检测结果和时间检测结果，包括：

融合多个子频带目标特征，生成音频数据对应的音频融合特征；

将音频融合特征输入至第二神经网络，得到音频数据对应的音频目标特征；

根据音频目标特征，确定音频数据中每个音频事件的类别检测结果和时间检测结果。

在其中一个实施例中，融合多个子频带目标特征，生成音频数据对应的音频融合特征，包括：

根据频域信息，拼接多个子频带目标特征；

对拼接后的子频带目标特征进行卷积和池化处理，得到音频融合特征。

在其中一个实施例中，第二神经网络包括两个第二子神经网络，两个第二子神经网络包含不同的激活函数；将音频融合特征输入至第二神经网络，得到音频数据对应的音频目标特征，包括：

将音频融合特征输入至每个第二子神经网络，得到每个第二子神经网络输出的音频中间特征；

根据频域信息，拼接每个第二子神经网络分别输出的音频中间特征，得到音频目标特征。

在其中一个实施例中，根据音频目标特征，确定音频数据中每个音频事件的类别检测结果和时间检测结果，包括：

获取音频目标特征中的每帧音频目标特征；

将每帧音频目标特征分别输入至包含不同激活函数的全连接层，输出每帧音频目标特征对应的检测结果；

根据每帧音频目标特征对应的检测结果，确定音频数据中每个音频事件的类别检测结果和时间检测结果。

在其中一个实施例中，根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征，包括：

获取预先配置的多个频率范围；

根据多个频率范围对音频特征进行划分，生成与每个频率范围对应的子频带特征。

在其中一个实施例中，时间检测结果包括每个音频事件的起始帧数和结束帧数；获取音频数据中每个音频事件的类别检测结果和时间检测结果之后，还包括：

获取每帧音频数据对应的时间长度；

根据每帧音频数据对应的时间长度，以及每个音频事件的起始帧数和结束帧数，生成每个音频事件对应的起始时间和结束时间。

根据本公开实施例的第二方面，提供一种音频事件的检测装置，包括：

音频特征获取模块，被配置为执行获取待识别的音频数据对应的音频特征；

子频带特征生成模块，被配置为执行根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征；

第一特征生成模块，被配置为执行对多个子频带特征分别进行特征提取，得到多个子频带目标特征；

检测结果生成模块，被配置为执行根据多个子频带目标特征，得到音频数据中每个音频事件的类别检测结果和时间检测结果。

在其中一个实施例中，第一特征生成模块，被配置为执行将多个子频带特征输入至第一神经网络，得到多个子频带目标特征，第一神经网络包括多个子频带网络，每个子频带网络与一个子频带特征对应。

在其中一个实施例中，子频带网络包括多个依次连接的局部注意力块；第一特征生成模块，被配置为执行：

对每个子频带特征，将每个子频带特征输入至与每个子频带特征对应的子频带网络中的第一个局部注意力块，得到子频带中间特征；

将子频带中间特征依次输入至下一个局部注意力块，直至输出每个子频带特征对应的子频带目标特征。

在其中一个实施例中，检测结果生成模块，包括：

特征融合模块，被配置为执行融合多个子频带目标特征，生成音频数据对应的音频融合特征；

第二特征生成模块，被配置为执行将音频融合特征输入至第二神经网络，得到音频数据对应的音频目标特征；

时间和类别确定模块，被配置为执行根据音频目标特征，确定音频数据中每个音频事件的类别检测结果和时间检测结果。

在其中一个实施例中，特征融合模块，包括：

第一拼接单元，被配置为执行根据频域信息，拼接多个子频带目标特征；

融合单元，被配置为执行对拼接后的子频带目标特征进行卷积和池化处理，得到音频融合特征。

在其中一个实施例中，第二神经网络包括两个第二子神经网络，两个第二子神经网络包含不同的激活函数；第二特征生成模块，包括：

特征生成单元，被配置为执行将音频融合特征输入至每个第二子神经网络，得到每个第二子神经网络输出的音频中间特征；

第二拼接单元，被配置为执行根据频域信息，拼接每个第二子神经网络分别输出的音频中间特征，得到音频目标特征。

在其中一个实施例中，时间和类别确定模块，包括：

获取单元，被配置为执行获取音频目标特征中的每帧音频目标特征；

每帧音频检测结果生成单元，被配置为执行将每帧音频目标特征分别输入至包含不同激活函数的全连接层，输出每帧音频目标特征对应的检测结果；

时间和类别确定单元，被配置为执行根据每帧音频目标特征对应的检测结果，确定音频数据中每个音频事件的类别检测结果和时间检测结果。

在其中一个实施例中，子频带特征生成模块，被配置为执行：

获取预先配置的多个频率范围；

根据多个频率范围对音频特征进行划分，生成与每个频率范围对应的子频带特征。

在其中一个实施例中，时间检测结果包括每个音频事件的起始帧数和结束帧数；获取模块，还被配置为执行获取每帧音频数据对应的时间长度；

所述装置还包括：起止时间生成模块，被配置为执行根据每帧音频数据对应的时间长度，以及每个音频事件的起始帧数和结束帧数，生成每个音频事件对应的起始时间和结束时间。

根据本公开实施例的第三方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的音频事件的检测方法。

根据本公开实施例的第四方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面的任一项实施例中所述的音频事件的检测方法。

根据本公开实施例的第五方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面的任一项实施例中所述的音频事件的检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取待识别的音频数据对应的音频特征；根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征；采用深度学习网络学习具有频带级别差异的多个子频带特征，将频带级别的差异应用到基于深度学习的音频事件分类模型中，可以提升音频事件分类模型的分类性能，使得音频事件分类模型能够识别得到待识别的音频数据中所包含的多种音频事件，从而使音频事件检测更加全面且具有较高的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频事件的检测方法的应用环境图。

图2是根据一示例性实施例示出的另一种音频事件的检测方法的应用环境图。

图3是根据一示例性实施例示出的一种音频事件的检测方法的流程图。

图4是根据一示例性实施例示出的一种划分子频带特征的示意图。

图5是根据一示例性实施例示出的一种第一神经网络的结构示意图。

图6是根据一示例性实施例示出的一种子频带网络的结构示意图。

图7是根据一示例性实施例示出的一种局部注意力块的结构示意图。

图8是根据一示例性实施例示出的一种确定检测结果的流程图。

图9是根据一示例性实施例示出的一种深度学习网络的结构示意图。

图10是根据一示例性实施例示出的一种确定检测结果的流程图。

图11是根据一示例性实施例示出的一种得到音频事件的时间分布的示意图。

图12是根据一示例性实施例示出的一种音频事件的检测方法的流程图。

图13是根据一示例性实施例示出的一种深度学习网络的结构示意图。

图14是根据一示例性实施例示出的一种音频事件的检测装置的框图。

图15是根据一示例性实施例示出的一种音频事件的检测装置的框图

图16是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的音频事件的检测方法，可以应用于如图1所示的应用环境中。其中，音频采集设备110与终端120互相连接。音频采集设备110可以是单独的设备，也可以是终端120中的内置部件。终端120中部署有已训练的深度学习网络，用于检测得到待识别的音频数据中的音频事件的类别检测结果和时间检测结果。具体地，终端120从音频采集设备110处获取待识别的音频数据；终端120对待识别的音频数据进行处理，得到对应的音频特征；根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征；对多个子频带特征分别进行特征提取，得到多个子频带目标特征；根据多个子频带目标特征，得到音频数据中每个音频事件的类别检测结果和时间检测结果。其中，音频采集设备110可以但不限于是各种麦克风、录音设备等，终端120可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在另一个示例性实施例中，本公开所提供的音频事件的检测方法，还可以应用于如图2所示的应用环境中。其中，终端210和服务器220通过网络进行交互。用于音频事件分类的已训练的深度学习网络可以部署在终端210中，也可以部署在服务器220中。以部署在服务器220中为例。用户可以通过终端210触发音频事件的检测指令，以使服务器220根据该检测指令进行音频事件的检测。例如，对于短视频推荐领域，可以通过服务器220自动地对用户上传的音频数据流进行解析，获取音频数据流中的音频事件的类型检测结果和时间检测结果，从而可以筛选并截取包含有趣的声音的视频片段进行推荐。其中，终端210可以是但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器220可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图3是根据一示例性实施例示出的一种音频事件的检测方法的流程图，如图3所示，以音频事件的检测方法用于图1中的终端120中为例进行说明，包括以下步骤。

在步骤s310中，获取待识别的音频数据对应的音频特征。

具体地，在获取待识别的音频数据后，可以对音频数据进行特征提取，得到音频数据对应的音频特征。对音频数据进行特征提取可以通过以下方式实现。首先，通过一个高通滤波器对每个语音信号样本进行预加重。由于音频数据具有短时平稳性，可以将每个音频数据按照时间步长进行分帧处理，每一个时间步长称为一帧，每一帧对应的时间步长可以取预设数值，例如20～30ms之间任意数值。为了避免相邻两帧的变化过大，因此可以在两相邻帧之间设置一段重叠区域。然后，将每一帧进行加窗处理，以增加帧左端和右端的连续性，例如使用25ms的窗口进行计算，每10ms进行移位。接着，对加窗后的音频数据进行傅里叶变换得到频谱图并进行滤波，使频谱图更为紧凑。最后，可以使用谱或者倒谱分析得到音频数据对应的音频特征。

在步骤s320中，根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征。

具体地，对音频数据进行特征提取得到的音频特征包含时域信息和频域信息。频域信息对应频率轴，是描述信号在频率方面特性时用到的一种坐标系；时域信息对应时间轴，可以是指帧数。对于不同音频事件，其可能被分布在不同的频率上，因此，可以根据音频特征的频域信息对音频特征进行划分，得到与多个不同的频域信息分别对应的子频带特征。

在步骤s330中，对多个子频带特征分别进行特征提取，得到多个子频带目标特征。

在步骤s340中，根据多个子频带目标特征，得到音频数据中每个音频事件的类别检测结果和时间检测结果。

具体地，在得到多个子频带特征后，可以采用深度学习网络对每个子频带特征分别进行处理，得到多个子频带目标特征。基于多个子频带目标特征，采用不同的激活函数分别得到音频事件的类别检测结果和时间检测结果。其中，深度学习网络可以采用任何能够用于对频带特征进行特征提取的网络，例如，循环神经网络、卷积神经网络，或者循环神经网络和卷积神经网络组合构成的网络。时间检测结果可以是每个音频事件的起始帧数和结束帧数。

上述音频事件的检测方法中，通过根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征；采用深度学习网络学习具有频带级别差异的多个子频带特征，将频带级别的差异应用到基于深度学习的音频事件分类模型中，可以提升音频事件分类模型的分类性能，使得音频事件分类模型能够识别得到待识别的音频数据中所包含的多种音频事件，从而使音频事件检测更加全面且具有较高的准确度。

在一示例性实施例中，根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征，包括：获取预先配置的多个频率范围；根据多个频率范围对音频特征进行划分，生成与每个频率范围对应的子频带特征。

图4示例性地示出了根据多个频率范围划分得到多个子频带特征的示意图。具体地，相邻的频率范围之间可以设置一定的重叠区域，使得深度学习网络在识别不同的子频带特征时，即能学习到部分相同的知识，也能学到不同的知识，具有连贯性。为了确保深度学习网络的分类性能(例如准确率和召回率)，可以设置不同的重叠比例，通过重复实验找到最佳的重叠比例。本实施例中，通过预先配置的不同的频率范围，设置每个频率范围之间具有一定的重复，可以提高深度学习网络的分类性能，从而提高音频事件检测的准确度。

在一示例性实施例中，在步骤s330中，对多个子频带特征分别进行特征提取，得到多个子频带目标特征，包括：将多个子频带特征输入至第一神经网络，得到多个子频带目标特征，第一神经网络包括多个子频带网络，每个子频带网络与一个子频带特征对应。

具体地，在获取音频数据，并对音频数据特征提取和频率划分，得到多个子频带特征后，将该多个子频带特征输入至深度学习网络。采用深度学习网络中的第一神经网络对每个子频带特征进行特征提取，得到对应的子频带目标特征，从而完成对频率轴(即空间)的建模。图5示例性地示出了本实施例中的第一神经网络的结构示意图。如图5所示，第一神经网络包括多个子频带网络。每个子频带网络可以是卷积神经网络，或者循环神经网络。每个子频带网络的神经网络结构可以相同也可以不同，每个子频带网络用于处理与其对应的一个子频带特征。在将多个子频带特征输入至第一神经网络后，通过与每个子频带特征对应的子频带网络对子频带特征进行特征提取，得到子频带目标特征。

本实施例中，通过采用多个独立的子频带网络分别处理对应的子频带特征，可以提高音频检测的效率。

在一示例性实施例中，子频带网络包括多个依次连接的局部注意力块；将多个子频带特征输入至第一神经网络，得到多个子频带目标特征，包括：对每个子频带特征，将每个子频带特征输入至与每个子频带特征对应的子频带网络中的第一个局部注意力块，得到子频带中间特征；将子频带中间特征依次输入至下一个局部注意力块，直至输出每个子频带特征对应的子频带目标特征。

由于神经网络的结构与网络规模都影响着分类与检测的性能，为了便于进行模型优化调整，在本实施例中，每个子频带特征对应的子频带网络的网络结构可以相同。图6示例性示出了一种子频带网络的结构示意图。如图6所示，子频带网络中包括多个依次连接的局部注意力块。每个子频带网络中的局部注意力块的数量依实际情况而定。将子频带特征输入至对应的子频带网络后，通过子频带网络中的每个局部注意力块依次进行处理，直至最后一个局部注意力块处理完成，输出对应的子频带目标特征。

图7示例性示出了子频带网络中的一个局部注意力块的结构示意图。图7中，conv2d代表二维卷积层；bn(batchnormalization)代表批量归一化层；sigmoid代表激活函数层，也叫逻辑斯谛函数；liner代表线性激活函数层；globalmaxpooling代表全局最大池化层；pooling2d代表池化层。

以下对局部注意力块的处理过程进行说明。以第一个局部注意力模块为例，首先将输入的子频带特征经过一层二维卷积层和批量归一化层。将批量归一化层的输出按照特征图的数量分成一半，一半采用sigmoid激活函数，另一半采用liner激活函数。将这两个激活函数的输出进行对应元素点乘。接着，将点乘之后的结果经过一层二维卷积层和批量归一化层，并将批量归一化层得到的输出再按照特征图的数量分成一半，一半经过sigmoid激活函数，另一半采用liner激活函数；将这两个激活函数的输出进行对应元素的点乘。最后，将该输出(设定为a)进行全局最大池化，得到一个向量，将该向量经过两层全连接得到新的向量，将该新的向量进行上采样得到维度与a相同的特征图(设定为b)。将a与b进行对应元素的点乘得到新的特征图，并对新的特征图进行池化处理，得到子频带中间特征。在本实施中，为了保证音频事件检测的时间信息的准确性，最后池化时可以只对频率轴进行池化，时间轴则不进行池化。

将该子频带特征输入至第二个局部注意力块，参照上述第一个局部注意力块的处理过程，对子频带中间特征继续进行处理，直至最后一个局部注意力块输出子频带目标特征。

由于一段音频数据中包含的信息很多，其中部分信息有助于音频事件检测，部分信息则为无用信息。本实施例中，通过采用基于局部注意力机制的子频带网络，控制子频带网络中信息流的传递，将重要的信息往下传递，同时抑制掉不重要的信息，可以在保证分类性能的基础上得到音频事件的时间分布。

在一示例性实施例中，如图8所示，在步骤s340中，根据所述多个子频带目标特征，得到音频数据中每个音频事件的类别检测结果和时间检测结果，包括以下步骤：

在步骤s341中，融合多个子频带目标特征，生成音频数据对应的音频融合特征。

在步骤s342中，将音频融合特征输入至第二神经网络，得到音频数据对应的音频目标特征。

在步骤s343中，根据音频目标特征，确定音频数据中每个音频事件的类别检测结果和时间检测结果。

图9示例性地示出了本实施例中的深度学习网络的结构示意图。其中，第二神经网络可以采用卷积神经网络或者循环神经网络。具体地，在获取音频数据，并对音频数据特征提取和频率划分，得到多个子频带特征后，将该多个子频带特征输入至深度学习网络。采用第一神经网络中的每个子频带网络分别对对应的子频带特征进行特征提取，得到对应的子频带目标特征，从而完成对频率轴(即空间)的建模。

每个子频带特征可以看作是一种低级特征，每个子频带特征经过子频带网络处理之后得到的子频带目标特征可以看作是高级特征。高级特征比低级特征更具有区分性。为了充分利用高级特征的信息，并且保留音频事件的时域信息，可以将多个子频带目标特征在频域上进行拼接，将拼接后的特征作为与音频数据对应的音频融合特征。将得到的音频融合特征输入至第二神经网络，通过第二神经网络对时间轴进行建模，得到音频目标特征。基于该音频目标特征预测音频数据中的音频事件类别，以及每个音频事件类别对应的时间分布。可以采用不同的激活函数分别对音频目标特征进行池化处理，得到音频事件的类别和时间类别以及每个类别对应的时间信息。

本实施例中，通过采用第一神经网络进行空间建模，捕获具有区分性的高级特征；基于高级特征进行进一步融合和时间信息建模，可以提升深度学习网络的分类性能，从而可以提高音频事件检测的准确性。

在一示例性实施例中，对采用特征融合网络对多个子频带目标特征进行融合的一种方式进行说明。在步骤s341中，融合多个子频带目标特征，生成音频数据对应的音频融合特征，包括：根据频域信息，拼接多个子频带目标特征；对拼接后的子频带目标特征进行卷积和池化处理，得到音频融合特征。

具体地，每个子频带特征可以看作是一种低级特征，每个子频带特征经过子频带网络处理之后得到的子频带目标特征可以看作是高级特征。高级特征比低级特征更具有区分性。为了充分利用高级特征的信息，并且保留音频事件的时域信息，可以将多个子频带目标特征在频域上进行拼接。在拼接之后，继续对拼接后的特征经过两层卷积与池化层，得到新的特征，将该新的特征作为音频融合特征。

本实施例中，在拼接子频带目标特征后，对拼接后的特征进一步进行卷积和池化处理，可以提高特征的融合效果。

在一示例性实施例中，对采用第二神经网络对音频融合特征进行处理的一种方式进行说明。第二神经网络包括两个第二子神经网络，两个第二子神经网络包含不同的激活函数；在步骤s342中，将音频融合特征输入至第二神经网络，得到音频数据对应的音频目标特征，包括：将音频融合特征输入至每个第二子神经网络，得到每个第二子神经网络输出的音频中间特征；根据频域信息，拼接每个第二子神经网络分别输出的音频中间特征，得到音频目标特征。

具体地，第二神经网络和第二子神经网络可以为循环神经网络，例如，双向门控线性单元(bidirectionalgatedrecurrentunit，bgru)、双向循环神经网络(bidirectionalrnn,bi-rnn)、长短期记忆网络(longshort-termmemorynetworks，lstm)。通常音频事件在一段音频中的时间往往是连续的，因此，采用循环神经网络对时间信息进行建模，可以提高音频事件的时间结果的预测准确率。不同的激活函数分别用于对音频融合特征进行时间信息建模，例如，分别可以是sigmoid激活函数和liner激活函数。即，一个第二子神经网络采用sigmoid激活函数，另一个第二子神经网络采用liner激活函数。通过第二子神经网络可以得到两个音频中间特征。将两个音频中间特征按照频率轴进行拼接，得到音频目标特征。进而基于该音频目标特征预测音频事件的类别和时间分布。

在一示例性实施例中，对基于音频目标特征预测音频事件的类别检测结果和时间检测结果的一种实施方式进行说明。如图10所示，在步骤s343中，根据音频目标特征，确定音频数据中每个音频事件的类别检测结果和时间检测结果，包括以下步骤：

在步骤s3431中，获取音频目标特征中的每帧音频目标特征。

在步骤s3432中，将每帧音频目标特征分别输入至包含不同激活函数的全连接层，输出每帧音频目标特征对应的检测结果。

在步骤s3433中，根据每帧音频目标特征对应的检测结果，确定音频数据中每个音频事件的类别检测结果和时间检测结果。

其中，不同的激活函数可以分别用于对音频事件的类别和时间进行预测，不同的激活函数不限于采用sigmoid函数、softplus函数、softmax(归一化指数函数)等函数中的任意两种。具体地，由于通过第一神经网络、特征融合网络和第二神经网络均没有对时间轴进行池化，因此第二神经网络层输出的音频目标特征的帧数，与对音频数据进行特征提取得到的音频特征的帧数相同。在本实施例中，将第二神经网络层的输出的音频目标特征中的每一帧的特征分别经过两个独立的全连接层，全连接层神经元的数量根据音频事件的类别数而定。两个全连接层采用不同的激活函数，通过两个全连接层可以得到每一帧音频目标特征的不同激活函数的输出。根据不同激活函数的输出分别预测音频事件的类别和时间的检测结果。

示例性地，两个全连接层中一个可以采用sigmoid函数，另一个可以采用softmax函数。对于音频事件的时间预测，可以将所有帧的sigmoid输出作为是音频事件的时间检测的输出，从中可以得到音频数据中每个音频事件的起止时间。对于音频事件的类别预测，可以将所有帧的sigmoid输出与所有帧的softmax输出进行对应元素点乘，即，将所有帧的softmax与所有帧的sigmoid按照对应的权重在时间轴上进行加权和，将得到的结果作为分子；将所有帧的softmax输出在时间轴上进行求和，将得到的结果作为分母；分子分母相除之后再按照时间轴取平均作为音频事件的分类结果。根据该分类结果确定音频事件的类别。

在一示例性实施例中，时间检测结果包括每个音频事件的起始帧数和结束帧数；在获取音频数据中每个音频事件的类别检测结果和时间检测结果之后，还包括：获取每帧音频数据对应的时间长度；根据每帧音频数据对应的时间长度，以及每个音频事件的起始帧数和结束帧数，生成每个音频事件对应的起始时间和结束时间。

具体地，通过深度学习网络可以得到音频数据的音频事件类别，以及每个类别对应的时间分布。图11示例性地示出了深度学习网络输出的结果的示意图。参考图5，深度学习网络输出的横坐标是帧数，纵坐标是分类的类别，对于每一个音频事件则会得到起始帧数和结束帧数。获取每帧音频数据对应的时间长度，例如10ms。将每个音频事件的起始帧数和结束帧数与每一帧的时间长度相乘，便可以得到每个音频事件发生的起始时间和结束时间。

本实施例中，通过根据深度学习网络输出的结果得到音频事件的时间戳，可以直接获取音频事件在音频数据中的位置，从而便于直接进行时间定位。

图12是根据一示例性实施例示出的一种具体地音频事件的检测方法的流程图，如图12所示，包括以下步骤。

在步骤s1201中，获取待识别的音频数据。其中，待识别的音频数据可以是音频采集装置实时采集获取，也可以是从已有的视频、音频数据中获得。

在步骤s1202中，对待识别的音频数据进行特征提取，得到音频特征。特征提取的过程可以参考图3对应的实施例说明，在此不做具体阐述。

在步骤s1203中，获取预先配置的多个频率范围，根据该多个频率范围对音频特征进行切分，得到与多个频率范围分别对应的多个子频带特征。

在步骤s1204中，将多个子频带特征输入至深度学习网络。图13示例性示出了深度学习网络的结构示意图。其中，深度学习网络包括与多个子频带特征分别对应的子频带卷积神经网络层，特征融合网络层、循环神经网络层和加权池化层。每个子频带卷积神经网络包括多个依次连接的局部注意力块。

在步骤s1205中，将每个子频带特征输入至与每个子频带特征对应的子频带卷积神经网络，获取多个子频带目标特征。

在步骤s1206中，采用特征融合网络根据频域信息拼接多个子频带目标特征；并对拼接后的子频带目标特征进行卷积和池化处理，得到音频融合特征。

在步骤s1207中，将音频融合特征输入至循环神经网络，得到音频数据对应的音频目标特征。

其中，循环神经网络可以采用两个双向门控线性单元bgru。将音频融合特征分别经过两个bgru，其中一个双向门控线性单元bgru采用sigmoid作为激活函数，另一个双向门控线性单元bgru采用liner作为激活函数。将双向门控线性单元两个bgru输出按照频率轴进行拼接，得到音频目标特征。

在步骤s1208中，采用加权池化层中的两个全连接层分别对音频目标特征进行处理，根据全连接层的输出确定音频数据中每个音频事件的类别检测结果，以及起始帧数和结束帧数的时间检测结果。

在步骤是1209中，获取每帧音频数据对应的时间长度；根据每帧音频数据对应的时间长度，以及每个音频事件的起始帧数和结束帧数，生成每个音频事件对应的起始时间和结束时间。

以下对深度学习网络的训练过程进行说明。深度学习网络采用端到端训练。为了提高深度学习网络的性能，可以利用网络中上传的视频作为对网络进行训练的音频数据样本。分别对每个音频数据样本进行特征提取，得到音频特征样本。对每个音频特征样本进行标注，得到每个音频数据样本的音频事件的类型标签与时间标签，生成训练样本集。然后，将训练样本集输入至待训练的深度学习网络，对每个音频特征样本的音频事件的类型和时间进行预测。采用预设的损失函数(例如交叉墒损失函数)根据预测结果和标注信息计算损失值，利用反向传播算法更新模型参数，直至达到预设停止条件。预设停止条件可以是指达到预设迭代次数，或者损失值不再减小。

应该理解的是，虽然图1-13的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-13中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图14是根据一示例性实施例示出的一种音频事件的检测装置1400框图。参照图14，该装置包括音频特征获取模块1401，子频带特征生成模块1402、第一特征生成模块1403和检测结果生成模块1404。

音频特征获取模块1401，被配置为执行获取待识别的音频数据对应的音频特征；

子频带特征生成模块1402，被配置为执行根据音频特征的频域信息，对音频特征进行划分，生成多个子频带特征；

第一特征生成模块1403，被配置为执行对多个子频带特征分别进行特征提取，得到多个子频带目标特征；

检测结果生成模块1404，被配置为执行根据多个子频带目标特征，，第一神经网络包括多个子频带网络，每个子频带网络与一个子频带特征对应。

在一示例性实施例中，第一特征生成模块1403，被配置为执行将多个子频带特征输入至第一神经网络，得到多个子频带目标特征，第一神经网络包括多个子频带网络，每个子频带网络与一个子频带特征对应。

在一示例性实施例中，子频带网络包括多个依次连接的局部注意力块；第一特征生成模块，被配置为执行：对每个子频带特征，将每个子频带特征输入至与每个子频带特征对应的子频带网络中的第一个局部注意力块，得到子频带中间特征；将子频带中间特征依次输入至下一个局部注意力块，直至输出每个子频带特征对应的子频带目标特征。

在一示例性实施例中，检测结果生成模块1404，包括：特征融合模块，被配置为执行融合多个子频带目标特征，生成音频数据对应的音频融合特征；第二特征生成模块，被配置为执行将音频融合特征输入至第二神经网络，得到音频数据对应的音频目标特征；时间和类别确定模块，被配置为执行根据音频目标特征，确定音频数据中每个音频事件的类别检测结果和时间检测结果。

在一示例性实施例中，特征融合模块，包括：第一拼接单元，被配置为执行根据频域信息，拼接多个子频带目标特征；融合单元，被配置为执行对拼接后的子频带目标特征进行卷积和池化处理，得到音频融合特征。

在一示例性实施例中，第二神经网络包括两个第二子神经网络，两个第二子神经网络包含不同的激活函数；第二特征生成模块，包括：特征生成单元，被配置为执行将音频融合特征输入至每个第二子神经网络，得到每个第二子神经网络输出的音频中间特征；第二拼接单元，被配置为执行根据频域信息，拼接每个第二子神经网络分别输出的音频中间特征，得到音频目标特征。

在一示例性实施例中，时间和类别确定模块，包括：获取单元，被配置为执行获取音频目标特征中的每帧音频目标特征；每帧音频检测结果生成单元，被配置为执行将每帧音频目标特征分别输入至包含不同激活函数的全连接层，输出每帧音频目标特征对应的检测结果；时间和类别确定单元，被配置为执行根据每帧音频目标特征对应的检测结果，确定音频数据中每个音频事件的类别检测结果和时间检测结果。

在一示例性实施例中，子频带特征生成模块，被配置为执行：获取预先配置的多个频率范围；根据多个频率范围对音频特征进行划分，生成与每个频率范围对应的子频带特征。

在一示例性实施例中，时间检测结果包括每个音频事件的起始帧数和结束帧数；获取模块，还被配置为执行获取每帧音频数据对应的时间长度；所述装置还包括：起止时间生成模块，被配置为执行根据每帧音频数据对应的时间长度，以及每个音频事件的起始帧数和结束帧数，生成每个音频事件对应的起始时间和结束时间。

图15是根据一示例性实施例示出的一种具体的音频事件的检测装置1500框图。参照图15，该装置包括音频特征提取模块1510，音频特征切分模块1520和音频特征检测模块1530。其中，音频特征提取模块1510，被配置为执行对待识别的音频数据进行特征提取，得到音频特征。音频特征切分模块1520，被配置为执行根据已获取的多个频率范围对音频特征进行切分，得到与多个频率范围分别对应的多个子频带特征。音频特征检测模块1530，被配置为执行多个子频带特征进行音频事件的类别和时间的检测。

其中，音频特征检测模块1530包括多个子频带特征提取模块1531、特征级联模块1532、音频事件分类模块1533和音频事件检测模块1534。子频带特征提取模块1531，被配置为执行采用子频带卷积神经网络对子频带特征进行特征提取，得到子频带目标特征。特征级联模块1532，被配置为执行融合多个子频带目标特征，生成音频数据对应的音频融合特征，并采用循环神经网络根据音频融合特征得到音频数据对应的音频目标特征。音频事件分类模块1533，被配置为执行根据音频目标特征得到音频事件的类别结果。音频时间检测模块1534，被配置为执行根据音频目标特征得到音频事件的时间结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图16是根据一示例性实施例示出的一种用于音频事件的检测的电子设备1600的框图。例如，电子设备1600可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图16，电子设备1600可以包括以下一个或多个组件：处理组件1602、存储器1604、电力组件1606、多媒体组件1608、音频组件1610、输入/输出(i/o)的接口1612、传感器组件1614以及通信组件1616。

处理组件1602通常控制电子设备1600的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1602可以包括一个或多个处理器1620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1602可以包括一个或多个模块，便于处理组件1602和其他组件之间的交互。例如，处理组件1602可以包括多媒体模块，以方便多媒体组件1608和处理组件1602之间的交互。

存储器1604被配置为存储各种类型的数据以支持在电子设备1600的操作。这些数据的示例包括用于在电子设备1600上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器、磁盘或光盘。

电源组件1606为电子设备1600的各种组件提供电力。电源组件1606可以包括电源管理系统，一个或多个电源，及其他与为电子设备1600生成、管理和分配电力相关联的组件。

多媒体组件1608包括在所述电子设备1600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1608包括一个前置摄像头和/或后置摄像头。当电子设备1600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1610被配置为输出和/或输入音频信号。例如，音频组件1610包括一个麦克风(mic)，当电子设备1600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1604或经由通信组件1616发送。在一些实施例中，音频组件1610还包括一个扬声器，用于输出音频信号。

i/o接口1612为处理组件1602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1614包括一个或多个传感器，用于为电子设备1600提供各个方面的状态评估。例如，传感器组件1614可以检测到电子设备1600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1600的显示器和小键盘，传感器组件1614还可以检测电子设备1600或电子设备1600一个组件的位置改变，用户与电子设备1600接触的存在或不存在，电子设备1600方位或加速/减速和电子设备1600的温度变化。传感器组件1614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1614还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1614还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件1616被配置为便于电子设备1600和其他设备之间有线或无线方式的通信。电子设备1600可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件1616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1616还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，电子设备1600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1604，上述指令可由电子设备1600的处理器1620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。