多人声音频处理方法、装置、设备及可读存储介质与流程

2021-01-28 18:01:22|

419|

起点商标网

本发明涉及语音处理技术领域，尤其涉及一种多人声音频处理方法、装置、设备及可读存储介质。

背景技术：

在实际的声学环境中，往往会同时存在多个不同的人声以及其他杂音。这一多人声混杂的情况为语音识别与音频处理工作带来许多困扰。尤其是在对语音音频进行归档保存的过程中，混合音频中存在的多人声语音属于不合格的情况。由于现有的从多人声中分离目标语音的技术尚未达到成熟水平，因此在实际的音频处理工作中，通常会将包含有多人声的混合音频整段丢弃，故而导致了存在多人声的音频的利用率低下的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

本发明的主要目的在于提供一种多人声音频处理方法，旨在解决存在多人声的音频的利用率低下的技术问题。

为实现上述目的，本发明提供一种多人声音频处理方法，所述多人声音频处理方法应用于多人声音频处理设备，所述多人声音频处理方法包括以下步骤：

获取待检测音频，根据预设时间间隔将所述待检测音频分为多个音频片段，其中，待检测音频包含多人声部分与单人声部分；

获取多个音频片段对应的多个特征信息，根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落；

获取所述初始多人声段落的语义识别结果，根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。

可选地，所述特征信息为频域信息，所述预设多人声特征条件为多人声频域条件，所获取多个音频片段对应的多个特征信息，根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落的步骤包括：

将所述多个音频片段进行傅里叶变换，获取所述多个频域信息；

分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件；

若满足，则将当前的最大频域幅值对应的音频片段作为初始多人声段落；

在所述分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件的步骤之后，还包括：

若不满足，则将当前的最大频域幅值对应的音频片段作为单人声段落。

可选地，所述分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件的步骤包括：

分别判断所述多个频域信息中的最大频域幅值按照时序与之前或之后的频域信息的最大频域幅值均值之间的差值是否超出预设阈值；

若超出预设阈值，则判定所述最大频域幅值满足所述预设多人声频域条件；

若未超出预设阈值，则判定所述最大频域幅值不满足所述预设多人声频域条件。

可选地，所述获取所述初始多人声段落的语义识别结果，根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落的步骤包括：

将所述初始多人声段落输入预设语义识别模型，获取所述语义识别结果；

根据所述语义识别结果确定所述初始多人声段落中的语义分割点；

将语义分割点所划分的语音段落作为所述目标多人声段落，并从所述初始多人声段落中分离出所述目标多人声段落。

可选地，所述获取待检测音频，根据预设时间间隔将所述待检测音频分为多个音频片段的步骤之前，还包括：

将预设文本数据进行分词处理，获取所述预设文本数据中词语的属性序列；

对所述属性序列进行向量化处理，获取所述属性序列对应的词向量；

将所述词向量与对应的文本数据的文本向量进行拼接，生成输入数据；

将所述输入数据与对应的语义输入结果作为训练数据集进行训练，获取所述预设语义识别模型。

可选地，所述根据所述多人声段落与所述音频片段的语义识别结果，确定并分离所述音频片段中的目标多人声段落的步骤之后，还包括：

将分离出所述目标多人声段落后的音频片段按照时间顺序进行拼接，生成目标单人声音频。

可选地，所述获取待检测音频，根据预设时间间隔将所述待检测音频分为多个音频片段的步骤之前，还包括：

获取初始音频，使用预设卷积神经网络模型对所述初始音频进行降噪处理，生成所述待检测音频。

此外，为实现上述目的，本发明还提供一种多人声音频处理装置，所述多人声音频处理装置包括：

音频片段分割模块，用于获取待检测音频，根据预设时间间隔将所述待检测音频分为多个音频片段，其中，待检测音频包含多人声部分与单人声部分；

初始段落识别模块，用于获取多个音频片段对应的多个特征信息，根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落；

目标段落生成模块，用于获取所述初始多人声段落的语义识别结果，根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。

可选地，所述初始段落识别模块包括：

频域信息获取单元，用于将所述多个音频片段进行傅里叶变换，获取所述多个频域信息；

频域条件判断单元，用于分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件；

初始段落生成单元，用于若满足，则将当前的最大频域幅值对应的音频片段作为初始多人声段落；

所述初始段落识别模块还包括：

单人段落生成单元，用于若不满足，则将当前的最大频域幅值对应的音频片段作为单人声段落。

可选地，所述初始段落识别模块包括：

幅值差值判断单元，用于分别判断所述多个频域信息中的最大频域幅值按照时序与之前或之后的频域信息的最大频域幅值均值之间的差值是否超出预设阈值；

第一条件判定单元，用于若超出预设阈值，则判定所述最大频域幅值满足所述预设多人声频域条件；

第二条件判定单元，用于条件若未超出预设阈值，则判定所述最大频域幅值不满足所述预设多人声频域条件。

可选地，所述目标段落生成模块包括：

语义识别获取单元，用于将所述初始多人声段落输入预设语义识别模型，获取所述语义识别结果；

语义分割确定单元，用于根据所述语义识别结果确定所述初始多人声段落中的语义分割点；

目标段落分离单元，用于将语义分割点所划分的语音段落作为所述目标多人声段落，并从所述初始多人声段落中分离出所述目标多人声段落。

可选地，所述多人声音频处理装置还包括：

属性序列获取模块，用于将预设文本数据进行分词处理，获取所述预设文本数据中词语的属性序列；

词语向量获取模块，用于对所述属性序列进行向量化处理，获取所述属性序列对应的词向量；

输入数据生成模块，用于将所述词向量与对应的文本数据的文本向量进行拼接，生成输入数据；

语义模型生成模块，用于将所述输入数据与对应的语义输入结果作为训练数据集进行训练，获取所述预设语义识别模型。

可选地，所述多人声音频处理装置还包括：

单人音频获取模块，用于将分离出所述目标多人声段落后的音频片段按照时间顺序进行拼接，生成目标单人声音频。

可选地，所述多人声音频处理装置还包括：

音频降噪处理模块，用于获取初始音频，使用预设卷积神经网络模型对所述初始音频进行降噪处理，生成所述待检测音频。

此外，为实现上述目的，本发明还提供一种多人声音频处理设备，所述多人声音频处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多人声音频处理程序，所述多人声音频处理程序被所述处理器执行时实现如上述的多人声音频处理方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有多人声音频处理程序，所述多人声音频处理程序被处理器执行时实现如上述的多人声音频处理方法的步骤。

本发明提供一种多人声音频处理方法、装置、设备及计算机可读存储介质。所述多人声音频处理方法通过获取待检测音频，根据预设时间间隔将所述待检测音频分为多个音频片段，其中，待检测音频包含多人声部分与单人声部分；获取多个音频片段对应的多个特征信息，根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落；获取所述初始多人声段落的语义识别结果，根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。通过上述方式，本发明通过将待检测音频进行分段，便于后续操作的进行，提高对待检测音频的处理效率；通过音频片段的特征信息对音频片段中的多人声段落进行初步筛选；通过结合初始多人声段落的语义识别结果对其中的无效段落进一步进行筛选，极大程度地保留了待检测音频中的有效单人声部分，提高了待检测音频中剩余部分的有效性与利用率，从而解决了存在多人声的音频的利用率低下的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明多人声音频处理方法第一实施例的流程示意图；

图3为本发明多人声音频处理方法第二实施例的流程示意图；

图4为本发明装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是pc，也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如cpu，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多人声音频处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的多人声音频处理程序，并执行以下操作：

获取待检测音频，根据预设时间间隔将所述待检测音频分为多个音频片段，其中，待检测音频包含多人声部分与单人声部分；

获取多个音频片段对应的多个特征信息，根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落；

获取所述初始多人声段落的语义识别结果，根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。