HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

多人声音频处理方法、装置、设备及可读存储介质与流程

2021-01-28 18:01:22|419|起点商标网
多人声音频处理方法、装置、设备及可读存储介质与流程

本发明涉及语音处理技术领域,尤其涉及一种多人声音频处理方法、装置、设备及可读存储介质。



背景技术:

在实际的声学环境中,往往会同时存在多个不同的人声以及其他杂音。这一多人声混杂的情况为语音识别与音频处理工作带来许多困扰。尤其是在对语音音频进行归档保存的过程中,混合音频中存在的多人声语音属于不合格的情况。由于现有的从多人声中分离目标语音的技术尚未达到成熟水平,因此在实际的音频处理工作中,通常会将包含有多人声的混合音频整段丢弃,故而导致了存在多人声的音频的利用率低下的技术问题。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种多人声音频处理方法,旨在解决存在多人声的音频的利用率低下的技术问题。

为实现上述目的,本发明提供一种多人声音频处理方法,所述多人声音频处理方法应用于多人声音频处理设备,所述多人声音频处理方法包括以下步骤:

获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段,其中,待检测音频包含多人声部分与单人声部分;

获取多个音频片段对应的多个特征信息,根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落;

获取所述初始多人声段落的语义识别结果,根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。

可选地,所述特征信息为频域信息,所述预设多人声特征条件为多人声频域条件,所获取多个音频片段对应的多个特征信息,根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落的步骤包括:

将所述多个音频片段进行傅里叶变换,获取所述多个频域信息;

分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件;

若满足,则将当前的最大频域幅值对应的音频片段作为初始多人声段落;

在所述分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件的步骤之后,还包括:

若不满足,则将当前的最大频域幅值对应的音频片段作为单人声段落。

可选地,所述分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件的步骤包括:

分别判断所述多个频域信息中的最大频域幅值按照时序与之前或之后的频域信息的最大频域幅值均值之间的差值是否超出预设阈值;

若超出预设阈值,则判定所述最大频域幅值满足所述预设多人声频域条件;

若未超出预设阈值,则判定所述最大频域幅值不满足所述预设多人声频域条件。

可选地,所述获取所述初始多人声段落的语义识别结果,根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落的步骤包括:

将所述初始多人声段落输入预设语义识别模型,获取所述语义识别结果;

根据所述语义识别结果确定所述初始多人声段落中的语义分割点;

将语义分割点所划分的语音段落作为所述目标多人声段落,并从所述初始多人声段落中分离出所述目标多人声段落。

可选地,所述获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段的步骤之前,还包括:

将预设文本数据进行分词处理,获取所述预设文本数据中词语的属性序列;

对所述属性序列进行向量化处理,获取所述属性序列对应的词向量;

将所述词向量与对应的文本数据的文本向量进行拼接,生成输入数据;

将所述输入数据与对应的语义输入结果作为训练数据集进行训练,获取所述预设语义识别模型。

可选地,所述根据所述多人声段落与所述音频片段的语义识别结果,确定并分离所述音频片段中的目标多人声段落的步骤之后,还包括:

将分离出所述目标多人声段落后的音频片段按照时间顺序进行拼接,生成目标单人声音频。

可选地,所述获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段的步骤之前,还包括:

获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。

此外,为实现上述目的,本发明还提供一种多人声音频处理装置,所述多人声音频处理装置包括:

音频片段分割模块,用于获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段,其中,待检测音频包含多人声部分与单人声部分;

初始段落识别模块,用于获取多个音频片段对应的多个特征信息,根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落;

目标段落生成模块,用于获取所述初始多人声段落的语义识别结果,根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。

可选地,所述初始段落识别模块包括:

频域信息获取单元,用于将所述多个音频片段进行傅里叶变换,获取所述多个频域信息;

频域条件判断单元,用于分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件;

初始段落生成单元,用于若满足,则将当前的最大频域幅值对应的音频片段作为初始多人声段落;

所述初始段落识别模块还包括:

单人段落生成单元,用于若不满足,则将当前的最大频域幅值对应的音频片段作为单人声段落。

可选地,所述初始段落识别模块包括:

幅值差值判断单元,用于分别判断所述多个频域信息中的最大频域幅值按照时序与之前或之后的频域信息的最大频域幅值均值之间的差值是否超出预设阈值;

第一条件判定单元,用于若超出预设阈值,则判定所述最大频域幅值满足所述预设多人声频域条件;

第二条件判定单元,用于条件若未超出预设阈值,则判定所述最大频域幅值不满足所述预设多人声频域条件。

可选地,所述目标段落生成模块包括:

语义识别获取单元,用于将所述初始多人声段落输入预设语义识别模型,获取所述语义识别结果;

语义分割确定单元,用于根据所述语义识别结果确定所述初始多人声段落中的语义分割点;

目标段落分离单元,用于将语义分割点所划分的语音段落作为所述目标多人声段落,并从所述初始多人声段落中分离出所述目标多人声段落。

可选地,所述多人声音频处理装置还包括:

属性序列获取模块,用于将预设文本数据进行分词处理,获取所述预设文本数据中词语的属性序列;

词语向量获取模块,用于对所述属性序列进行向量化处理,获取所述属性序列对应的词向量;

输入数据生成模块,用于将所述词向量与对应的文本数据的文本向量进行拼接,生成输入数据;

语义模型生成模块,用于将所述输入数据与对应的语义输入结果作为训练数据集进行训练,获取所述预设语义识别模型。

可选地,所述多人声音频处理装置还包括:

单人音频获取模块,用于将分离出所述目标多人声段落后的音频片段按照时间顺序进行拼接,生成目标单人声音频。

可选地,所述多人声音频处理装置还包括:

音频降噪处理模块,用于获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。

此外,为实现上述目的,本发明还提供一种多人声音频处理设备,所述多人声音频处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多人声音频处理程序,所述多人声音频处理程序被所述处理器执行时实现如上述的多人声音频处理方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有多人声音频处理程序,所述多人声音频处理程序被处理器执行时实现如上述的多人声音频处理方法的步骤。

本发明提供一种多人声音频处理方法、装置、设备及计算机可读存储介质。所述多人声音频处理方法通过获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段,其中,待检测音频包含多人声部分与单人声部分;获取多个音频片段对应的多个特征信息,根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落;获取所述初始多人声段落的语义识别结果,根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。通过上述方式,本发明通过将待检测音频进行分段,便于后续操作的进行,提高对待检测音频的处理效率;通过音频片段的特征信息对音频片段中的多人声段落进行初步筛选;通过结合初始多人声段落的语义识别结果对其中的无效段落进一步进行筛选,极大程度地保留了待检测音频中的有效单人声部分,提高了待检测音频中剩余部分的有效性与利用率,从而解决了存在多人声的音频的利用率低下的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;

图2为本发明多人声音频处理方法第一实施例的流程示意图;

图3为本发明多人声音频处理方法第二实施例的流程示意图;

图4为本发明装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是pc,也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。

如图1所示,该终端可以包括:处理器1001,例如cpu,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多人声音频处理程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的多人声音频处理程序,并执行以下操作:

获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段,其中,待检测音频包含多人声部分与单人声部分;

获取多个音频片段对应的多个特征信息,根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落;

获取所述初始多人声段落的语义识别结果,根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。

进一步地,处理器1001可以调用存储器1005中存储的多人声音频处理程序,还执行以下操作:

将所述多个音频片段进行傅里叶变换,获取所述多个频域信息;

分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件;

若满足,则将当前的最大频域幅值对应的音频片段作为初始多人声段落;

在所述分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件的步骤之后,处理器1001可以调用存储器1005中存储的多人声音频处理程序,还执行以下操作:

若不满足,则将当前的最大频域幅值对应的音频片段作为单人声段落。

进一步地,处理器1001可以调用存储器1005中存储的多人声音频处理程序,还执行以下操作:

分别判断所述多个频域信息中的最大频域幅值按照时序与之前或之后的频域信息的最大频域幅值均值之间的差值是否超出预设阈值;

若超出预设阈值,则判定所述最大频域幅值满足所述预设多人声频域条件;

若未超出预设阈值,则判定所述最大频域幅值不满足所述预设多人声频域条件。

进一步地,处理器1001可以调用存储器1005中存储的多人声音频处理程序,还执行以下操作:

将所述初始多人声段落输入预设语义识别模型,获取所述语义识别结果;

根据所述语义识别结果确定所述初始多人声段落中的语义分割点;

将语义分割点所划分的语音段落作为所述目标多人声段落,并从所述初始多人声段落中分离出所述目标多人声段落。

进一步地,处理器1001可以调用存储器1005中存储的多人声音频处理程序,还执行以下操作:

将预设文本数据进行分词处理,获取所述预设文本数据中词语的属性序列;

对所述属性序列进行向量化处理,获取所述属性序列对应的词向量;

将所述词向量与对应的文本数据的文本向量进行拼接,生成输入数据;

将所述输入数据与对应的语义输入结果作为训练数据集进行训练,获取所述预设语义识别模型。

进一步地,处理器1001可以调用存储器1005中存储的多人声音频处理程序,还执行以下操作:

将分离出所述目标多人声段落后的音频片段按照时间顺序进行拼接,生成目标单人声音频。

进一步地,处理器1001可以调用存储器1005中存储的多人声音频处理程序,还执行以下操作:

获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。

基于上述硬件结构,提出本发明多人声音频处理方法的各个实施例。

在实际的声学环境中,往往会同时存在多个不同的人声以及其他杂音。这一多人声混杂的情况为语音识别与音频处理工作带来许多困扰。尤其是在对语音音频进行归档保存的过程中,混合音频中存在的多人声语音属于不合格的情况。由于现有的从多人声中分离目标语音的技术尚未达到成熟水平,因此在实际的音频处理工作中,通常会将包含有多人声的混合音频整段丢弃,故而导致了存在多人声的音频的利用率低下的技术问题。

为解决上述问题,本发明提供一种多人声音频处理方法,即通过将待检测音频进行分段,便于后续操作的进行,提高对待检测音频的处理效率;通过音频片段的特征信息对音频片段中的多人声段落进行初步筛选;通过结合初始多人声段落的语义识别结果对其中的无效段落进一步进行筛选,极大程度地保留了待检测音频中的有效单人声部分,提高了待检测音频中剩余部分的有效性与利用率,从而解决了存在多人声的音频的利用率低下的技术问题。本发明多人声音频处理方法应用于终端。

参照图2,图2为多人声音频处理方法第一实施例的流程示意图。

本发明第一实施例提供一种多人声音频处理方法,所述多人声音频处理方法包括以下步骤:

步骤s10,获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段,其中,待检测音频包含多人声部分与单人声部分;

在本实施例中,预设时间间隔可根据实际情况灵活设置,本实施例对此不做具体限定。待检测音频为即包含有单人声语音部分又包含有多人声语音部分的混合音频,且本实施例不对待检测音频的数目进行限定。待检测音频可由用户实时输入至终端,也可由终端根据预设程序自动获取。具体地,在接收到用户发送的音频检测指令时,终端获取该音频检测指令中一时长为5分钟的待检测音频。若预设时间间隔为10秒,终端则根据10秒的时间间隔将这一5分钟的待检测音频分为30个音频片段,并按照时间顺序依次排列显示。

步骤s20,获取多个音频片段对应的多个特征信息,根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落;

在本实施例中,特征信息可为频域信息、声纹信息等。初始人声段落为包含有多人声语音部分的音频片段。终端获取到多个由待检测音频所划分的音频片段分别对应的特征信息,根据预设的多人声特征条件来识别音频片段中的多人声语音部分。具体地,沿用步骤s10中具体实施例的设定,以特征信息为声纹信息,且预设多人声识别条件为多人声声纹条件为例。计算机将30个音频片段输入预设的已训练的声纹识别模型,得到这30个音频片段对应的初步的预测结果。计算机判断预测结果中是否存在声纹种类大于或等于两种的预测结果。若存在,则可判定该预测结果所对应的音频片段中存在多人声语音部分。另外,还可进一步确定音频片段中多人声语音部分的起止位置,将其标记为初始多人声段落的分割点。更多实施例中,以特征信息为频域信息,且预设多人声识别条件为多人声频域条件为例。计算机可将多个音频片段进行傅里叶变换,获取多个频域信息,因为单人音频的频域幅值随因发声者的不同而存在差异,但最大频域幅值依然出于一个大致的范围内。但多人声音频的最大频域幅值就与单人声音频的最大频域幅值存在较大差异。故计算机可判断各个频域信息中的最大频域幅值是否满足预设多人声频域条件。如果满足,则计算机将当前的最大频域幅值对应的音频片段作为初始多人声段落。

步骤s30,获取所述初始多人声段落的语义识别结果,根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。

在本实施例中,终端可将初始多人声段落输入预设的语义识别模型得到其对应的语义识别结果,也可通过人为识别判断,接收人为输入的语义识别结果。终端根据初始多人声段落的语义识别结果确定出其中真正无效的语音部分的起止位置,将真正无效的语音部分作为目标多人声段落,将其从初始多人声段落中去除。具体地,沿用步骤s10中的具体实施例中的设定,若计算机判定上述按照时间顺序排列的30个音频片段中第21个至25个为初始多人声段落,且根据声纹判断可知第22至第24个音频片段中仅有多人声语音,无单人声语音,则可将第22至第24个音频片段直接作为需要去除的目标多人声段落。而通过分析第21个与第25个音频片段的语义后可知,第21个音频片段中第0秒至第6秒为单人语音片段,第7秒至第10秒为多人语音片段,且第4秒至第6秒的单人语音片段与前面的单人语音片段的关联程度小,属于无效语音片段;第25个音频片段中第0秒至第4秒为多人语音片段,第5秒至第10秒为单人语音片段,且第5秒至第7秒的单人语音片段与前面的单人语音片段的关联程度小,也属于无效语音片段。故可将从第21个音频片段中的第4秒开始至第25个音频片段中的第7秒为止的语音部分作为目标多人声段落,也即为无效语音段落,从原音频中分离出。

在本实施例中,通过获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段,其中,待检测音频包含多人声部分与单人声部分;获取多个音频片段对应的多个特征信息,根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落;获取所述初始多人声段落的语义识别结果,根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。通过上述方式,本发明通过将待检测音频进行分段,便于后续操作的进行,提高对待检测音频的处理效率;通过音频片段的特征信息对音频片段中的多人声段落进行初步筛选;通过结合初始多人声段落的语义识别结果对其中的无效段落进一步进行筛选,极大程度地保留了待检测音频中的有效单人声部分,提高了待检测音频中剩余部分的有效性与利用率,从而解决了存在多人声的音频的利用率低下的技术问题。

参照图3,图3为多人声音频处理方法第二实施例的流程示意图。本发明第二实施例提供一种多人声音频处理方法,在本实施例中,步骤s20包括:

步骤s21,将所述多个音频片段进行傅里叶变换,获取所述多个频域信息;

在本实施例中,特征信息为频域信息,多人声特征条件为频域条件。终端将待检测的混合语音音频所分成的多个音频片段进行傅氏变换。傅氏变换的目的是将时域信号变换成频域信号,即根据多个音频片段得到对应的频域片段。终端将多个音频片段进行傅氏变换后,获取到对应的最大、最小频域幅值等频域信息。需要说明的是,利用傅氏变换,可直接计算出各个频域片段的频域幅值。这一技术属于现有技术,此处不再赘述。具体地,音频片段经傅氏变换变成了频率和在这一频率上的分量大小实际情况中频率的分量通常存在较大差异。

步骤s22,分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件;

在本实施例中,预设多人声频域条件为存在多人声的音频片段中的最大频域幅值为突变值。终端在获取到各个频域片段的频域幅值时,按照时间顺序依次判断每一频域片段所对应的最大频域幅值是否为所有频域片段中的突变值。具体地,可判断当前的频域片段中的最大频域幅值大小是否为按照时间顺序在该频域片段之前或之后的所有频域片段的最大幅值的均值的预设倍数或约数。

步骤s23,若满足,则将当前的最大频域幅值对应的音频片段作为初始多人声段落;

在本实施例中,初始多人声段落为音频片段中存在多人声语音的音频片段。若终端判定当前所检测的频域片段中的最大频域幅值是所有频域片段中的突变值,则判定这一最大频域幅值所对应的音频片段为初始多人声段落。

在分别判断所述多个频域信息中的最大频域幅值是否满足所述预设多人声频域条件的步骤之后,还包括:

步骤s24,若不满足,则将当前的最大频域幅值对应的音频片段作为单人声段落。

在本实施例中,单人声音频为音频片段中仅存在单人语音的音频片段。若终端判定当前所检测的频域片段中的最大频域幅值不是所有频域片段中的突变值,则判定这一最大频域幅值所对应的音频片段为单人声音频。

进一步地,图中未示的,在本实施例中,步骤s22包括:

步骤a,分别判断所述多个频域信息中的最大频域幅值按照时序与之前或之后的频域信息的最大频域幅值均值之间的差值是否超出预设阈值;

在本实施例中,计算机按照时间顺序依次判断各个频域片段中的最大频域幅值与之前的所有频域片段,或是之后的所有频域片段的最大频域幅值的均值之间的差值超出预设阈值。其中,预设阈值对优选值为最大频域幅值均值的整数倍,可根据实际情况灵活设置,本实施例对此不做具体限定。

步骤b,若超出预设阈值,则判定所述最大频域幅值满足所述预设多人声频域条件;

在本实施例中,若经计算机判定当前所检测的频域片段的最大频域幅值与其之前或是之后的所有频域片段的最大频域幅值均值的差值超出预设阈值,则可进一步判定当前的频域片段的最大频域幅值满足预设的多人声频域条件。具体地,若预设阈值为100,当前的频域片段的频域幅值为:78、69、71、87、93、180、200、230、202、299,则最大频域幅值为299。其之前的最大频域幅值均值为105,之后的最大频域幅值为159,则可判定当前的最大频域幅值满足预设多人声频域条件。

步骤c,若未超出预设阈值,则判定所述最大频域幅值不满足所述预设多人声频域条件。

在本实施例中,若经计算机判定当前所检测的频域片段的最大频域幅值与其之前或是之后的所有频域片段的最大频域幅值均值的差值未超出预设阈值,则可进一步判定当前的频域片段的最大频域幅值部满足预设的多人声频域条件。

在本实施例中,进一步通过获取各音频片段所对应的频域信息来具体判断各音频片段中是否存在多人声部分,使得能够通过较为简单的计算就能得到多人声部分的初步位置,降低的计算的复杂度,提高了多人声的定位效率;通过进一步判断上述最大频域幅值与最大频域幅值均值之间的差值是否超出阈值,能够更加快速地获取到判断结果,进一步提升了定位效率。

图中未示的,基于上述图2所示的第一实施例,提出本发明多人声音频处理方法第三实施例。在本实施例中,步骤s30包括:

步骤d,将所述初始多人声段落输入预设语义识别模型,获取所述语义识别结果;

本实施例中,可以理解的是,在步骤d之前,须先在终端上训练完成语义识别模型。终端将判定为初始多人声段落的音频片段输入预先训练好的语义识别模型,得到初始多人声段落所对应的语义识别结果。

步骤e,根据所述语义识别结果确定所述初始多人声段落中的语义分割点;

在本实施例中,语义分割点用于分割前后语义关联度低于某一阈值的初始多人声段落。初始多人声语音可能同时包含有效单人语音、无效单人语音以及多人声语音。终端根据模型所预测的语义识别结果,确定出初始多人声段落中有效的单人声语音与无效的单人声语音以及多人声语音之间的分割点。

步骤f,将语义分割点所划分的语音段落作为所述目标多人声段落,并从所述初始多人声段落中分离出所述目标多人声段落。

在本实施例中,终端根据语义分割点所确定的无效单人语音以及多人语音作为目标多人声段落,并将目标多人声段落从原音频片段中分割出来,以筛除掉原音频片段的无效部分。

进一步地,在本实施例中,步骤s10之前,还包括:

步骤g,将预设文本数据进行分词处理,获取所述预设文本数据中词语的属性序列;

在本实施例中,计算机获取预设的多条文本数据,将每条文本数据进行粗粒度分词处理。计算机根据属性信息与词语的映射关系表,标注每个粗粒度词语的属性信息,再将每个粗粒度词语进行细粒度分词处理,根据属性信息与词语的映射关系表,标注每个细粒度词语的属性信息,得到属性序列。

步骤h,对所述属性序列进行向量化处理,获取所述属性序列对应的词向量;

在本实施例中,计算机采用每个属性信息在属性字典中的位置索引,替代属性序列中的每个属性信息,得到属性序列的id化文件。计算机将属性序列的id化文件转换为当前训练的文本数据条数、当前训练的文本数据的最大长度与属性信息的种类的总数量的属性序列矩阵,并将属性序列矩阵转换为词向量矩阵。

步骤i,将所述词向量与对应的文本数据的文本向量进行拼接,生成输入数据;

在本实施例中,计算机获取多条文本数据对应的word2vec文本向量矩阵,其中,word2vec文本向量通过单独训练神经概率语言模型得到。计算机将词向量矩阵和多条文本数据对应的word2vec文本向量矩阵进行拼接,得到上述输入数据。

步骤j,将所述输入数据与对应的语义输入结果作为训练数据集进行训练,获取所述预设语义识别模型。

在本实施例中,计算机将上述输入数据与预设对应的标准语义输入结果作为用于训练语义识别模型的训练数据集进行训练,最终可获得上述预设语义识别模型。其中,模型训练这一技术属于现有技术,此处不再赘述。

进一步地,在本实施例中,步骤s30之后,还包括:

步骤k,将分离出所述目标多人声段落后的音频片段按照时间顺序进行拼接,生成目标单人声音频。

在本实施例中,终端将分离出目标多人声段落后的音频片段按照时间顺序拼接,生成目标单人音频,以便音频管理人员对单人音频进行归档保存。其中,目标单人音频为有效单人语音的音频。实际情况中还可除去音频中的空白语音部分,以减小无效资源的占用。

进一步地,在本实施例中,步骤s10之前,还包括:

步骤l,获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。

在本实施例中,在接收到用户发送的音频检测指令时,终端获取该音频检测指令中的初始音频,并使用卷积神经网络模型(cnn,convolutionalneuralnetworks)对该初始音频进行降噪处理,生成待检测音频,以减小误差。

在本实施例中,进一步通过结合语义,准确定位最终需要去除的目标多人声段落,提升了多人声定位的准确性;通过大量训练样本训练出语义识别模型,提高了语义识别的准确性;通过将分离出目标多人声段落后的音频片段进行拼接,使得将有效音频部分进行集中管理,提高了音频材料的利用率;通过对初始音频进行降噪,排除了噪声的干扰,提升了识别结果的准确度。

本发明还提供一种多人声音频处理装置。

所述多人声音频处理装置包括:

音频片段分割模块,用于获取待检测音频,根据预设时间间隔将所述待检测音频分为多个音频片段,其中,待检测音频包含多人声部分与单人声部分;

初始段落识别模块,用于获取多个音频片段对应的多个特征信息,根据预设多人声特征条件与所述多个特征信息识别所述多个音频片段中的初始多人声段落;

目标段落生成模块,用于获取所述初始多人声段落的语义识别结果,根据所述语义识别结果确定并分离所述初始多人声段落中的目标多人声段落。

本发明还提供一种多人声音频处理设备。

所述多人声音频处理设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的多人声音频处理程序,其中所述多人声音频处理程序被所述处理器执行时,实现如上所述的多人声音频处理方法的步骤。

其中,所述多人声音频处理程序被执行时所实现的方法可参照本发明多人声音频处理方法的各个实施例,此处不再赘述。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有多人声音频处理程序,所述多人声音频处理程序被处理器执行时实现如上所述的多人声音频处理方法的步骤。

其中,所述多人声音频处理程序被执行时所实现的方法可参照本发明多人声音频处理方法各个实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips