声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质与流程
本发明涉及数据处理技术领域,具体而言,涉及一种声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质。
背景技术:
声纹识别属于一种识别技术,也称为说话人识别。不同的人说出的语音信息,对应的声纹可以不同,对一段语音信息进行识别以识别出对应的声纹,即对应的说话人,也变得越来越重要。
相关技术中,通过人耳对语音信息进行倾听,继而通过人工识别出该语音信息对应的声纹。
但是,相关技术中,通过人耳识别声纹,浪费了不必要的人力资源,还容易出现识别结果不准确的问题。
技术实现要素:
本发明的目的在于,针对上述现有技术中的不足,提供一种声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质,以便解决相关技术中,通过人耳识别声纹,浪费了不必要的人力资源,还容易出现识别结果不准确的问题。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种声纹鉴定模型的训练方法,包括:
从语音样本的音素中,确定目标音素样本,所述语音样本的音素预先标注有说话人标签;
生成所述目标音素样本中音素的宽带语谱图和窄带语谱图;
获取所述宽带语谱图的第一样本特征信息和所述窄带语谱图的第二样本特征信息;
根据所述第一样本特征信息和所述第二样本特征信息,采用预设的神经网络架构进行模型训练,得到具有所述神经网络架构的声纹鉴定模型。
可选的,所述从语音样本的音素中,确定目标音素样本,包括:
从所述语音样本的音素中选择参考音素样本;
根据所述参考音素样本中的音素,从所述语音样本的音素中确定具有同一说话人标签的音素作为同类音素样本;
根据所述参考音素样本中的音素,从所述语音样本的音素中确定具有不同说话人标签的音素作为异类音素样本;
所述目标音素样本包括:所述参考音素样本、所述同类音素样本和所述异类音素样本。
可选的,所述生成所述目标音素样本中音素的宽带语谱图和窄带语谱图,包括:
对所述目标音素样本中音素进行数据增强;
绘制数据增强后的音素的所述宽带语谱图和所述窄带语谱图。
可选的,所述绘制数据增强后的音素的所述宽带语谱图和所述窄带语谱图,包括:
对所述数据增强后的音素进行分帧处理,得到多个音素帧;
根据每个音素帧的帧长,对所述每个音素帧进行加窗处理,得到加窗后的音素帧;
对所述加窗后的音素帧进行傅立叶变换,得到频域音素帧;
计算所述频域音素帧在频率刻度的能量;
根据所述频率刻度的能量,绘制所述宽带语谱图和所述窄带语谱图。
可选的,所述根据所述频率刻度的能量,绘制所述宽带语谱图和所述窄带语谱图,包括:
将所述频率刻度的能量整合成二维矩阵;
对所述二维矩阵进行灰度映射,得到所述宽带语谱图和所述窄带语谱图。
可选的,所述第一样本特征信息包括:共振峰和功率谱信息;
所述第二样本特征信息包括:基频和谐波信息。
第二方面,本发明实施例提供了一种声纹鉴定方法,包括:
提取多个待鉴定语音的鉴定音素;
生成每个鉴定音素的宽带语谱图和窄带语谱图;
获取所述宽带语谱图的第一鉴定特征信息和所述窄带语谱图的第二鉴定特征信息;
根据所述第一鉴定特征信息和所述第二鉴定特征信息,采用声纹鉴定模型进行声纹鉴定,得到声纹鉴定结果;
其中,所述声纹鉴定结果用于指示多个所述待鉴定语音是否为同一说话人;所述声纹鉴定模型为采用上述第一方面中任一所述的训练方法得到的模型。
第三方面,本发明实施例还提供了一种声纹鉴定模型的训练装置,包括:
确定模块,用于从语音样本的音素中,确定目标音素样本,所述语音样本的音素预先标注有说话人标签;
生成模块,用于生成所述目标音素样本中音素的宽带语谱图和窄带语谱图;
获取模块,用于获取所述宽带语谱图的第一样本特征信息和所述窄带语谱图的第二样本特征信息;
训练模块,用于根据所述第一样本特征信息和所述第二样本特征信息,采用预设的神经网络架构进行模型训练,得到具有所述神经网络架构的声纹鉴定模型。
可选的,所述确定模块,用于从所述语音样本的音素中选择参考音素样本;根据所述参考音素样本中的音素,从所述语音样本的音素中确定具有同一说话人标签的音素作为同类音素样本;根据所述参考音素样本中的音素,从所述语音样本的音素中确定具有不同说话人标签的音素作为异类音素样本;所述目标音素样本包括:所述参考音素样本、所述同类音素样本和所述异类音素样本。
可选的,所述生成模块,还用于对所述目标音素样本中音素进行数据增强;绘制数据增强后的音素的所述宽带语谱图和所述窄带语谱图。
可选的,所述生成模块,还用于对所述数据增强后的音素进行分帧处理,得到多个音素帧;根据每个音素帧的帧长,对所述每个音素帧进行加窗处理,得到加窗后的音素帧;对所述加窗后的音素帧进行傅立叶变换,得到频域音素帧;计算所述频域音素帧在频率刻度的能量;根据所述频率刻度的能量,绘制所述宽带语谱图和所述窄带语谱图。
可选的,所述生成模块,还用于将所述频率刻度的能量整合成二维矩阵;对所述二维矩阵进行灰度映射,得到所述宽带语谱图和所述窄带语谱图。
可选的,所述第一样本特征信息包括:共振峰和功率谱信息;
所述第二样本特征信息包括:基频和谐波信息。
第四方面,本发明实施例还提供了一种声纹鉴定装置,包括:
提取模块,用于提取多个待鉴定语音的鉴定音素;
生成模块,用于生成每个鉴定音素的宽带语谱图和窄带语谱图;
获取模块,用于获取所述宽带语谱图的第一鉴定特征信息和所述窄带语谱图的第二鉴定特征信息;
鉴定模块,用于根据所述第一鉴定特征信息和所述第二鉴定特征信息,采用声纹鉴定模型进行声纹鉴定,得到声纹鉴定结果;
其中,所述声纹鉴定结果用于指示多个所述待鉴定语音是否为同一说话人;所述声纹鉴定模型为采用上述第一方面中任一所述的训练方法得到的模型。
第五方面,本发明实施例还提供了一种处理设备,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面、第二方面任一项所述的方法。
第六方面,本发明实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面、第二方面任一项所述的方法。
本发明的有益效果是:本申请实施例提供一种声纹鉴定模型的训练方法,包括:从语音样本的音素中,确定目标音素样本,语音样本的音素预先标注有说话人标签;生成目标音素样本中音素的宽带语谱图和窄带语谱图;获取宽带语谱图的第一样本特征信息和窄带语谱图的第二样本特征信息;根据第一样本特征信息和第二样本特征信息,采用预设的神经网络架构进行模型训练,得到具有神经网络架构的声纹鉴定模型。宽带语谱图的第一样本特征信息,以及窄带语谱图的第二样本特征信息,训练得到具有神经网络架构的声纹鉴定模型,基于该声纹鉴定模型可以对待鉴定语音进行声纹鉴定,减少了人力资源的浪费,提高了声纹鉴定的客观性和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图;
图2为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图;
图3为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图;
图4为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图;
图5为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图;
图6为本发明实施例提供的一种声纹鉴定方法的流程示意图;
图7为本发明实施例提供的一种声纹鉴定模型的训练装置的结构示意图;
图8为本发明实施例提供的一种声纹鉴定装置的结构示意图;
图9为本发明实施例提供的一种处理设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
针对相关技术中,通过人耳识别声纹,浪费了不必要的人力资源,还容易出现识别结果不准确的问题。本申请实施例提供一种声纹鉴定模型的训练方法,包括:从语音样本的音素中,确定目标音素样本,语音样本的音素预先标注有说话人标签;生成目标音素样本中音素的宽带语谱图和窄带语谱图;获取宽带语谱图的第一样本特征信息和窄带语谱图的第二样本特征信息;根据第一样本特征信息和第二样本特征信息,采用预设的神经网络架构进行模型训练,得到具有神经网络架构的声纹鉴定模型。宽带语谱图的第一样本特征信息,以及窄带语谱图的第二样本特征信息,训练得到具有神经网络架构的声纹鉴定模型,基于该声纹鉴定模型可以对待鉴定语音进行声纹鉴定,减少了人力资源的浪费,提高了声纹鉴定的客观性和准确性。
本申请实施例提供的一种声纹鉴定模型的训练方法,执行主体可以为处理设备,该处理设备可以为终端,也可以为服务器,该可以为其他类型具备功能的设备,本申请实施例对此不进行具体限制。下述以处理设备为执行主体,对本申请实施例提供的声纹鉴定模型的训练方法进行说明。
图1为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图,如图1所示,该方法可以包括:
s101、从语音样本的音素中,确定目标音素样本。
其中,语音样本的音素预先标注有说话人标签。
在一些实施方式中,处理设备可以获取多个具有说话人标签的语音样本,对于各语音样本提取音素得到多个语音样本的音素,对多个语音样本的音素进行归类整合,得到多个目标音素样本。
需要说明的是,音素是根据语音的自然属性划分出来的最小语音单位,可以依据音节里的发音动作来分析,一个动作构成一个音素。其中,目标音素样本中的音素可以为音素对。
s102、生成目标音素样本中音素的宽带语谱图和窄带语谱图。
其中,一个音素可以分别对应一个宽带语谱图和一个窄带语谱图。宽带语谱图和窄带语谱图所表征的信息可以不同。
可选的,宽带语谱图能清晰的显示共振峰结构和语谱包络,能反映频谱的快速时变过程了;窄带语谱图可以清晰的显示谐波的结构,能反映基频的时变过程。
在一种可能的实施方式中,处理设备可以采用预设语谱图生成规则,生成目标音素样本中各音素的宽带语谱图和窄带语谱图。其中,预设语谱图生成规则可以包括预设宽带语谱图生成规则和预设窄带语谱图生成规则,采用对应的规则可以生成相应的语谱图。
s103、获取宽带语谱图的第一样本特征信息和窄带语谱图的第二样本特征信息。
其中,语音样本的音素标注有说话人标签,基于语音样本的音素确定的目标音素样本也标注有说话人标签,音素的宽带语谱图和窄带语谱图也对应有说话人标签,第一样本特征信息和第二样本特征信息也标注有说话人标签。
在一种可能的实施方式中,处理设备可以分别从宽带语谱图中提取第一样本特征信息,从窄带语谱图中提取第二样本特征信息,得到各音素的第一样本特征信息和第二样本特征信息。继而可以对同一音素的第一样本特征信息和第二样本特征信息进行拼接。
s104、根据第一样本特征信息和第二样本特征信息,采用预设的神经网络架构进行模型训练,得到具有神经网络架构的声纹鉴定模型。
可选的,预设的神经网络架构可以为三元卷积神经网络架构。该预设的神经网络架构具有可以拟合任意非线性函数的优点,将人类神经元中对外界信息的特征提取、特征传递和感知过程进行建模。
在一些实施方式中,处理设备可以将目标音素样本中各音素的第一样本特征信息和第二样本特征信息,输入预设的神经网络架构中,逐层进行前向计算,计算一轮训练的损失函数,将神经网络架构的梯度进行反向传播,更新神经网络架构中的网络参数,训练结果满足预设条件时完成训练,得到具有神经网络架构的声纹鉴定模型。
其中,训练结果满足预设条件包括:损失函数不再变化,或者,训练过程中所计算的评估值小于或者等于预设评估值,则表示满足预设条件。
综上所述,本申请实施例提供一种声纹鉴定模型的训练方法,包括:从语音样本的音素中,确定目标音素样本,语音样本的音素预先标注有说话人标签;生成目标音素样本中音素的宽带语谱图和窄带语谱图;获取宽带语谱图的第一样本特征信息和窄带语谱图的第二样本特征信息;根据第一样本特征信息和第二样本特征信息,采用预设的神经网络架构进行模型训练,得到具有神经网络架构的声纹鉴定模型。宽带语谱图的第一样本特征信息,以及窄带语谱图的第二样本特征信息,训练得到具有神经网络架构的声纹鉴定模型,基于该声纹鉴定模型可以对待鉴定语音进行声纹鉴定,减少了人力资源的浪费,提高了声纹鉴定的客观性和准确性。
可选的,图2为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图,如图2所示,上述s101中从语音样本的音素中,确定目标音素样本的过程,可以包括:
s201、从语音样本的音素中选择参考音素样本。
需要说明的是,处理设备可以随机在语音样本的音素中选择参考音素样本。当然,处理设备还可以基于其他选择规则,选择参考音素样本,本申请实施例对此不进行具体限制。
s202、根据参考音素样本中的音素,从语音样本的音素中确定具有同一说话人标签的音素作为同类音素样本。
s203、根据参考音素样本中的音素,从语音样本的音素中确定具有不同说话人标签的音素作为异类音素样本。
其中,参考音素样本和同类音素样本可以为具有同一说话人标签的音素对,参考音素样本和异类音素样本可以为具有不同人说话标签的音素对。目标音素样本可以包括:参考音素样本、同类音素样本和异类音素样本。该参考音素样本、同类音素样本和异类音素样本可以构成三元组。
在本申请实施例中,训练过程中的损失函数可以为:
其中,
需要说明的是,
另外,
在本申请实施例中,预设的神经网络架构可以包括输入层、卷积层、非线性激活层、池化层、卷积层、非线性激活层、池化层、卷积层、非线性激活层、池化层、卷积层,可以使用adam(自适应矩估计)优化器。其中,输入输入层的输入可以为第一样本特征信息和第二样本特征信息,池化层可以对特征维度进行降维,还可以压缩参数的数量,减小过拟合,同时提升模型的鲁棒性。第二次和第三次引入卷积层、非线性激活层和池化层,最后再接一个卷积层,可以进一步细化特征。
另外,在训练过程中,参考音素样本、同类音素样本和异类音素样本对应的权值可以共享。
可选的,图3为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图,如图3所示,上述s102中生成目标音素样本中音素的宽带语谱图和窄带语谱图的过程,可以包括:
s301、对目标音素样本中音素进行数据增强。
其中,对目标音素样本中音素进行数据增强,可以增加训练的数据量继而可以增强鲁棒性和准确性。
在一些实施方式中,处理设备可以采用随机的方式,在预设范围内对目标音素样本中音素进行数据增强。其中,可以对音素进行调节音量、调节语速、加混响、加噪声等处理,还可以控制随机量的大小。
需要说明的是,调节音量对应的预设范围可以为0至+10db(分贝),语速对应的预设范围可以为0.95至1.05倍速,混响的rt60(混响时间)对应的预设范围可以为0至1.3s(秒),噪声对应的预设范围可以为0至+15db(分贝)。
s302、绘制数据增强后的音素的宽带语谱图和窄带语谱图。
在本申请实施例中,处理设备可以采用预设宽带语谱图绘制规则、预设窄带语谱图绘制规则,根据数据增强后的音素,绘制对应的宽带语谱图和窄带语谱图。
综上所述,对目标音素样本中音素进行数据增强,绘制数据增强后的音素的宽带语谱图和窄带语谱图。可以使得训练得到的声纹鉴定模型可靠性和鲁棒性更佳,继而可以使得输出的声纹鉴定结果更加准确。
可选的,图4为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图,如图4所示,上述s302中绘制数据增强后的音素的宽带语谱图和窄带语谱图的过程,可以包括:
s401、对数据增强后的音素进行分帧处理,得到多个音素帧。
其中,处理设备可以确定宽带语谱图帧长和帧移,以及窄带语谱图的帧长和帧移,继而可以根据相应的帧长和帧移对数据增强后的音素进行分帧处理,得到两组音素帧,一组为宽带语谱图对应的音素帧,一组为窄带语谱图对应的音素帧,每组音素帧包括多个音素帧。
需要说明的是,帧长和帧移之间满足预设关系。帧移可以大于或者等于帧长的预设数值,其中,预设数值可以为50%,可以为75%,还可以其他数值,本申请实施例对此不进行具体限制。
在本申请实施例中,宽带语谱图的时间分辨率较高,但频率分辨率较低;窄带语谱图的时间分辨率较低,但频率分辨率较高。造成这种现象的原因是宽带语谱图和窄带语谱图的分析帧的帧长不同,从而导致了带宽的差异,宽带语谱图和窄带语谱图也因此得名。
在一些实施方式中,以高斯分析窗为例(其他窗与高斯分析窗情况接近),-3db带宽d(单位为hertz,赫兹)分析帧的帧长l(单位为秒)具有如下关系:
s402、根据每个音素帧的帧长,对每个音素帧进行加窗处理,得到加窗后的音素帧。
其中,一组音素帧中每个音素帧的帧长可以相同,另一组音素帧中每个音素帧的帧长也可以相同。加窗后的音素帧包括:宽带语谱图对应的加窗后的音素帧、窄带语谱图对应的加窗后的音素帧。
在一种可能的实施方式中,处理设备可以将宽带语谱图的多个音素帧的帧长,作为宽带语谱图对应的窗长;将窄带语谱图的多个音素帧的帧长,作为窄带语谱图对应的窗长。继而可以根据宽带语谱图对应的窗长,采用预设窗,对宽带语谱图对应的各个音素帧进行加窗,得到宽带语谱图对应的加窗后的音素帧;根据窄带语谱图对应的窗长,采用预设窗,对窄带语谱图对应的各个音素帧进行加窗,得到窄带语谱图对应的加窗后的音素帧。
需要说明的是,分析窗可以通常可以包括:bartlett窗、blackman窗、barlett-hann窗、blackman-harris窗、bohman窗、flattop窗、gauss窗、hamming窗、hann窗、nuttall窗、parzen窗、rectangular窗、triangular窗。
可选的,本申请实施例所采用的预设窗可以为hamming窗,将音素帧和预设窗对应的窗函数进行相乘可以确定加窗后的音素帧。当预设窗为hamming窗时,对应的窗函数可以为:
其中,n为音素帧中样本标识,n为一帧音素帧中的总样点数。
在本申请实施例中,宽带和窄带语谱图使用类似的步骤,仅通过改变窗长就可以相互转化,复用性强。
s403、对加窗后的音素帧进行傅立叶变换,得到频域音素帧。
其中,频域音素帧可以包括:宽带语谱图对应的频域音素帧、窄带语谱图对应的频域音素帧。
在一些实施方式中,处理设备可以对加窗后的音素帧进行离散傅立叶变换(discretefouriertransformation,dft),将时域音素帧转换为频域音素帧。
需要说明的是,上述离散傅立叶变换公式可以为:
在本申请实施例中,将每帧加窗后的音素帧的样点数取成2的整数次幂,利用快速傅立叶变换(fastfouriertransformation,fft)来加速计算。例如,8000hz采样率的音素,宽带语谱图和窄带语谱图的每帧的样点数分别为40和240,对加窗后的音素帧的末尾进行补零,分别填充至64和256个样点即可。
s404、计算频域音素帧在频率刻度的能量。
其中,频率刻度的能量可以包括:宽带语谱图对应的频率刻度的能量、窄带语谱图对应的频率刻度的能量。
在本申请实施例中,对加窗后的音素帧进行傅立叶变换,得到频域音素帧可以为一组复数,可以表示不同频率刻度上的振幅和相位,语谱图展示的是频率刻度上的能量。因此,可以采用预设公式,计算频域音素帧在频率刻度的能量。
另外,预设公式可以为:
s405、根据频率刻度的能量,绘制宽带语谱图和窄带语谱图。
在本申请实施例中,处理设备可以根据宽带语谱图对应的频率刻度的能量绘制宽带语谱图,根据窄带语谱图对应的频率刻度的能量绘制窄带语谱图。
可选的,图5为本发明实施例提供的一种声纹鉴定模型的训练方法的流程示意图,如图5所示,上述s405中根据频率刻度的能量,绘制宽带语谱图和窄带语谱图的过程,可以包括:
s501、将频率刻度的能量整合成二维矩阵。
在一些实施方式中,处理设备可以将宽带语谱图对应的频率刻度的能量整合为宽带语谱图对应的二维矩阵;将窄带语谱图对应的频率刻度的能量整合为窄带语谱图对应的二维矩阵。
s502、对二维矩阵进行灰度映射,得到宽带语谱图和窄带语谱图。
其中,二维矩阵中可以包括能量数值。
在一种可能的实施方式中,可以将宽带语谱图对应的二维矩阵中的能量数值,采用最大能量数值、最小能量数值、预设能量范围进行灰度映射,得到宽带语谱图。可以将窄带语谱图对应的二维矩阵中的能量数值,采用最大能量数值、最小能量数值、预设能量范围进行灰度映射,得到窄带语谱图。
另外,宽带语谱图和窄带语谱图的纵坐标可以为频率刻度,横坐标可以为时间。
可选的,第一样本特征信息包括:共振峰和功率谱信息;第二样本特征信息包括:基频和谐波信息。
在本申请实施例中,通过关键词检索技术(keywordspotting,kws),可以定位元音音素在宽带语谱图的时刻,然后观察宽带语谱图上颜色较深的区域来判断各个共振峰所在的频率,也能根据颜色的深浅看出功率谱的走势。
需要说明的是,窄带语谱图主要展示的是基频和谐波信息,基频是发原音时声带的震动频率,窄带语谱图中最底部的横条纹就是基频所在频率,谐波所在频率是基频的整数倍,因此也分为奇次谐波和偶次谐波,语音的音色与基频、谐波有较大关系。
另外,宽带语谱图可以呈竖状分布,窄带语谱图可以呈横状分布。宽带语谱图和窄带语谱图的颜色越深,则对应的能量越大,黑色区域代表音素段。
本申请实施例提供的一种声纹鉴定方法,执行主体可以为处理设备,该处理设备可以为终端,也可以为服务器,该可以为其他类型具备功能的设备,本申请实施例对此不进行具体限制。下述以处理设备为执行主体,对本申请实施例提供的声纹鉴定方法进行说明。
综上所述,本申请实施例提供一种声纹鉴定模型的训练方法,包括:从语音样本的音素中,确定目标音素样本,语音样本的音素预先标注有说话人标签;生成目标音素样本中音素的宽带语谱图和窄带语谱图;获取宽带语谱图的第一样本特征信息和窄带语谱图的第二样本特征信息;根据第一样本特征信息和第二样本特征信息,采用预设的神经网络架构进行模型训练,得到具有神经网络架构的声纹鉴定模型。宽带语谱图的第一样本特征信息,以及窄带语谱图的第二样本特征信息,训练得到具有神经网络架构的声纹鉴定模型,基于该声纹鉴定模型可以对待鉴定语音进行声纹鉴定,减少了人力资源的浪费,提高了声纹鉴定的客观性和准确性。而且,基于宽带语谱图和窄带语谱图确定第一样本特征信息和第二样本特征信息,使得确定的特征信息更加准确。在宽带语谱图和窄带语谱图的带宽大小分别为260hz和43hz,可以使得鉴定结果更加准确,对目标音素样本中音素进行数据增强,可以提升准确性和鲁棒性。
图6为本发明实施例提供的一种声纹鉴定方法的流程示意图,如图6所示,该声纹鉴定方法可以包括:
s801、提取多个待鉴定语音的鉴定音素。
其中,多个待鉴定语音可以为同一说话人的语音,也可以为不同说话人的语音。
在一些实施方式中,待鉴定语音的数量可以为两个。一个待鉴定语音中标注有说话人标签,另一个待鉴定语音中未标注有说话人标签,则可以通过声纹鉴定模型鉴定另一个待鉴定语音的说话人,是否为一个待鉴定语音的说话人。
s802、生成每个鉴定音素的宽带语谱图和窄带语谱图。
需要说明的是,s802中生成每个鉴定音素的宽带语谱图和窄带语谱图,与上述s102中生成目标音素样本中音素的宽带语谱图和窄带语谱图过程类似,此处不在一一赘述。
s803、获取宽带语谱图的第一鉴定特征信息和窄带语谱图的第二鉴定特征信息。
需要说明的是,s803的过程和上述s103的过程类似,此处不再赘述。
s804、根据第一鉴定特征信息和第二鉴定特征信息,采用声纹鉴定模型进行声纹鉴定,得到声纹鉴定结果。
其中,声纹鉴定结果用于指示多个待鉴定语音是否为同一说话人;声纹鉴定模型为采用上述图1至5中任一的训练方法得到的声纹鉴定模型。
在一种可能的实施方式中,处理设备可以将同一鉴定音素的第一鉴定特征信息和第二鉴定特征信息进行拼接,将拼接后的信息输入声纹鉴定模型,网络会逐层提取特征,继而输出声纹鉴定结果。其中,声纹鉴定结果可以表征多个待鉴定语音为同类或者异类。在为同类时,说明多个待鉴定语音为同一说话人,在为异类时,说明多个待鉴定语音不为同一说话人。
综上所述,本发明实施例提供一种声纹鉴定方法,包括:提取多个待鉴定语音的鉴定音素;生成每个鉴定音素的宽带语谱图和窄带语谱图;获取宽带语谱图的第一鉴定特征信息和窄带语谱图的第二鉴定特征信息;根据第一鉴定特征信息和第二鉴定特征信息,采用声纹鉴定模型进行声纹鉴定,得到声纹鉴定结果;其中,声纹鉴定结果用于指示多个待鉴定语音是否为同一说话人。通过训练得到声纹鉴定模型可以对待鉴定语音进行声纹鉴定,减少了人力资源的浪费,提高了声纹鉴定的客观性和准确性。
图7为本发明实施例提供的一种声纹鉴定模型的训练装置的结构示意图;如图7所示,该声纹鉴定模型的训练装置可以包括:
确定模块901,用于从语音样本的音素中,确定目标音素样本,语音样本的音素预先标注有说话人标签;
生成模块902,用于生成目标音素样本中音素的宽带语谱图和窄带语谱图;
获取模块903,用于获取宽带语谱图的第一样本特征信息和窄带语谱图的第二样本特征信息;
训练模块904,用于根据第一样本特征信息和第二样本特征信息,采用预设的神经网络架构进行模型训练,得到具有神经网络架构的声纹鉴定模型。
可选的,确定模块901,用于从语音样本的音素中选择参考音素样本;根据参考音素样本中的音素,从语音样本的音素中确定具有同一说话人标签的音素作为同类音素样本;根据参考音素样本中的音素,从语音样本的音素中确定具有不同说话人标签的音素作为异类音素样本;目标音素样本包括:参考音素样本、同类音素样本和异类音素样本。
可选的,生成模块902,还用于对目标音素样本中音素进行数据增强;绘制数据增强后的音素的宽带语谱图和窄带语谱图。
可选的,生成模块902,还用于对数据增强后的音素进行分帧处理,得到多个音素帧;根据每个音素帧的帧长,对每个音素帧进行加窗处理,得到加窗后的音素帧;对加窗后的音素帧进行傅立叶变换,得到频域音素帧;计算频域音素帧在频率刻度的能量;根据频率刻度的能量,绘制宽带语谱图和窄带语谱图。
可选的,生成模块902,还用于将频率刻度的能量整合成二维矩阵;对二维矩阵进行灰度映射,得到宽带语谱图和窄带语谱图。
可选的,第一样本特征信息包括:共振峰和功率谱信息;
第二样本特征信息包括:基频和谐波信息。
图8为本发明实施例提供的一种声纹鉴定装置的结构示意图。如图8所示,如图8所示,该声纹鉴定装置可以包括:
提取模块1001,用于提取多个待鉴定语音的鉴定音素;
生成模块1002,用于生成每个鉴定音素的宽带语谱图和窄带语谱图;
获取模块1003,用于获取宽带语谱图的第一鉴定特征信息和窄带语谱图的第二鉴定特征信息;
鉴定模块1004,用于根据第一鉴定特征信息和第二鉴定特征信息,采用声纹鉴定模型进行声纹鉴定,得到声纹鉴定结果;
其中,声纹鉴定结果用于指示多个待鉴定语音是否为同一说话人;声纹鉴定模型为采用上述任一的训练方法得到的模型。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(applicationspecificintegratedcircuit,简称asic),或,一个或多个微处理器(digitalsingnalprocessor,简称dsp),或,一个或者多个现场可编程门阵列(fieldprogrammablegatearray,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessingunit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
图9为本发明实施例提供的一种处理设备的结构示意图,如图9所示,该处理设备可以包括:处理器1101、存储器1102。
存储器1102用于存储程序,处理器1101调用存储器1102存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文:read-onlymemory,简称:rom)、随机存取存储器(英文:randomaccessmemory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除