一种声纹识别模型训练方法、装置、电子设备及存储介质与流程

2021-01-28 16:01:05|

323|

起点商标网

本发明涉及人工智能技术领域，特别是涉及一种声纹识别模型训练方法、装置、电子设备及存储介质。

背景技术：

随着人工智能技术的发展，声纹识别技术取得了巨大的进步，并开始进入家电、通信、汽车、医疗等各个领域。

相关技术中，声纹识别的过程通常为：获取待识别语音；提取待识别语音的声纹特征；将所提取的声纹特征与声纹数据库中存储的声纹特征进行匹配，并将声纹数据库中，匹配度最高的声纹特征所对应的用户，确定为待识别语音所对应的用户。

然而，在实际应用中，由于有些用户之间的用户语音之间的相似度较高，进而这些用户的用户语音的声纹特征的相似度较高。这样，在声纹识别的过程中，可能会导致声纹识别结果出现错误，例如，待识别语音是来自用户a的用户语音，如果用户a的用户语音与用户b的用户语音较为相似，那么，相关技术对待识别语音进行识别，所识别得到的声纹识别结果很可能为用户b。

技术实现要素：

为解决相关技术中存在的对待识别语音进行识别时，所得到的声纹识别结果可能存在错误的技术问题，本公开实施例提供了一种声纹识别模型训练方法、装置、电子设备及存储介质。

第一方面，本发明实施例提供了一种声纹识别模型训练方法，所述方法包括：

获取目标样本语音的音频特征向量；

对所述音频特征向量进行语音增强，得到第一音频特征向量和第二音频特征向量，所述第一音频特征向量和所述第二音频特征向量不同；

将所述第一音频特征向量和所述第二音频特征向量输入声纹识别模型中，得到第一声纹特征向量和第二声纹特征向量，所述第一声纹特征向量与所述第二声纹特征向量的维度相同；

计算所述第一声纹特征向量与所述第二声纹特征向量的第一相似度，以及所述第一声纹特征向量与第三声纹特征向量的第二相似度，所述第三声纹特征向量为预先存储的预设声纹特征向量，所述预设声纹特征向量与所述第一声纹特征向量的维度相同，且所述预设声纹特征向量对应的样本语音与所述目标样本语音不同；

在所述第一相似度和所述第二相似度满足预设条件时，确定所述声纹识别模型的模型参数，所述预设条件用于表征所述第一相似度大于第一预设相似度，且第二相似度小于第二预设相似度；

通过带有标签的样本语音训练所述声纹识别模型，并在所述声纹识别模型的声纹识别结果的准确度大于预设准确度时，再次确定所述声纹识别模型的模型参数，得到训练好的声纹识别模型。

可选的，所述声纹识别模型包括第一编码器和第二编码器，所述第一编码器初始化参数与所述第二编码器的初始化参数相同；

所述将所述第一音频特征向量和所述第二音频特征特征向量输入声纹识别模型中，得到第一声纹特征向量和第二声纹特征向量，包括：

将所述第一音频特征向量输入所述第一编码器，得到第一声纹特征向量；

将所述第二音频特征向量输入所述第二编码器，得到第二声纹特征向量。

可选的，所述确定所述声纹识别模型的模型参数，包括：

确定所述第一编码器的各个第一编码参数对应的参数梯度；

对于所述第一编码器的每一第一编码参数，利用该第一编码参数对应的参数梯度更新该第一编码参数，得到所述第一编码器的更新后的第一编码参数；

根据所述第一编码器的更新后的第一编码参数，更新所述第二编码器的各个第二编码参数。

可选的，所述对所述音频特征向量进行语音增强，得到第一音频特征向量和第二音频特征向量，包括：

从所述音频特征向量截取第一长度的第一子音频特征向量，以及第二长度的第二子音频特征向量；

分别对所述第一子音频特征向量以及所述第二子音频特征向量进行语音增强；

将语音增强后的第一子音频特征向量确定为第一音频特征向量，将语音增强后的第二子音频特征向量确定为第二音频特征向量。

可选的，所述第三声纹特征向量以声纹特征向量队列的形式进行存储，所述声纹特征向量队列的最大长度为n，其中，n为正整数；

所述方法还包括：

在所述声纹特征向量队列中存储的声纹特征向量的数量为n时，将第一个存储于所述声纹特征向量队列中的第三声纹特征向量移出所述声纹特征向量队列；

将所述第二声纹特征向量放入所述声纹特征向量队列中。

可选的，确定所述第一相似度和所述第二相似度满足预设条件，包括：

构造维度为n+1的第一向量，所述第一向量的第一个元素为1，其他元素均为0；

构造维度为n+1的第二向量，所述第二向量的第一个元素为第一相似度，所述第二向量的其他n个元素为第二相似度；

在目标损失函数的损失函数值小于预设损失值时，确定所述第一相似度和所述第二相似度满足预设条件，其中，所述目标损失函数的损失函数值的大小用于表征所述第一向量与所述第二向量的内积的相反数的大小。

第二方面，本发明实施例提供了一种声纹识别模型训练装置，所述装置包括：

向量获取模块，用于获取目标样本语音的音频特征向量；

语音增强模块，用于对所述音频特征向量进行语音增强，得到第一音频特征向量和第二音频特征向量，所述第一音频特征向量和所述第二音频特征向量不同；

向量输入模块，用于将所述第一音频特征向量和所述第二音频特征向量输入声纹识别模型中，得到第一声纹特征向量和第二声纹特征向量，所述第一声纹特征向量与所述第二声纹特征向量的维度相同；

相似度计算模块，用于计算所述第一声纹特征向量与所述第二声纹特征向量的第一相似度，以及所述第一声纹特征向量与第三声纹特征向量的第二相似度，所述第三声纹特征向量为预先存储的预设声纹特征向量，所述预设声纹特征向量与所述第一声纹特征向量的维度相同，且所述预设声纹特征向量对应的样本语音与所述目标样本语音不同；

第一参数确定模块，用于在所述第一相似度和所述第二相似度满足预设条件时，确定所述声纹识别模型的模型参数，所述预设条件用于表征所述第一相似度大于第一预设相似度，且第二相似度小于第二预设相似度；

第二参数确定模块，通过带有标签的样本语音训练所述声纹识别模型，并在所述声纹识别模型的声纹识别结果的准确度大于预设准确度时，再次确定所述声纹识别模型的模型参数，得到训练好的声纹识别模型。

可选的，所述声纹识别模型包括第一编码器和第二编码器，所述第一编码器初始化参数与所述第二编码器的初始化参数相同；

所述向量输入模块，具体用于：

将所述第一音频特征向量输入所述第一编码器，得到第一声纹特征向量；

将所述第二音频特征向量输入所述第二编码器，得到第二声纹特征向量。

可选的，所述第一参数确定模块，具体用于：

确定所述第一编码器的各个第一编码参数对应的参数梯度；

对于所述第一编码器的每一第一编码参数，利用该第一编码参数对应的参数梯度更新该第一编码参数，得到所述第一编码器的更新后的第一编码参数；

根据所述第一编码器的更新后的第一编码参数，更新所述第二编码器的各个第二编码参数。

可选的，所述语音增强模块，具体用于：

从所述音频特征向量截取第一长度的第一子音频特征向量，以及第二长度的第二子音频特征向量；

分别对所述第一子音频特征向量以及所述第二子音频特征向量进行语音增强；

将语音增强后的第一子音频特征向量确定为第一音频特征向量，将语音增强后的第二子音频特征向量确定为第二音频特征向量。

可选的，所述第三声纹特征向量以声纹特征向量队列的形式进行存储，所述声纹特征向量队列的最大长度为n，其中，n为正整数；

所述装置还包括：

向量移出模块，用于在所述声纹特征向量队列中存储的声纹特征向量的数量为n时，将第一个存储于所述声纹特征向量队列中的第三声纹特征向量移出所述声纹特征向量队列；

向量放入模块，用于将所述第二声纹特征向量放入所述声纹特征向量队列中。

可选的，所述第一参数确定模块，包括：预设条件确定单元；

所述预设条件确定单元，用于：

构造维度为n+1的第一向量，所述第一向量的第一个元素为1，其他元素均为0；

构造维度为n+1的第二向量，所述第二向量的第一个元素为第一相似度，所述第二向量的其他n个元素为第二相似度；

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的声纹识别模型训练方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的声纹识别模型训练方法的步骤。

本发明实施例提供的技术方案，训练声纹识别模型的过程包括：无监督训练和有监督训练两个阶段。在无监督训练阶段，由于第一音频特征向量和第二音频特征向量是对应同一目标样本语音，而第三声纹特征向量对应的样本语音与第一声纹特征向量对应的样本语音不同，因此，通过使得第一相似度较高，且第二相似度较低，可以使得无监督训练过程所训练的声纹识别准确度较高，且由于无监督训练过程中所利用的无标签样本数据比较好采集到，进而有效提升声纹识别模型的声纹识别准确度。并且，在无监督训练阶段之后，通过有监督训练阶段进一步对声纹识别模型进行训练，有利于进一步提升声纹识别模型的声纹识别准确度。

附图说明

图1是本发明实施例提供的一种声纹识别模型训练方法的步骤流程图；

图2是图1所示实施例中s120的一种具体实施方式的步骤流程图；

图3是本发明实施例提供的一种本发明实施例提供的声纹识别模型的无监督训练过程的示意图；

图4是本发明实施例提供的一种声纹识别模型训练装置的结构框图；

图5是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着人工智能技术的发展，声纹识别技术取得了巨大的进步，并开始进入家电、通信、汽车、医疗等各个领域。

下面以两个具体的应用场景来进行说明。

第一个应用场景为：骑手身份认证。具体的，需要确认接单的骑手是注册者本人。相关技术中，通常采用人脸识别的方式进行认证。

现有技术的这种方式存在如下两个缺点：第一，不断更新的人脸仿冒技术进行攻击，导致骑手身份认证安全性降低；第二，在夜晚等光线变化条件下，无法识别人脸。因此，可以将声纹识别技术应用于骑手身份认证这一应用场景中。

第二个应用场景：司机身份认证。确认拼单司机为注册者本人，以保证合规性和乘客安全。在认证司机身份时，可以采用声纹识别技术。

然而，在实际应用中，由于有些用户之间的用户语音之间的相似度较高，进而这些用户的用户语音的声纹特征的相似度较高。这样，在声纹识别的过程中，可能会导致声纹识别结果出现错误，

为了解决相关技术中存在的对待识别语音进行识别时，所得到的声纹识别结果可能存在错误的技术问题，一种声纹识别模型训练方法、装置、电子设备及存储介质。

第一方面，首先对本发明实施例提供的一种声纹识别模型训练方法进行详细介绍。

需要说明的是，本发明实施例提供的一种声纹识别模型训练方法的执行主体可以为终端或者服务器等电子设备，本发明实施例对电子设备不做具体限定。

如图1所示，本公开实施例提供的一种声纹识别模型训练方法，具体可以包括如下步骤：

s110，获取目标样本语音的音频特征向量。

可以理解的是，训练声纹识别模型需要采集大量的样本数据，所采集的每一样本数据均可以称为目标样本语音。

在得到目标样本语音之后，可以提取目标样本语音的音频特征向量。本领域技术人员可以理解音频特征向量的具体提取方式，对此，本发明实施例对音频特征向量的提取方式不再赘述。

其中，获取目标样本语音的音频特征向量的方式可以是：电子设备实时提取目标样本语音的音频特征向量；还可以是电子设备预先提取目标样本语音的音频特征向量，在训练声纹识别模型时，直接获取目标样本语音的音频特征向量，这都是合理的。

s120，对音频特征向量进行语音增强，得到第一音频特征向量和第二音频特征向量。

其中，第一音频特征向量和第二音频特征向量不同。

在得到目标样本语音的音频特征向量之后，可以利用语音增加技术对音频特征向量进行语音增强，得到第一音频特征向量和第二音频特征向量。其中，对音频特征向量进行语音增强的目的为：为音频特征向量添加噪音，这样，有利于使得训练后的声纹识别模型的声纹识别结果更加准确。

为了方案描述清楚，将在下面实施例中对步骤s120的具体实施方式进行详细阐述。

s130，将第一音频特征向量和第二音频特征向量输入声纹识别模型中，得到第一声纹特征向量和第二声纹特征向量。

其中，第一声纹特征向量与第二声纹特征向量的维度相同。

电子设备得到第一音频特征向量和第二音频特征向量之后，可以将第一音频特征向量输入声纹识别模型中，得到第一声纹特征向量，并将第二音频特征向量输入声纹识别模型中，得到第二声纹特征向量。

第一声纹特征向量和第二声纹特征向量可以是：通过声纹识别模型中的编码器提取得到的，并且，第一声纹特征向量和第二声纹特征向量的维度相同，从而便于后续步骤中计算第一声纹特征向量和第二声纹特征向量之间的相似度。

s140，计算第一声纹特征向量与第二声纹特征向量的第一相似度，以及第一声纹特征向量与第三声纹特征向量的第二相似度。

其中，第三声纹特征向量为预先存储的预设声纹特征向量，预设声纹特征向量与第一声纹特征向量的维度相同，且预设声纹特征向量对应的样本语音与目标样本语音不同。

具体的，在开始训练声纹识别模型时，第三声纹特征向量是可以为维度与第一声纹特征向量相同的任意声纹特征向量，且第三声纹特征向量的数量通常为多个。并且，在训练声纹识别模型的过程中，可以利用历史第一声纹特征向量来逐渐更新第三声纹特征向量。为了方案描述清楚，将在下面实施例对利用历史第一声纹特征向量逐渐更新第三声纹特征向量的具体实施方式进行详细阐述。

电子设备在得到第一声纹特征向量，第二声纹特征向量以及第三声纹特征向量后，可以计算第一声纹特征向量与第二声纹特征向量的第一相似度，以及第一声纹特征向量与第三声纹特征向量的第二相似度，并且，由于第三声纹特征向量为多个，因此，计算所得的第二相似度的个数也为多个。

并且，计算第一相似度的方式可以为：计算第一声纹特征向量与第二声纹特征向量的内积；计算第二相似度的方式可以为：计算第一声纹特征向量与第三声纹特征向量的内积。

s150，在第一相似度和第二相似度满足预设条件时，确定声纹识别模型的模型参数。

其中，预设条件用于表征第一相似度大于第一预设相似度，且第二相似度小于第二预设相似度。

具体的，由于第一声纹特征向量是第一音频特征向量的声纹特征向量，第二声纹特征向量是第二音频特征向量的声纹特征向量，并且，第一音频特征向量和第二音频特征向量是对应同一目标样本语音，因此，在训练声纹识别模型的过程中，要尽量确保第一相似度较高。

并且，由于第三声纹特征向量对应的样本语音不是目标样本语音，即第三声纹特征向量对应的样本语音与第一声纹特征向量对应的样本语音不同，因此，在训练声纹识别模型的过程中，要尽量确保第二相似度较低。

因此，在第一相似度大于第一预设相似度，且第二相似度小于第二预设相似度，确定声纹识别模型的模型参数，此时，无监督训练过程结束。其中，第一预设相似度和第二预设相似度的大小可以根据实际情况进行设定，本公开实施例对第一预设相似度和第二预设相似度的大小不做具体限定。

s160，通过带有标签的样本语音训练声纹识别模型，并在声纹识别模型的声纹识别结果的准确度大于预设准确度时，再次确定声纹识别模型的模型参数，得到训练好的声纹识别模型。

通过上述无监督训练过程训练声纹识别模型后，为了进一步提高声纹识别模型的声纹识别准确率，可以通过带有标签的样本语音继续训练声纹识别模型，即对声纹识别模型进行有监督训练，进一步调整声纹识别模型的模型参数，并在声纹识别模型的声纹识别结果的准确度大于预设准确度时，说明声纹识别模型的声纹识别准确率较高，因此，此时可以再次确定声纹识别模型的模型参数，得到训练好的声纹识别模型。

在图1所示实施例的基础上，在一种实施方式中，声纹识别模型包括第一编码器和第二编码器。其中，第一编码器初始化参数与第二编码器的初始化参数相同。

此时，s130，将第一音频特征向量和第二音频特征特征向量输入声纹识别模型中，得到第一声纹特征向量和第二声纹特征向量，可以包括如下步骤，分别为步骤a1和步骤a2：

步骤a1，将第一音频特征向量输入第一编码器，得到第一声纹特征向量；

步骤a2，将第二音频特征向量输入第二编码器，得到第二声纹特征向量。

在实际应用中，第二编码器可以为动量编码器，通过该动量编码器得到的第二声纹特征向量与第一声纹特征向量的一致性较高，也就是说，可以保证第二声纹特征向量与第一声纹特征向量的相似度较高。

作为本发明实施例的一种实现方式，确定声纹识别模型的模型参数，可以包括如下步骤，分别为步骤b1至步骤b3：

步骤b1，确定第一编码器的各个第一编码参数对应的参数梯度。

具体的，在第一相似度和第二相似度满足预设条件时，可以利用误差反传的方式计算第一编码器的各个编码参数的参数梯度。其中，确定第一编码器的各个第一编码参数对应的参数梯度的方式可以有多种，本发明实施例对此不做具体限定。

步骤b2，对于第一编码器的每一第一编码参数，利用该第一编码参数对应的参数梯度更新该第一编码参数，得到第一编码器的更新后的第一编码参数。

具体的，在确定了第一编码的各个编码参数之后，对于第一编码器的每一第一编码参数，可以利用随机梯度下降法等方式更新该第一编码参数，得到第一编码器的更新后的第一编码参数。其中，第一编码参数的更新方式除了可以为随机梯度下降法，还可以是其他更新方式，本发明实施例对第一编码参数的更新方式不做具体限定。

步骤b3，根据第一编码器的更新后的第一编码参数，更新第二编码器的各个第二编码参数。

具体的，电子设备在得到第一编码器的更新后的第一编码参数之后，可以根据第一编码器的更新后的第一编码参数，来更新第二编码器的各个第二编码参数。

并且，可以按照如下公式来更新第二编码器的各个第二编码参数：

pm＝β·pm+(1-β)·pe

其中，pm为第二编码器的第二编码参数，pe为第一编码器的第一编码参数，β为接近1的常数，例如，为0.99。

可见，通过本实施方式提供的技术方案，声纹识别模型包括第一编码器和第二编码器，在第一相似度和第二相似度满足预设条件时，确定声纹识别模型中第一编码器的第一编码参数和第二编码器的第二编码参数，从而使得对应同一目标样本语音的第一声纹特征向量与第二声纹特征向量的一致性较高，而对应不同样本语音的第一声纹特征向量与第三声纹特征向量的差异性较高，有助于提高声纹识别模型的声纹识别结果的准确度。

为了方案描述清楚，将在下面实施例中对步骤s120的具体实施方式进行详细阐述。

在一种实施方式中，s120，对音频特征向量进行语音增强，得到第一音频特征向量和第二音频特征向量，可以包括如下步骤，如图2所示，分别为s121至s123：

s121，从音频特征向量截取第一长度的第一子音频特征向量，以及第二长度的第二子音频特征向量。

具体的，假设第一长度和第二长度均在[lmin，lmax]的范围内，目标样本语音的音频特征向量的长度为l，其中，lmax小于等于l。

在从音频特征向量中截取第一长度的第一子音频特征向量和第二长度的第二子音频特征向量时，可以从[lmin，lmax]之间选择两个长度，分别为l1和l2，然后从音频特征向量随机截取长度为l1的第一子音频特征向量，以及长度为l2的第二子音频特征向量。

s122，分别对第一子音频特征向量以及第二子音频特征向量进行语音增强。

具体的，电子设备得到长度为l1的第一子音频特征向量，以及长度为l2的第二子音频特征向量之后，可以对长度为l1的第一子音频特征向量和长度为l2的第二子音频特征向量进行语音增强。

需要说明的是，在实际应用中，可以采用任意基于频谱的语音增强方法对第一子音频特征向量和第二子音频特征向量进行语音增强，这都是合理的，本发明实施例对第一子音频特征向量和第二子音频特征向量进语音增强的实施方式不做具体限定。

s123，将语音增强后的第一子音频特征向量确定为第一音频特征向量，将语音增强后的第二子音频特征向量确定为第二音频特征向量。

具体的，在对第一子音频特征向量和第二子音频特征向量进行语音增强之后，语音增强后的第一子音频特征向量即为第一音频特征向量；语音增强后的第二子音频特征即为第二音频特征向量。

可见，通过本实施方式提供的技术方案，第一音频特征向量和第二音频特征向量是对同一音频特征向量中的不同片段的子音频特征向量进行语音增强得到的。因此，将第一音频特征向量和第二音频特征向量输入声纹识别模型中，对声纹识别模型进行无监督训练，有利于使得训练后的声纹识别模型的声纹识别结果更加准确。

在上述实施例的基础上，在一种实施方式中，第三声纹特征向量以声纹特征向量队列的形式进行存储，声纹特征向量队列的最大长度为n，其中，n为正整数。n的大小可以根据实际情况进行确定，本发明实施例对n的大小不做具体限定。

此时，声纹识别模型训练方法还可以包括如下两个步骤，分别为步骤c1和步骤c2：

步骤c1，在声纹特征向量队列中存储的声纹特征向量的数量为n时，将第一个存储于声纹特征向量队列中的第三声纹特征向量移出声纹特征向量队列；

步骤c2，将第二声纹特征向量放入声纹特征向量队列中。

具体的，在该实施方式中，在开始训练声纹识别模型时，声纹特征向量队列中可以存储有任意声纹特征向量，该声纹特征向量可以是n个，也可以是少于n个。在训练声纹识别模型的过程中，可以将第二声纹特征存储到声纹特征向量队列中，并且，在声纹特征向量队列的最大长度为n，将第一个存储于声纹特征向量队列中的第三声纹特征向量移出声纹特征向量队列，并将第二声纹特征向量放入声纹特征向量队列中。

作为本发明实施例的一种实现方式，确定第一相似度和第二相似度满足预设条件，可以包括如下步骤，分别为步骤d1到步骤d4：

步骤d1，构造维度为n+1的第一向量，第一向量的第一个元素为1，其他元素均为0。

具体的，由于第一声纹特征向量和第二声纹特征向量对应同一目标样本语音，因此，为了使得后续步骤中，第一声纹特征向量和第二声纹特征向量的第一相似度较高，而第一声纹特征向量和第三声纹特征向量的第二声纹特征向量的第二相似度较低。所构造的第一向量除了第一个元素为1，其他元素均为0。

步骤d2，构造维度为n+1的第二向量，第二向量的第一个元素为第一相似度，第二向量的其他n个元素为第二相似度。

由于第三声纹特征队列中第三声纹特征向量的数量为n个，第一声纹特征向量分别与n个第三声纹特征向量求相似度，得到n个第二相似度。因此，可以利用第一相似度和n个第二相似度构造维度为n+1的第二向量，并且，第二向量的第一个元素为第一相似度，第二向量的其他n个元素为第二相似度。

步骤d3，在目标损失函数的损失函数值小于预设损失值时，确定第一相似度和第二相似度满足预设条件。

其中，目标损失函数的损失函数值的大小用于表征第一向量与第二向量的内积的相反数的大小。

具体的，由于第一向量除第一个元素为1之外，其他元素均为0，因此，可以将第一向量与第二向量的内积的相反数越小，说明第一声纹特征向量与第二声纹特征向量的第一相似度越大，且第一声纹特征向量与第三声纹特征向量的第二相似度越小。

在实际应用中，目标损失函数可以为交叉熵损失函数，且目标损失函数的损失函数值可以用于表征第一向量与第二向量的内积的相反数的大小，目标损失函数的损失函数值越小，说明第一声纹特征向量与第二声纹特征向量的第一相似度越大，且第一声纹特征向量与第三声纹特征向量的第二相似度越小。在目标损失函数的损失函数值小于预设损失值时，说明目标损失函数值足够小，此时，第一声纹特征向量与第二声纹特征向量的足够相似，且第一声纹特征向量与第三声纹特征向量足够不相似，因此，可以确定第一相似度和第二相似度满足预设条件。其中，预设损失值的大小可以根据实际情况进行设定，本发明实施例对预设损失值的大小不做具体限定。

可见，通过本实施例提供的技术方案，通过构造维度为n+1的第一向量的第二向量，其中，第一向量的第一个元素为1，其他元素均为0；以及，第二向量的第一个元素为第一相似度，第二向量的其他n个元素为第二相似度。并在目标损失函数的损失函数值小于预设损失值时，说明第一声纹特征向量与第二声纹特征向量的足够相似，且第一声纹特征向量与第三纹特征向量足够不相似，此时，确定第一相似度和第二相似度满足预设条件。这样，有利于提高声纹识别模型的声纹识别结果的准确度。

为了方案描述清楚，下面将结合一个具体实例对本发明实施例提供的声纹识别模型的无监督训练过程进行详细阐述。如图3所示。

为简化说明，下面以一条训练数为例，说明训练流程。实际训练中，为提高训练速度，一般以小批量minibatch方式批量训练。

1、从所有训练数据即音频特征向量中，随机选择一条训练样本x，即上面实施例所述的目标样本语音的音频特征向量。

2、对x进行随机数据增强，得到第一音频特征向量x1和第二音频特征向量x2。

3、将x1输入第一编码器encoder，得到第一声纹特征向量q，并将x2输入第二编码器即动量编码器momentumencoder，得到第二声纹特征向量k0，其中，q和k0的维度相同。

4、分别计算q与k0的内积即第一相似度(similarity)，以及队列memoryqueue中k1到kn的内积即第二相似度(similarity)。

5、构造长度为n+1的第一向量向量y＝[1,0,…,0]，即除第一个元素为1外，其他都为0。

6、构造长度为n+1的第二向量，其中，第二个元素为第一相似度，其他n个元素为第二相似度。

7、将第一向量和第二向量的内积的相反数作为目标损失函数constrastiveloss。

8、最小化constrastiveloss，使用误差反传计算encoder的各编码参数的梯度，使用某种优化方法(如随机梯度下降法)更新encoder的各编码参数。

9、按照公式pm＝β·pm+(1-β)·pe更新第二编码器的各编码参数。

其中，pm为第二编码器的第二编码参数，pe为第一编码器的第一编码参数，β为接近1的常数，例如，为0.99。

10、在队列memoryqueue的长度为n，即队列memoryqueue满时，移出队列memoryqueue中最旧的一个声纹特征向量，将k0保存在memoryqueue中。

11、返回步骤1，直到达到一定的训练时，或者，达到性能指标如等错误率较低。

通过本发明实施例提供的技术方案，在训练声纹识别模型时，先进行无监督训练，由于无监督训练过程中所利用的无标签样本数据比较好采集到，因此，可以通过无监督训练可以有效提升声纹识别模型的声纹识别准确度。并且，在无监督训练后，再利用带标签的有标签数据对声纹识别模型进行进一步训练，有利于进一步提升声纹识别模型的声纹识别准确度。另外，通过本发明实施例提供的技术方案，声纹识别模型收敛速度较快，节省了声纹识别模型的训练时间。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本发明所必须的。

第二方面，本发明实施例提供了一种声纹识别模型训练装置，如图4所示，所述装置包括：

向量获取模块410，用于获取目标样本语音的音频特征向量；

语音增强模块420，用于对所述音频特征向量进行语音增强，得到第一音频特征向量和第二音频特征向量，所述第一音频特征向量和所述第二音频特征向量不同；

向量输入模块430，用于将所述第一音频特征向量和所述第二音频特征特征向量输入声纹识别模型中，得到第一声纹特征向量和第二声纹特征向量，所述第一声纹特征向量与所述第二声纹特征向量的维度相同；

相似度计算模块440，用于计算所述第一声纹特征向量与所述第二声纹特征向量的第一相似度，以及所述第一声纹特征向量与第三声纹特征向量的第二相似度，所述第三声纹特征向量为预先存储的预设声纹特征向量，所述预设声纹特征向量与所述第一声纹特征向量的维度相同，且所述预设声纹特征向量对应的样本语音与所述目标样本语音不同；

第一参数确定模块450，用于在所述第一相似度和所述第二相似度满足预设条件时，确定所述声纹识别模型的模型参数，所述预设条件用于表征所述第一相似度大于第一预设相似度，且第二相似度小于第二预设相似度；

第二参数确定模块460，通过带有标签的样本语音训练所述声纹识别模型，并在所述声纹识别模型的声纹识别结果的准确度大于预设准确度时，再次确定所述声纹识别模型的模型参数，得到训练好的声纹识别模型。

可选的，所述声纹识别模型包括第一编码器和第二编码器，所述第一编码器初始化参数与所述第二编码器的初始化参数相同；

所述向量输入模块，具体用于：

将所述第一音频特征向量输入所述第一编码器，得到第一声纹特征向量；

将所述第二音频特征向量输入所述第二编码器，得到第二声纹特征向量。

可选的，所述第一参数确定模块，具体用于：

确定所述第一编码器的各个第一编码参数对应的参数梯度；

对于所述第一编码器的每一第一编码参数，利用该第一编码参数对应的参数梯度更新该第一编码参数，得到所述第一编码器的更新后的第一编码参数；

根据所述第一编码器的更新后的第一编码参数，更新所述第二编码器的各个第二编码参数。

可选的，所述语音增强模块，具体用于：

从所述音频特征向量截取第一长度的第一子音频特征向量，以及第二长度的第二子音频特征向量；

分别对所述第一子音频特征向量以及所述第二子音频特征向量进行语音增强；

将语音增强后的第一子音频特征向量确定为第一音频特征向量，将语音增强后的第二子音频特征向量确定为第二音频特征向量。

可选的，所述第三声纹特征向量以声纹特征向量队列的形式进行存储，所述声纹特征向量队列的最大长度为n，其中，n为正整数；

所述装置还包括：

向量放入模块，用于将所述第一声纹特征向量放入所述声纹特征向量队列中。

可选的，所述第一参数确定模块，包括：预设条件确定单元；

所述预设条件确定单元，用于：

构造维度为n+1的第一向量，所述第一向量的第一个元素为1，其他元素均为0；

构造维度为n+1的第二向量，所述第二向量的第一个元素为第一相似度，所述第二向量的其他n个元素为第二相似度；

将第一向量与第二向量的内积的相反数作为目标损失函数；

在所述目标损失函数的损失函数值小于预设损失值时，确定所述第一相似度和所述第二相似度满足预设条件。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

第三方面，本发明实施例还提供了一种电子设备，如图5所示，包括存储器510、处理器520及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的声纹识别模型训练方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种声纹识别模型训练方法和一种声纹识别模型训练装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。