声纹分割方法、装置、设备及可读存储介质与流程

2021-01-28 12:01:19|

252|

起点商标网

本申请涉及金融科技(fintech)的人工智能领域，尤其涉及一种声纹分割方法、装置、设备及可读存储介质。

背景技术：

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、区块链blockchain、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。

随着计算机软件和人工智能的不断发展，人工智能的应用领域也越来越广泛，在语音识别领域中，通常需要对语音进行声纹分割，以将语音分割成若干段，其中，每一段语音均为同一个说话人的一段连续性语音，目前，通常将语音划分为固定大小的声音帧，进而分别对各固定大小的声音帧进行声纹识别，以识别各声音帧分别属于哪个说话人，进而实现对语音的声纹分割，但是，声纹识别的准确率与声音帧的大小息息相关，且不同的语音之间的声音帧的最优大小均有所差异，进而声音帧过大或者过小均会导致声纹识别的准确率下降，进而导致声纹分割的准确率下降。

技术实现要素：

本申请的主要目的在于提供一种声纹分割方法、装置、设备及可读存储介质，旨在解决现有技术中声纹分割准确率低的技术问题。

为实现上述目的，本申请提供一种声纹分割方法，所述声纹分割方法应用于声纹分割设备，所述声纹分割方法包括：

获取待分割语音，并对所述待分割语音进行粗粒度帧划分，获得所述待分割语音对应的各第一切分粒度声音帧；

对各所述第一切分粒度声音帧进行声纹识别，获得所述待分割语音对应的第一声纹识别结果；

基于所述第一声纹识别结果，对各所述第一切分粒度声音帧的边界区域进行细粒度帧划分，获得各第二切分粒度声音帧；

对各所述第二切分粒度声音帧进行声纹识别，获得第二声纹识别结果；

基于所述第一声纹识别结果和所述第二声纹识别结果，对所述待分割语音进行声纹分割，获得目标声纹分割结果。

本申请还提供一种声纹分割装置，所述声纹分割装置为虚拟装置，且所述声纹分割装置应用于声纹分割设备，所述声纹分割装置包括：

第一帧划分模块，用于获取待分割语音，并对所述待分割语音进行粗粒度帧划分，获得所述待分割语音对应的各第一切分粒度声音帧；

第一声纹识别模块，用于对各所述第一切分粒度声音帧进行声纹识别，获得所述待分割语音对应的第一声纹识别结果；

第二帧划分模块，用于基于所述第一声纹识别结果，对各所述第一切分粒度声音帧的边界区域进行细粒度帧划分，获得各第二切分粒度声音帧；

第二声纹识别模块，用于对各所述第二切分粒度声音帧进行声纹识别，获得第二声纹识别结果；

声纹识别模块，用于基于所述第一声纹识别结果和所述第二声纹识别结果，对所述待分割语音进行声纹分割，获得目标声纹分割结果。

本申请还提供一种声纹分割设备，所述声纹分割设备为实体设备，所述声纹分割设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述声纹分割方法的程序，所述声纹分割方法的程序被处理器执行时可实现如上述的声纹分割方法的步骤。

本申请还提供一种可读存储介质，所述可读存储介质上存储有实现声纹分割方法的程序，所述声纹分割方法的程序被处理器执行时实现如上述的声纹分割方法的步骤。

本申请提供了一种声纹分割方法、设备和可读存储介质，相比于现有技术采用的将语音划分为固定大小的声音帧，进而分别对各固定大小的声音帧进行声音识别的技术手段，本申请在获取待分割语音之后，对所述待分割语音进行粗粒度帧划分，获得所述待分割语音对应的各第一切分粒度声音帧，也即，对待分割语音进行高切分粒度的声音帧划分，获得帧大小较大的各第一切分粒度声音帧，其中，需要说明的是，若声音帧的过小，则将导致声音帧蕴含的声音特征信息过少，进而导致声纹识别的准确率较低，进而对各所述第一切分粒度声音帧进行声纹识别，获得所述待分割语音对应的第一声纹识别结果，即可实现基于蕴含足够的声音特征信息的声音帧，进行声纹识别目的，可提高待分割语音的非边界区域的声纹识别的准确率，进而基于所述第一声纹识别结果，对各所述第一切分粒度声音帧的边界区域进行细粒度帧划分，获得各第二切分粒度声音帧，即可实现对各所述第一切分粒度声音帧的边界区域进行低切分粒度的声音帧划分，以获取帧大小较小的各第二切分粒度声音帧的目的，也即，实现了对待分割语音的切分粒度细化的目的，其中，需要说明的是，若声音帧的过大，则将导致声音帧覆盖多个说话人的声音特征信息，进而导致多个说话人的声音特征信息在同一声音帧中发生混淆，其中，混淆的部分通常为两个说话人语音连接的边界区域，进而导致声纹识别的准确率较低，进而提高了待分割语音的边界区域的声纹识别的准确率，进而对各所述第二切分粒度声音帧进行声纹识别，获得第二声纹识别结果，即可实现将各第一切分粒度声音帧的边界区域的混淆部分进行准确地区分识别的目的，进而基于所述第一声纹识别结果和所述第二声纹识别结果，对所述待分割语音进行声纹分割，即可更加准确的声纹识别结果进行声纹分割的目的，也即，在待分割语音的非边界区域采用第一声纹识别结果，在待分割语音的边界区域采用第二声纹识别结果，进行对待分割语音的分割，进而获得目标声纹分割结果，克服了现有技术中将语音划分为固定大小的声音帧，进而分别对各固定大小的声音帧进行声纹识别时，声音帧过大或者过小均会导致声纹识别的准确率下降，进而导致声纹分割的准确率下降的技术缺陷，进而提高了声纹分割的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请声纹分割方法第一实施例的流程示意图；

图2为本申请声纹分割方法第二实施例的流程示意图；

图3为本申请声纹分割方法实施例中进行声纹分割的整体流程示意图；

图4为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种声纹分割方法，在本申请声纹分割方法的第一实施例中，参照图1，所述声纹分割方法包括：

步骤s10，获取待分割语音，并对所述待分割语音进行粗粒度帧划分，获得所述待分割语音对应的各第一切分粒度声音帧；

在本实施例中，需要说明的是，所述待分割语音为多人对话场景中收集的语音，所述待分割语音包括多个说话人发出的语音，且对所述待分割语音进行声纹识别的目的为识别所述待分割语音与各个说话人的对应关系，也即，对所述待分割语音进行声纹识别的目的为识别所述待分割语音中各段声音分别属于哪一个说话人，所述粗粒度帧划分为切分粒度大于第一预设切分粒度阀值的声纹分割，也即，所述粗粒度帧划分获得的第一切分粒度声音帧较大，使得第一切分粒度声音帧中蕴含足够多的声音特征信息，进而使得可基于第一切分声音粒度声音帧中的声音特征信息，识别第一切分声音粒度声音帧属于哪个说话人的准确率大于或者等于预设准确率阀值。

获取待分割语音，并对所述待分割语音进行粗粒度帧划分，获得所述待分割语音对应的各第一切分粒度声音帧，具体地，获取待分割语音，并基于预设第一切分粒度，对所述待分割语句进行等距帧划分，获得所述待分割语音对应的各第一切分粒度声音帧，其中，所述预设第一切分粒度为预先设置好的帧大小，各所述第一切分粒度声音帧均为具备预设第一切分粒度大小的声音帧。

步骤s20，对各所述第一切分粒度声音帧进行声纹识别，获得所述待分割语音对应的第一声纹识别结果；

在本实施例中，对各所述第一切分粒度声音帧进行声纹识别，获得所述待分割语音对应的第一声纹识别结果，具体地，基于各所述第一切分粒度声音帧中的声音特征信息，分别识别各所述第一切分粒度声音帧的声音归属，获得各所述第一切分粒度声音帧的声音归属识别结果，并将各所述声音归属识别结果作为所述第一声纹识别结果，其中，所述声音特征信息包括声音频谱图等，所述声音归属为发出声音的说话人。

其中，所述对各所述第一切分粒度声音帧进行声纹识别，获得所述待分割语音对应的第一声纹识别结果的步骤包括：

步骤s21，分别对各所述第一切分粒度声音帧进行评分，获得各所述第一切分粒度声音帧分别对应的目标声纹归属识别评分；

在本实施例中，需要说明的是，所述声纹分割设备包括预设声纹识别模型，所述预设声纹识别模型为预先设置好的机器学习模型，用于进行声纹识别。

分别对各所述第一切分粒度声音帧进行评分，获得各所述第一切分粒度声音帧分别对应的目标声纹归属识别评分，具体地，对每一所述第一切分粒度声音帧均执行以下步骤：

将所述第一切分粒度声音帧输入预设声纹识别模型，对所述第一切分粒度声音帧的声音帧矩阵表示进行特征提取，获得特征提取结果，进而基于所述特征提取结果，对所述第一切分粒度声音帧进行评分，获得评分向量，其中，所述评分向量中至少包括一声纹识别评分，其中，所述声纹识别评分为所述第一切分粒度声音帧属于某一说话人的概率评估值，所述声音帧矩阵表示为所述第一切分粒度声音帧的矩阵表示形式，用于表示所述第一切分声音帧的声音特征信息，进而在所述评分向量中选取最大的声纹识别评分作为目标声纹归属识别评分，

其中，所述分别对各所述第一切分粒度声音帧进行评分，获得各所述第一切分粒度声音帧分别对应的目标声纹归属识别评分的步骤包括：

步骤s211，基于预设用户声纹信息，分别对各所述第一切分粒度声音帧进行相似度评分，获得各所述第一切分粒度声音帧分别对应的声纹相似度评分信息；

在本实施例中，需要说明的是，所述预设用户声纹信息为预先收集好的说话人特征提取后的声音特征信息，所述预设用户声纹信息至少包括一说话人的预设声音特征表示向量，其中，所述预设声音特征表示向量为预先设置好的用于表示说话人的声音特征信息的特征提取向量。

基于预设用户声纹信息，分别对各所述第一切分粒度声音帧进行相似度评分，获得各所述第一切分粒度声音帧分别对应的声纹相似度评分信息，具体地，对每一所述第一切分粒度声音帧均执行以下步骤：

将所述第一切分粒度声音帧输入预设声纹识别模型，对所述第一切分粒度声音帧的声音帧矩阵表示进行特征提取，获得特征提取向量，进而分别计算所述特征提取向量与各所述预设声音特征表示向量的相似度，获得所述特征提取向量对应的各相似度评分，其中，所述相似度评分为评估所述特征提取向量与所述预设声音特征表示向量之间的相似度的评估值，进而将各相似度评分作为所述声纹相似度评分信息。

步骤s212，基于各所述声纹相似度评分信息，生成各所述目标声纹归属识别评分。

在本实施例中，基于各所述声纹相似度评分信息，生成各所述目标声纹归属识别评分，具体地，对于每一所述声纹相似度评分信息均执行以下步骤：在各所述相似度评分中选取最大的相似度评分作为所述目标声纹归属识别评分。

步骤s22，基于各所述目标声纹归属识别评分，生成所述第一声纹识别结果。

在本实施例中，基于各所述目标声纹归属识别评分，生成所述第一声纹识别结果，具体地，确定各所述目标声纹归属识别评分对应的目标说话人，并将各所述目标说话人分别作为各所述目标声纹归属识别评分对应的第一切分粒度声音帧的声纹识别归属，其中，所述声纹识别归属与所述目标说话人一一对应，并将各所述声纹识别归属与和各所述第一切分粒度声音帧之间的一一对应关系作为所述第一声纹识别结果。

步骤s30，基于所述第一声纹识别结果，对各所述第一切分粒度声音帧的边界区域进行细粒度帧划分，获得各第二切分粒度声音帧；

在本实施例中，基于所述第一声纹识别结果，对各所述第一切分粒度声音帧的边界区域进行细粒度帧划分，获得各第二切分粒度声音帧，具体地，基于各所述声纹识别归属与和各所述第一切分粒度声音帧之间的一一对应关系，将各所述第一切分粒度声音帧中所有属于两个不同目标说话人的相邻两个第一切分粒度声音帧共同作为边界区域，其中，所述边界区域至少包括一目标边界声音帧，其中，所述目标边界声音帧为属于两个不同目标说话人的相邻两个第一切分粒度声音帧的组合，进而基于预设第二切分粒度，分别对各所述目标边界声音帧进行等距声音帧划分，获得各所述目标边界声音帧分别对应的第二切分粒度声音帧，其中，所述预设第二切分粒度小于预设第一切分粒度，所述细粒度帧划分为切分粒度小于第二预设切分粒度阀值的声音帧划分，其中，所述第二预设切分粒度阀值小于或者等于所述第一预设切分粒度阀值，也即，所述细粒度帧划分获得的第一切分粒度声音帧较小，使得分割后的各第二切分粒度声音帧之间不会发生混淆，也即，不会出现同一第二切分粒度声音帧属于两个目标说话人的概率均很高的情况。

其中，所述边界区域至少包括一目标边界声音帧，

所述基于所述第一声纹识别结果，对各所述第一切分粒度声音帧的边界区域进行细粒度帧划分，获得各第二切分粒度声音帧的步骤包括：

步骤s31，基于所述第一声纹识别结果，确定各所述第一切分粒度声音帧对应的所述目标边界声音帧；

在本实施例中，基于所述第一声纹识别结果，确定各所述第一切分粒度声音帧对应的所述目标边界声音帧，具体地，基于各所述声纹识别归属与和各所述第一切分粒度声音帧之间的一一对应关系，在各所述第一切分粒度声音帧中选取属于不同的目标说话人且相邻的两个第一切分粒度声音帧作为所述目标边界声音帧。

其中，所述基于所述第一声纹识别结果，确定各所述第一切分粒度声音帧对应的所述目标边界声音帧的步骤包括：

步骤s311，基于所述第一声纹识别结果，在各所述第一切分粒度声音帧中确定第一归属部分和第二归属部分；

在本实施例中，需要说明的是，所述待分割语音为两个目标说话人之间的语音，且所述待分割语音的前半段属于第一目标说话人，所述待分割语音的后半段属于第二目标说话人。

基于所述第一声纹识别结果，在各所述第一切分粒度声音帧中确定第一归属部分和第二归属部分，具体地，基于各所述声纹识别归属与和各所述第一切分粒度声音帧之间的一一对应关系，将各所述第一切分粒度声音帧划分为第一归属部分和第二归属部分，其中，所述第一归属部分中的各第一切分粒度声音帧归属于第一目标说话人，所述第二归属部分中的各第二切分粒度声音帧归属于第二目标说话人。

步骤s312，获取所述第一归属部分中的第一边界区域声音帧和所述第二归属部分中的第二边界区域声音帧；

在本实施例中，获取所述第一归属部分中的第一边界区域声音帧和所述第二归属部分中的第二边界区域声音帧，具体地，确定所述第一归属部分和所述第二归属部分的目标分隔点，进而将所述目标分隔点前的第一切分粒度声音帧作为第一归属部分中的第一边界区域声音帧，将所述目标分隔点后的第一切分粒度声音帧作为所述第二归属部分中的第二边界区域声音帧。

步骤s313，将所述第一边界区域声音帧和所述第二边界区域声音帧进行组合，获得所述目标边界声音帧。

在本实施例中，将所述第一边界区域声音帧和所述第二边界区域声音帧进行组合，获得所述目标边界声音帧，具体地，将所述第一边界区域声音帧和所述第二边界区域声音帧进行组合，以将所述第一边界区域声音帧和所述第二边界区域声音帧进行连接，获得所述第一边界区域声音帧和所述第二边界区域声音帧共同的连接帧，并将所述连接帧作为所述目标边界声音帧。

步骤s32，对所述目标边界声音帧进行低粒度切分，获得各所述第二切分粒度声音帧。

在本实施例中，对所述目标边界声音帧进行低粒度切分，获得各所述第二切分粒度声音帧，具体地，基于预设第二切分粒度，对所述目标边界声音帧进行等距分割，以将所述目标边界声音帧分割为各具备预设第二切分粒度的帧大小的声音帧，进而将各具备预设第二切分粒度的帧大小的声音帧作为各第二切分粒度声音帧，其中，所述预设第二切分粒度小于所述预设第一切分粒度。

步骤s40，对各所述第二切分粒度声音帧进行声纹识别，获得第二声纹识别结果；

在本实施例中，对各所述第二切分粒度声音帧进行声纹识别，获得第二声纹识别结果，具体地，基于各所述第二切分粒度声音帧的声音特征信息，分别识别各所述第二切分粒度声音帧的第二声音归属，也即，分别识别各所述第二切分粒度声音帧是属于第一目标说话人还是属于第二目标说话人，进而将各所述第二声音归属作为第二声纹识别结果。

其中，在一种可实施的方式中，步骤s40包括：

基于预设声纹识别模型，分别对各所述第二切分粒度声音帧进行评分，获得各所述第二切分粒度声音帧对应的第一归属声纹识别评分和对应的第二归属声纹识别评分，具体地，对于每一所述第二切分粒度声音帧均执行以下步骤：

将所述第二切分粒度声音帧输入所述预设声纹识别模型，对所述第二切分粒度声音帧进行特征提取，获得所述第二切分粒度声音帧的第二特征提取向量，进而计算所述第二特征提取向量与所述第一目标说话人的预设声音特征表示向量之间的比特位相似度，获得第一比特位相似度评估值，进而将所述第一比特位相似度评估值作为所述第一归属声纹识别评分，其中，所述比特位相似度为向量之间相同的比特位数量的占比，所述第一归属声纹识别评分为所述第二切分粒度声音帧属于第一目标说话人的概率评分，用于评估所述第二切分粒度声音帧属于第一目标说话人的概率大小，所述第二归属声纹识别评分为所述第二切分粒度声音属于第二目标说话人的概率评分，用于评估所述第二切分粒度声音帧属于第二目标说话人的概率大小，例如，假设向量a为(a，b，c，d)，向量b为(a，b，c，e)，进而向量a和向量b之间相同的比特位数量为3，进而比特位相似度为75％，进一步地，计算所述第二特征提取向量与所述第二目标说话人的预设声音特征表示向量之间的比特位相似度，获得第二比特位相似度评估值，进而将所述第二比特位相似度评估值作为所述第二归属声纹识别评分。

步骤s50，基于所述第一声纹识别结果和所述第二声纹识别结果，对所述待分割语音进行声纹分割，获得目标声纹分割结果。

在本实施例中，基于所述第一声纹识别结果和所述第二声纹识别结果，对所述待分割语音进行声纹分割，获得目标声纹分割结果，具体地，基于所述第一声纹识别结果，对所述待分割语音的非边界区域进行声纹分割，获得第一声纹分割结果，进而基于所述第二声纹识别结果，对所述待分割语音的边界区域进行声纹分割，获得第二声纹分割结果，进而将所述第一声纹分割结果和所述第二声纹分割结果进行融合，获得所述待分割语音的声纹分割结果，也即，获得所述目标声纹分割结果，例如，假设所述待分割语音包括第一切分粒度声音帧a、第一切分粒度声音帧b和第一切分粒度声音帧c，其中，所述第一切分粒度声音帧a和所述第一切分粒度声音帧c均属于非边界区域，所述第一切分粒度声音帧为边界区域，且所述第一切分粒度声音帧包括第二切分粒度声音帧e和第二切分粒度声音帧f，进而基于第一声纹识别结果得知，所述第一切分粒度声音帧a属于说话人x，所述第一切分粒度声音帧c属于说话人y，进而进行非边界区域的分割时，将所述第一切分粒度声音帧a分割至说话人x的第一语音段，将所述第一切分粒度声音帧c分割至说话人y的第二语音段，而基于第二声纹识别结果得知，所述第二切分粒度声音帧e属于说话人x，所述第二切分粒度声音帧f属于说话人y，进而将所述第二切分粒度声音帧e分割至属于说话人x的第一语音段，将所述第二切分粒度声音帧f分割至说话人y的第二语音段，进而属于说话人x的第一语音段包括第一切分粒度声音帧a和第二切分粒度声音帧e，属于说话人y的第二语音段包括第一切分粒度声音帧c和第二切分粒度声音帧f。

其中，需要说明的是，由于待分割语音的非边界区域为基于高切分粒度进行分割的，且非边界区域中每一第一切分粒度声音帧唯一对应一目标说话人，进而采用非边界区域的第一声纹识别结果作为进行非边界区域的声纹分割时，由于非边界区域不会发生由于声音帧的过大，而导致声音帧覆盖多个说话人的声音特征信息，进而导致多个说话人的声音特征信息在同一声音帧中发生混淆的情况，且非边界区域的声音帧较大，进而非边界区域的声纹识别的准确率极高，进行非边界区域的声纹分割的准确率极高，进一步地，通过对边界区域进行低切分粒度的分割，实现对边界区域进行切分粒度细化分割，使得可基于帧大小更小的声音帧进行声纹识别，获得第二声纹识别结果，进而所述待分割语句中容易发生声音特征信息混淆的边界区域采用基于帧大小更小的声音帧进行声纹识别的第二声纹识别结果，进而可实现边界区域的准确声纹识别，避免由于多个说话人的声音特征信息在同一声音帧中发生混淆而导致声纹识别的准确率降低的情况发生，提高了声纹识别的准确率，进而基于第二声纹识别结果，即可对边界区域实现准确的声纹分割，也即，本申请实施例在不会发生声音特征信息混淆的非边界区域以尽可能大的声音帧进行声纹识别，以保证非边界区域的声纹识别准确率，在容易发生声音特征信息混淆的边界区域则以较小的声音帧进行声纹识别，以保证边界区域的声纹识别准确率，进而提高了声纹识别的准确率，进而提高了声纹分割的准确率。

本实施例提供了一种声纹分割方法，相比于现有技术采用的将语音划分为固定大小的声音帧，进而分别对各固定大小的声音帧进行声音识别的技术手段，本实施例在获取待分割语音之后，对所述待分割语音进行粗粒度帧划分，获得所述待分割语音对应的各第一切分粒度声音帧，也即，对待分割语音进行高切分粒度的声音帧划分，获得帧大小较大的各第一切分粒度声音帧，其中，需要说明的是，若声音帧的过小，则将导致声音帧蕴含的声音特征信息过少，进而导致声纹识别的准确率较低，进而对各所述第一切分粒度声音帧进行声纹识别，获得所述待分割语音对应的第一声纹识别结果，即可实现基于蕴含足够的声音特征信息的声音帧，进行声纹识别目的，可提高待分割语音的非边界区域的声纹识别的准确率，进而基于所述第一声纹识别结果，对各所述第一切分粒度声音帧的边界区域进行细粒度帧划分，获得各第二切分粒度声音帧，即可实现对各所述第一切分粒度声音帧的边界区域进行低切分粒度的声音帧划分，以获取帧大小较小的各第二切分粒度声音帧的目的，也即，实现了对待分割语音的切分粒度细化的目的，其中，需要说明的是，若声音帧的过大，则将导致声音帧覆盖多个说话人的声音特征信息，进而导致多个说话人的声音特征信息在同一声音帧中发生混淆，其中，混淆的部分通常为两个说话人语音连接的边界区域，进而导致声纹识别的准确率较低，进而提高了待分割语音的边界区域的声纹识别的准确率，进而对各所述第二切分粒度声音帧进行声纹识别，获得第二声纹识别结果，即可实现将各第一切分粒度声音帧的边界区域的混淆部分进行准确地区分识别的目的，进而基于所述第一声纹识别结果和所述第二声纹识别结果，对所述待分割语音进行声纹分割，即可更加准确的声纹识别结果进行声纹分割的目的，也即，在待分割语音的非边界区域采用第一声纹识别结果，在待分割语音的边界区域采用第二声纹识别结果，进行对待分割语音的分割，进而获得目标声纹分割结果，克服了现有技术中将语音划分为固定大小的声音帧，进而分别对各固定大小的声音帧进行声纹识别时，声音帧过大或者过小均会导致声纹识别的准确率下降，进而导致声纹分割的准确率下降的技术缺陷，进而提高了声纹分割的准确率。

进一步地，参照图2，基于本申请中第一实施例，在本申请的另一实施例中，所述第二声纹识别结果至少包括一所述第二切分粒度声音帧对应的第一归属声纹识别评分和对应的第二归属声纹识别评分，

所述基于所述第一声纹识别结果和所述第二声纹识别结果，对所述待分割语音进行声纹分割，获得目标声纹分割结果的步骤包括：

步骤s41，基于各所述第一归属声纹识别评分和各所述第二归属声纹识别评分，确定各所述第二切分粒度声音帧对应的目标分割点；

在本实施例中，基于各所述第一归属声纹识别评分和各所述第二归属声纹识别评分，确定各所述第二切分粒度声音帧对应的目标分割点，具体地，基于各所述第一归属声纹识别评分和各所述第二归属声纹识别评分，计算各所述第二切分粒度声音帧共同对应的最大声纹评分和，其中，所述最大声纹评分和为各所述第二切分粒度声音帧对应的目标声纹评分的最大和，其中，所述目标评分为所述第二切分粒度声音帧对应的第一归属声纹识别评分和对应的第一归属声纹识别评分两者中的一个，进而基于所述最大声纹评分和，确定各所述第二切分粒度声音帧对应的声纹评分序列，其中，所述声纹评分序列为所述最大声纹评分和中各声纹评分组成的序列，其中，所述声纹评分序列的排列顺序与各所述第二切分粒度声音帧的时间先后顺序一致，进而在所述声纹评分序列中查询声纹评分突变点，其中，所述声纹评分突变点为所述声纹评分序列中由第一归属声纹识别评分突变为第二归属声纹识别评分的边界点或者为所述声纹评分序列中由第二归属声纹识别评分突变为第一归属声纹识别评分的边界点，进而将所述声纹评分突变点在各所述第二切分粒度声音帧组成的序列中对应的声音帧边界点作为所述目标分割点，其中，所述声音帧边界点为两个相邻的所述第二切分粒度声音帧的交界点。

其中，所述基于各所述第一归属声纹识别评分和各所述第二归属声纹识别评分，确定各所述第二切分粒度声音帧对应的目标分割点的步骤包括：

步骤s411，基于各所述第一归属声纹识别评分和各所述第二归属声纹识别评分，确定各所述第二切分粒度声音帧对应的目标声纹识别评分和；

在本实施例中，基于各所述第一归属声纹识别评分和各所述第二归属声纹识别评分，确定各所述第二切分粒度声音帧对应的目标声纹识别评分和，具体地，在每一所述第二切分粒度声音帧对应的所述第一归属声纹识别评分和对应的所述第二归属声纹识别评分两者中任意选其一作为待计算声纹评分，进而计算各所述第二切分粒度声音帧对应的待计算声纹评分之和，获得声纹评分和，进而重复进行所述声纹评分和的计算，直至获得所有可能的声纹评分和，进而在各所述声纹评分和中选取最大的声纹评分和作为所述目标声纹评分和。

步骤s422，基于所述目标声纹评分和，确定各所述第二切分粒度声音帧对应的声纹评分突变点；

在本实施例中，基于所述目标声纹评分和，确定各所述第二切分粒度声音帧对应的声纹评分突变点，具体地，基于各所述第二切分粒度声音帧的时间先后顺序，将所述目标声纹评分和中的待计算声纹评分进行排序，获得声纹评分序列，进而在所述声纹评分序列中查询声纹评分突变点，其中，所述声纹评分突变点为所述声纹评分序列中由第一归属声纹识别评分突变为第二归属声纹识别评分的边界点或者为所述声纹评分序列中由第二归属声纹识别评分突变为第一归属声纹识别评分的边界点。

步骤s423，基于所述声纹评分突变点，生成所述目标分割点。

在本实施例中，基于所述声纹评分突变点，生成所述目标分割点，具体地，确定所述声纹评分突变点前后的两个突变声纹评分，并将两个所述突变声纹评分对应的第二切分粒度声音帧的交界点作为所述目标分割点。

步骤s43，基于所述目标分割点和所述第一声纹识别结果，对所述待分割语音进行分割，获得所述目标声纹分割结果。

在本实施例中，基于所述目标分割点和所述第一声纹识别结果，对所述待分割语音进行分割，获得所述目标声纹分割结果，具体地，基于所述第一声纹识别结果，对所述待分割语音的非边界区域进行分割，获得属于第一目标说话人的第一非边界区域语音段和属于第二目标说话人的第二非边界区域语音段，进而基于所述目标分割点，将各所述第二切分粒度声音帧进行分割，也即，基于所述目标分割点，将所述待分割语音的边界区域进行分割，获得属于第一说话人的第一边界区域语音段和属于第二说话人的第二边界区域语音段，进而将所述第一非边界区域语音段和第一边界区域语音段进行融合，获得属于第一目标说话人的第一分割语音段，并将所述第二非边界区域语音段和第二边界区域语音段进行融合，获得属于第二目标说话人的第二分割语音段，并将所述第一分割语音段和所述第二分割语音段共同作为所述目标声纹分割结果。

在一种可实施的方案中，如图3所示为进行声纹分割的整体流程示意图，其中，说话人a为第一目标说话人，说话人b为第二目标说话人，按固定大小划分帧对应步骤s10，将每帧打分判断说话人对应步骤s20，将转换边界的帧进一步切分为小块对应步骤s30，将所有小块对a、b打分对应步骤s40，寻找最优分割点进行分割对应步骤s50。

本实施例提供了一种声纹分割方法，其中，首先基于各所述第一归属声纹识别评分和各所述第二归属声纹识别评分，确定各所述第二切分粒度声音帧对应的目标分割点，其中，所述目标分割点为待分割语音的最优分割点，可使得声纹分割的效果最佳，进而基于所述目标分割点和所述第一声纹识别结果，对所述待分割语音进行分割，获得所述目标声纹分割结果，也即基于目标分割点，实现对待分割语音的边界区域的分割，并基于所述第一声纹识别结果，实现对待分割语音的非边界区域的分割，进而完成对待分割语音的分割，其中，由于第一切分粒度声音帧较大，进而所述第一声纹识别结果为基于蕴含足够的声音特征信息的声音帧进行声纹识别获得的，进而第一声纹识别结果的准确率极高，进而对于非边界区域的声纹分割的准确率极高，而目标分割点是由第二声纹识别结果确定的，所述第二声纹识别结果为基于对较小的第二切分粒度声音帧进行声纹识别获得的，其中，需要说明的是，若声音帧的过大，则将导致声音帧覆盖多个说话人的声音特征信息，进而导致多个说话人的声音特征信息在同一声音帧中发生混淆，其中，混淆的部分通常为两个说话人语音连接的边界区域，进而导致声纹识别的准确率较低，而由于第二切分粒度声音帧较小，进而边界区域中的发生声音特征信息混淆的概率极小，进而声纹识别的准确率极高，进而对边界区域的声纹分割的准确率极高，所以提高了声纹分割的准确率。

参照图4，图4是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图4所示，该声纹分割设备可以包括：处理器1001，例如cpu，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该声纹分割设备还可以包括矩形用户接口、网络接口、摄像头、rf(radiofrequency，射频)电路，传感器、音频电路、wifi模块等等。矩形用户接口可以包括显示屏(display)、输入子模块比如键盘(keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。

本领域技术人员可以理解，图4中示出的声纹分割设备结构并不构成对声纹分割设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及声纹识别程序。操作系统是管理和控制声纹分割设备硬件和软件资源的程序，支持声纹识别程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与声纹识别系统中其它硬件和软件之间通信。

在图4所示的声纹分割设备中，处理器1001用于执行存储器1005中存储的声纹识别程序，实现上述任一项所述的声纹分割方法的步骤。

本申请声纹分割设备具体实施方式与上述声纹分割方法各实施例基本相同，在此不再赘述。

本申请实施例还提供一种声纹分割装置，所述声纹分割装置应用于声纹分割设备，所述声纹分割装置包括：

第一帧划分模块，用于获取待分割语音，并对所述待分割语音进行粗粒度帧划分，获得所述待分割语音对应的各第一切分粒度声音帧；

第一声纹识别模块，用于对各所述第一切分粒度声音帧进行声纹识别，获得所述待分割语音对应的第一声纹识别结果；

第二帧划分模块，用于基于所述第一声纹识别结果，对各所述第一切分粒度声音帧的边界区域进行细粒度帧划分，获得各第二切分粒度声音帧；

第二声纹识别模块，用于对各所述第二切分粒度声音帧进行声纹识别，获得第二声纹识别结果；

声纹分割模块，用于基于所述第一声纹识别结果和所述第二声纹识别结果，对所述待分割语音进行声纹分割，获得目标声纹分割结果。

可选地，所述第二帧划分模块包括：

第一确定单元，用于基于所述第一声纹识别结果，确定各所述第一切分粒度声音帧对应的所述目标边界声音帧；

低粒度切分单元，用于对所述目标边界声音帧进行低粒度切分，获得各所述第二切分粒度声音帧。

可选地，所述第一确定单元包括：