一种语音评测方法及装置与流程

2021-01-28 15:01:50|

312|

起点商标网

本申请涉及语音评测技术领域，尤其涉及一种语音评测方法及装置。

背景技术：

目前，在智能设备进行语音合成，生成合成语音之后，需要对合成的语音质量进行评测打分，现有技术中，通常是通过人工对待评测语音进行评测，但是，人工评测往往具有主观性，会导致待评测语音的评测分数并不准确，并且，由于需要人工一一对待评测语音进行打分，这种评测方式效率也较低。

技术实现要素：

本申请实施例提供一种语音评测方法及装置，以提高语音评测的效率和准确性。

本申请实施例提供的具体技术方案如下：

一种语音评测方法，包括：

获取待评测语音；

基于已训练的评测模型，以所述待评测语音为输入参数，识别所述待评测语音的各个音子，确定所述各个音子与对应的预设标准音子之间的音子语音特征相似度，并根据所述待评测语音和对应的预设标准语音，确定所述待评测语音对应的流畅语音特征相似度，其中，所述音子表征语音发音最小单元对应的音素；

根据所述音子语音特征相似度和所述流畅语音特征相似度，确定所述待评测语音的评测结果。

可选的，进一步包括：获取待评测语音对应的语音文本；

则基于已训练的评测模型，以所述待评测语音为输入参数，识别所述待评测语音的各个音子，具体包括：

基于已训练的评测模型，以所述待评测语音和所述语音文本为输入参数，基于所述语音文本，识别所述待评测语音的各个音子。

可选的，确定所述各个音子与对应的预设标准音子之间的音子语音特征相似度，具体包括：

分别确定所述各个音子对应的音子特征；

根据确定出的各个音子特征，对所述各个音子进行分类，分别确定所述各个音子所属的预设音子类别；

分别确定所述各个音子与对应的预设音子类别中包括的预设标准音子之间的音子语音特征相似度。

可选的，确定所述待评测语音的评测结果，具体包括：

根据所述音子语音特征相似度，确定所述待评测语音的发音得分；

根据所述流畅语音特征相似度，确定所述待评测语音的流畅得分；

将所述发音得分和所述流畅得分进行加权平均，获得所述待评测语音的最终评测得分；

根据所述最终评测得分，获得所述待评测语音的评测结果。

可选的，根据所述最终评测得分，获得所述待评测语音的评测结果，具体包括：

若确定所述最终评测得分大于或等于预设第一得分阈值，则确定所述待评测语音对应的等级为第一等级；

若确定所述最终评测得分小于所述预设第一得分阈值，且大于或等于第二预设得分阈值，则确定所述待评测语音对应的等级为第二等级，其中，所述预设第一得分阈值大于所述预设第二得分阈值；

若确定所述最终评测得分小于第二预设得分阈值，则确定所述待评测语音对应的等级为第三等级，其中，所述第一等级的语音质量大于第二等级的语音质量，所述第二等级的语音质量大于第三等级的语音质量。

可选的，所述评测模型的训练方式为：

获取标准语音样本集和所述标准语音样本集中的各个标准语音样本对应的标准语音文本；

分别对所述各个标准语音样本进行语音模拟，获得各个模拟语音样本；

分别将所述各个标准语音样本、对应的标准语音文本和模拟语音样本输入到所述评测模型进行训练，通过所述评测模型的特征模块，识别所述各个标准语音对应的音子和所述各个模拟语音样本对应的音子，通过所述评测模型的音子网络模块，确定所述各个标准语音的各个音子的发音与对应的模拟语音样本的各个音子之间的音子语音特征相似度，获得所述模拟语音样本的模拟发音得分，并通过所述评测模型的卷积网络模块，确定所述模拟语音对应的流畅语音特征相似度，获得所述模拟语音样本的模拟流畅得分，并根据确定出的各个模拟发音得分和确定出的各个模拟流畅得分，确定所述各个模拟语音样本对应的最终评测得分，直至所述评测模型的目标函数收敛，获得训练完成的评测模型，其中，所述目标函数为模拟语音样本和标准语音样本之间的交叉熵函数最小化。

可选的，对所述标准语音样本集中的各个标准语音样本进行语音模拟，获得各个模拟语音样本，具体包括：

根据预设第一变化强度系数，分别对所述各个标准语音样本进行音质变化模拟，获得对应模拟后的模拟语音样本，其中，所述发音变化模拟至少包括以下一种或任意组合的处理方式：语音加噪、谱加噪、谱减噪、谱扭曲、基频调整；

和/或，根据预设第二变化强度系数，对所述各个标准语音样本进行音调变化模拟，获得对应模拟后的模拟语音样本，其中，所述流畅度变化模拟至少包括以下一种或任意组合的处理方式：语音变形、发音时长拉长缩短、谱变形、基频变形。

一种语音评测装置，包括：

第一获取模块，用于获取待评测语音；

评测模块，用于基于已训练的评测模型，以所述待评测语音为输入参数，识别所述待评测语音的各个音子，确定所述各个音子与对应的预设标准音子之间的音子语音特征相似度，并根据所述待评测语音和对应的预设标准语音，确定所述待评测语音对应的流畅语音特征相似度，其中，所述音子表征语音发音最小单元对应的音素；

确定模块，用于根据所述音子语音特征相似度和所述流畅语音特征相似度，确定所述待评测语音的评测结果。

可选的，第一获取模块进一步用于：获取待评测语音对应的语音文本；

则评测模块具体用于：

基于已训练的评测模型，以所述待评测语音和所述语音文本为输入参数，基于所述语音文本，识别所述待评测语音的各个音子。

可选的，确定所述各个音子与对应的预设标准音子之间的音子语音特征相似度时，评测模块具体用于：

分别确定所述各个音子对应的音子特征；

根据确定出的各个音子特征，对所述各个音子进行分类，分别确定所述各个音子所属的预设音子类别；

分别确定所述各个音子与对应的预设音子类别中包括的预设标准音子之间的音子语音特征相似度。

可选的，确定所述待评测语音的评测结果时，确定模块具体用于：

根据所述音子语音特征相似度，确定所述待评测语音的发音得分；

根据所述流畅语音特征相似度，确定所述待评测语音的流畅得分；

将所述发音得分和所述流畅得分进行加权平均，获得所述待评测语音的最终评测得分；

根据所述最终评测得分，获得所述待评测语音的评测结果。

可选的，根据所述最终评测得分，获得所述待评测语音的评测结果时，确定模块具体用于：

若确定所述最终评测得分大于或等于预设第一得分阈值，则确定所述待评测语音对应的等级为第一等级；

可选的，针对所述评测模块的训练方式，进一步包括：

第二获取模块，用于获取标准语音样本集和所述标准语音样本集中的各个标准语音样本对应的标准语音文本；

模拟模块，用于分别对所述各个标准语音样本进行语音模拟，获得各个模拟语音样本；

处理模块，用于分别将所述各个标准语音样本、对应的标准语音文本和模拟语音样本输入到所述评测模型进行训练，通过所述评测模型的特征模块，识别所述各个标准语音对应的音子和所述各个模拟语音样本对应的音子，通过所述评测模型的音子网络模块，确定所述各个标准语音的各个音子的发音与对应的模拟语音样本的各个音子之间的音子语音特征相似度，获得所述模拟语音样本的模拟发音得分，并通过所述评测模型的卷积网络模块，确定所述模拟语音对应的流畅语音特征相似度，获得所述模拟语音样本的模拟流畅得分，并根据确定出的各个模拟发音得分和确定出的各个模拟流畅得分，确定所述各个模拟语音样本对应的最终评测得分，直至所述评测模型的目标函数收敛，获得训练完成的评测模型，其中，所述目标函数为模拟语音样本和标准语音样本之间的交叉熵函数最小化。

可选的，模拟模块具体用于：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述语音评测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音评测方法的步骤。

本申请实施例中，获取待评测语音，基于已训练的评测模型，以待评测语音为输入参数，识别待评测的各个音子，确定各个音子与对应的预设标准音子之间的音子语音特征相似度，并根据待评测语音和对应的预设标准语音，确定待评测语音对应的流畅语音特征相似度，根据音子语音特征相似度和流畅语音特征相似度，确定待评测语音的评测结果，这样，在获取待测评语音之后，基于已训练的评测模型，分别获得待评测语音的音子语音特征相似度和流畅语音特征相似度，能够实现对待评测语音的自动评测，提高效率，并且，在评测时，通过比较待评测语音的音子和对应的预设标准音子之间的音子语音特征相似度，并通过对比待评测语音和预设标准语音进而确定待评测语音的流畅语音特征相似度，这样，同时对待评测语音的发音和流畅度进行评测，能够提高评测时的准确性。

附图说明

图1为本申请实施例中一种语音评测方法的流程图；

图2为本申请实施例中评测模型训练方式的流程图；

图3为本申请实施例中评测模型的结构示意图；

图4为本申请实施例中conditiongan的结构示意图；

图5为本申请实施例中gan模型的优化示意图；

图6为本申请实施例中另一种语音评测方法的流程图；

图7为本申请实施例中2层gru网络的结构示意图；

图8为本申请实施例中语音与语音文本结合进行评测的方法流程图；

图9为本申请实施例中流畅度网络的结构示意图；

图10为本申请实施例中rnn打分网络结构图；

图11为本申请实施例中gru网络的结构图；

图12为本申请实施例中语音评测装置的结构示意图；

图13所示为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，语音合成的应用非常广泛，例如，将待合成的语音文本输入到智能设备中，智能设备能够将语音文本进行语音合成，并将合成后的合成语音输出，在智能设备进行语音合成，生成合成语音之后，需要对合成的语音质量进行评测打分，以使相关工作人员能够实时调整智能设备的性能，现有技术中，在进行评测时，通常是通过人工对待评测语音进行评测，但是，人工评测往往具有主观性，会导致待评测语音的评测分数并不准确，并且，由于在评测时，需要人工一一对待评测语音进行打分，因此，现有技术中的这种评测方式效率较低。

本申请实施例中，获取待评测语音，基于已训练的评测模型，以待评测语音为输入参数，识别待评测语音的各个音子，通过确定各个音子与对应的预设标准音子之间的音子语音特征相似度，并确定待评测语音和对应的预设标准语音之间的流畅语音特征相似度，能够确定待评测语音的评测结果，这样，通过已训练的评测模型，对待评测语音进行评测打分，进而将人工评测方式转换为自动评测方式，能够提高对待评测语音评测时的效率，并且，通过比较待评测语音的音子和预设标准音子之间的音子语音特征相似度，并通过确定待评测语音与预设标准语音之间的流畅语音特征相似度，进而对待评测语音进行评测，能够提高对待评测语音评测时的准确性。

基于上述实施例，参阅图1所示，为本申请实施例中一种语音评测方法的流程图，具体包括：

步骤100：获取待评测语音。

本申请实施例中，智能设备在将需要合成的语音文本合成为合成语音，即获得待评测语音，该待评测语音为智能设备的合成语音，然后，服务器能够获取到智能设备生成的待评测语音，例如，将语音文本“今天的天气很好”输入到智能设备中，进而智能设备可以基于已训练的语音合成模型，生成合成后的待评测语音“今天的天气很好”，然后将待评测语音发送给服务器，进而服务器获取到待评测语音并进行后续评测处理，又例如，将语音文本输入到智能设备中，进而智能设备可以基于已训练的语音合成模型，生成合成后的待评测语音，并可以通过评测模型对待评测语音进行评测，评测模型可以是智能设备从服务器获取，本申请实施例中对执行主体并不进行限制。

步骤110：基于已训练的评测模型，以待评测语音为输入参数，识别待评测语音的各个音子，确定各个音子与对应的预设标准音子之间的音子语音特征相似度，并根据待评测语音和对应的预设标准语音，确定待评测语音对应的流畅语音特征相似度。

其中，音子表征语音发音最小单元对应的音素。

具体地，基于已训练的评测模型，以待评测语音为输入参数，识别待评测语音的各个音子，然后，确定各个音子与对应的预设标准音子之间的音子语音特征相似度，在获得音子语音特征相似度的同时，将待评测语音和对应的预设标准语音进行比对，确定待评测语对应的流畅语音特征相似度，这样，对待评测语音的发音和流畅度同时进行评测，能够提高待评测语音在评测时的效率。

本申请实施例中，在获取待评测语音时，还可以获取待评测语音对应的语音文本，则基于已训练的评测模型，以待评测语音为输入参数，识别待评测语音的各个音子时，具体包括：

基于已训练的评测模块，以待评测语音和语音文本为输入参数，基于语音文本，识别待评测语音的各个音子。

步骤120：根据音子语音特征相似度和流畅语音特征相似度，确定待评测语音的评测结果。

本申请实施例中，待评测语音的评测结果，是根据待评测语音的音子语音特征相似度和流畅语音特征相似度进而确定出来的，下面，分别对本申请实施例中获得待评测语音的音子语音特征相似度和流畅语音特征相似度的步骤进行详细阐述，可以分为以下两部分：

第一部分：本申请实施例中，确定各个音子与对应的预设标准音子之间的音子语音特征相似度，具体包括：

s1：分别确定各个音子对应的音子特征。

本申请实施例中，在获取到待评测语音之后，将待评测语音输入到已训练的评测模型中，由于待评测语音是由音子组成的，因此，在获取到待评测语音之后，能够识别出待评测语音的各个音子，并分别确定各个音子对应的音子语音特征。

例如，在获取到待评测语音“老虎幼崽与宠物犬玩耍”，则识别待评测语音的各个音子“l”“ao”huiouzaivchonguqvanuanshua”，然后分别确定各个音子对应的音子语音特征，每一个音子都对应一个音子语音特征，若待评测语音由15个音子组成，则对待评测语音的各个音子进行特征提取，共获得15个音子语音特征。

常用的语音特征有：梅尔倒谱log-mel，基频f0，线性预测编码(linearpredictivecoding，lpc)特征，fbank，梅尔频率倒谱系数(melfrequencycepstrumcoefficient，mfcc)特征等。

s2：根据确定出的各个音子特征，对各个音子进行分类，分别确定各个音子所属的预设音子类别。

本申请实施例中，在确定出待评测语音的各个音子对应的各个音子特征之后，根据确定出的各个音子特征，与预设音子类别对应的特征进行比对，确定每一个音子特征与预设音子类别对应的各个特征最相近的特征对应的音子类别，并将音子归于对应的音子类别中，进而能够实现对待评测语音的各个音子进行分类，并分别确定各个音子所属的预设音子类别。

其中，音子特征为音子的语音参数，用于对音子进行分类，每类音子的特征都是相似的，进而可以实现对音子的分类。例如，获取的待评测语音为“老虎老虎老虎”，则待评测语音对应的音子为(1)“l”、(2)“ao”、(3)“l”、(4)“ao”、(5)“l”、(6)“ao”，每一个音子“l”之间的音子特征是相似的，每一个音子“ao”之间的音子特征也是相似的，因此，可以实现对音子的分类，将(1)(3)(5)的音子“l”都归到对应的预设的“l”类别中，并将(2)(4)(6)的音子“ao”都归到对应的预设的“ao”类别中。

其中，预设音子类别的数量是根据音子的类别数量进而确定的，有多少种不同的音子，就将音子分为多少类别。

s3：分别确定各个音子与对应的预设音子类别中包括的预设标准音子之间的音子语音特征相似度。

本申请实施例中，根据各个音子对应的音子语音特征，分别将各个音子的语音特征与对应的预设音子类别汇总包括的预设标准音子的音子语音特征进行比对，确定各个音子与对应的预设音子类别中包括的预设标准音子之间的音子语音特征相似度。

若音子类别中的音子为一个，则音子与对应的预设音子类别中的预设标准音子的进行比对，确定音子与对应的预设标准音子之间的音子语音特征相似度，例如，待评测语音为“老虎”，则待评测音子为“l”、“ao”、“h”、“u”，此时每一个音子类别中的归到的音子为一个。

若音子类别中包含的待评测语音的音子为多个，则分别将各个音子的语音特征与对应的预设音子类别中的预设标准音子的语音特征进行比对，确定各个音子语音特征与对应的预设音子类别中包括的预设标准音子语音特征之间的音子语音特征相似度，例如，待评测语音“老虎老虎老虎”中包括3个音子“l”和3个音子“ao”，则将三个音子“l”的音子语音特征分别与预设标准音子的音子语音特征进行比对，将三个音子“ao”的音子语音特征分别与预设标准音子的音子语音特征进行比对，确定音子与对应的预设标准音子之间的音子语音特征相似度。

第二部分：本申请实施例中，根据待评测语音和对应的预设标准语音，确定待评测语音对应的流畅语音特征相似度，具体包括：

将待评测语音与对应的预设标准语音进行比对，确定待评测语音与预设标准语音之间的流畅语音特征相似度。

具体地，将待评测语音输入已训练的评测模型之后，对待评测语音进行特征提取，并将待评测语音的语音特征与对应的预设标准语音的语音特征进行比对，确定待评测语音的语音特征与预设标准语音的语音特征之间的流畅语音特征相似度。

本申请实施例中，在将待评测语音输入到已训练的评测模型之后，将待评测语音进行特征提取，获得待评测语音的语音特征，并将语音特征进行分帧，进而分别将待评测语音的各个帧，与预设标准语音对应的各个帧进行比对，每一个帧都对应一个流畅语音特征相似度，进而获得待评测语音的流畅语音特征相似度。

需要说明的是，本申请实施例中，确定待评测语音的音子语音特征相似度和流畅语音特征相似度的步骤是同时执行的，这样，能够实现对待评测语音的并行评测过程，提高对待评测语音评测时的效率。

在获得音子语音特征相似度和流畅语音特征相似度之后，根据音子语音特征相似度和流畅语音特征相似度，确定待评测语音的评测结果时，具体包括：

s1：根据音子语音特征相似度，确定待评测语音的发音得分。

本申请实施例中，在确定出各个音子对应的音子语音特征相似度后，根据各个音子特征相似度，确定待评测语音的各个音子对应的发音得分之后，将确定出的各个音子的发音得分进行加权平均，获得待评测语音的发音得分。

其中，在根据音子特征相似度获得音子对应的发音得分时，可以通过预设的音子语音特征相似度与发音得分的关联关系，进而确定音子对应的发音得分，例如，当音子语音特征相似度为80％，则对应的发音得分为80分。

需要说明的是，本申请实施例中对待评测语音的各个音子的发音得分的处理方式并不进行限制，例如，在处理发音得分时，还可以将各个音子的发音得分直接相加，获得待评测语音的发音得分。

又例如，还可以将待评测语音的各个音子的发音得分中的最高发音得分和最低发音得分删除，对剩下的音子的发音得分进行平均加权，最终获得待评测语音的发音得分，这样，能够进一步提高待评测语音评测时的准确性。

s2：根据流畅语音特征相似度，确定待评测语音的流畅得分。

本申请实施例中，在获得待评测语音的流畅特征相似度之后，根据流畅语音特征相似度，并通过预设的流畅语音特征相似度与流畅得分的对应关系，确定待评测语音的流畅得分。

s3：将发音得分和流畅得分进行加权平均，获得待评测语音的最终评测得分。

s4：根据最终评测得分，获得待评测语音的评测结果。

本申请实施例中，执行步骤s4时，具体包括：

a1：若确定最终评测得分大于或等于预设第一得分阈值，则确定待评测语音对应的等级为第一等级。

本申请实施例中，可根据实际需求对预设第一得分阈值进行设置，例如，当最终评测得分的总分为100分时，可将预设第一得分阈值设置为80分，此时，若确定最终评测得分大于或等于80分时，则确定待评测语音对应的等级为第一等级。

其中，第一等级表征待评测语音的质量较高，即，待评测语音的发音较准确，流畅度较高，第一等级例如可以为优等级。

a2：若确定最终评测得分小于预设第一得分阈值，且大于或等于第二预设得分阈值，则确定待评测语音对应的等级为第二等级。

其中，预设第一得分阈值大于预设第二得分阈值。

本申请实施例中，可根据实际需求对预设第二得分阈值进行设置，例如，当最终评测得分的总分为100分，预设第一得分阈值为80分时，则可将预设第二得分阈值设置为60分，此时，若确定最终评测得分为70分时，则待评测语音的最终评测得分小于预设第一得分阈值，且大于预设第二得分阈值，则确定待评测语音对应的等级为第二等级。

其中，第二等级表征待评测语音的质量一般，即，待评测语音的发音音质和流畅度一般，第二等级例如可以为良等级。

a3：若确定最终评测得分小于第二预设得分阈值，则确定待评测语音对应的等级为第三等级。

其中，第一等级的语音质量大于第二等级的语音质量，第二等级的语音质量大于第三等级的语音质量。

本申请实施例中，例如，当最终评测得分的总分为100分，预设第二得分阈值为60分时，此时，若确定待评测语音的最终评测得分为40分时，则待评测语音的最终评测得分小于预设第二得分阈值，则确定待评测语音对应的等级为第三等级。

其中，第三等级表征待评测语音的质量较差，即，待评测语音的发音不准确，且流畅度较差，第三等级例如可以为差等级。

进一步地，为了对待评测语音的质量评测结果更细化，还可以根据实际需求设置待评测语音的质量评测等级的等级数量，本申请实施例中对此并不进行限制。

本申请实施例中，获取待评测语音，并基于已训练的评测模型，识别待评测语音的各个音子，确定各个音子与对应的预设标准音子之间的音子语音特征相似度，在确定音子语音特征相似度的同时，根据待评测语音和对应的预设标准语音，确定待评测语音对应的流畅语音特征相似度，进而根据待评测语音的音子语音特征相似度和流畅语音特征相似度，确定待评测语音的评测结果，这样，能够实现对待评测语音进行自动评测，并且，还能够提高待评测语音评测时的准确性。

基于上述实施例，下面对本申请实施例中的评测模型训练方式进行详细阐述，参阅图2所示，为本申请实施例中评测模型训练方式的流程图，具体包括：

步骤200：获取标准语音样本集和标准语音样本集中的各个标准语音样本对应的标准语音文本。

本申请实施例中，获取标准语音样本集，标准语音样本集中包括多个标准语音样本。

步骤210：分别对各个标准语音样本进行语音模拟，获得各个模拟语音样本。

本申请实施例中，在分别对各个标准语音样本进行语音模拟时，具体可以分为以下三种不同的处理方式。

第一种处理方式：

执行步骤210时，具体包括：根据预设第一变化强度系数，分别对各个标准语音样本进行音质变化模拟，获得对应模拟后的模拟语音样本。

其中，发音变化模拟至少包括以下一种或任意组合的处理方式：语音加噪、谱加噪、谱减噪、谱扭曲。

本申请实施例中，通过信号处理方式对各个标准语音样本进行音质变化模拟，获得对应模拟后的模拟语音样本。

其中，信号处理方式可以为发音变化模拟，发音变化模拟例如可以是语音加噪、谱加噪、谱减噪、谱扭曲、基频调整等，本申请实施例中对此并不进行限制。

第二种处理方式：

执行步骤210时，具体包括：根据预设第二变化强度系数，对各个标准语音样本进行音调变化模拟，获得对应模拟后的模拟语音样本。

其中，流畅度变化模拟至少包括以下一种或任意组合的处理方式：语音变形、发音时长拉长缩短、谱变形、基频变形。

本申请实施例中，通过信号处理方式对各个标准语音样本进行音调变化模拟，获得对应模拟后的模拟语音样本。

其中，信号处理方式可以为音调变化模拟，音调变化模拟例如可以是发音时长拉长缩短、基频变形等，本申请实施例中对此并不进行限制。

第三种处理方式：

执行步骤210时，具体包括：

s1：根据预设第一变化强度系数，分别对各个标准语音样本进行音质变化模拟，获得对应模拟后的模拟音质语音样本。

s2：根据预设第二变化强度系数，分别对各个模拟音质语音样本进行音调变化模拟，获得对应模拟后的模拟语音样本。

本申请实施例中，在根据预设第一变化强度系数，分别对各个标准语音样本进行音质变化模拟，获得对应模拟后的模拟音质语音样本，然后再根据预设第二变化强度系数，分别对模拟后的模拟音质语音样本，再进行音调模拟变化，获得对应模拟后的模拟语音样本。

步骤220：分别将各个标准语音样本、对应的标准语音文本和模拟语音样本输入到评测模型进行训练，通过评测模型的特征模块，识别各个标准语音对应的音子和各个模拟语音样本对应的音子，通过评测模型的音子网络模块，确定各个标准语音的各个音子的发音与对应的模拟语音样本的各个音子之间的音子语音特征相似度，获得模拟语音样本的模拟发音得分，并通过评测模型的卷积网络模块，确定模拟语音对应的流畅语音特征相似度，获得模拟语音样本的模拟流畅得分，并根据确定出的各个模拟发音得分和确定出的各个模拟流畅得分，确定各个模拟语音样本对应的最终评测得分，直至评测模型的目标函数收敛，获得训练完成的评测模型。

其中，目标函数为模拟语音样本和标准语音样本之间的交叉熵函数最小化。

本申请实施例中，执行步骤220时，具体包括：

s1：分别将各个标准语音样本、对应的标准语音文本和模拟语音样本输入到评测模型进行训练。

s2：通过评测模型的特征模块，识别各个标准语音对应的音子和各个模拟语音样本对应的音子。

s3：通过评测模型的音子网络模块，确定各个标准语音的各个音子的发音与对应的模拟语音样本的各个音子之间的音子语音特征相似度，获得模拟语音样本的模拟发音得分。

s4：通过评测模型的卷积网络模块，确定模拟语音对应的流畅语音特征相似度，获得模拟语音样本的模拟流畅得分。

s5：根据确定出的各个模拟发音得分和确定出的各个模拟流畅得分，确定各个模拟语音样本对应的最终评测得分，直至评测模型的目标函数收敛，获得训练完成的评测模型。

本申请实施例中，在确定出模拟发音得分和模拟流畅得分之后，根据确定出的各个模拟发音得分和确定出的各个模拟流畅得分，确定各个模拟语音样本对应的最终评测得分，直至评测模型的目标函数收敛，获得训练完成的评测模型。

其中，评测模型可以为生成式对抗网络(generativeadversarialnetworks，gan)模型，参阅图3所示，为本申请实施例中评测模型的结构示意图，如图所示，随机噪声z～p(z)为预设第一变化强度系数和预设第二变化强度系数，生成器g用于根据预设第一变化强度系数分别对各个标准语音样本进行音质变化模拟，获得对应模拟后的模拟语音样本，还用于根据预设第二变化强度系数，对各个标准语音样本进行音调变化模拟，获得对应模拟后的模拟语音样本，模拟语音样本为gθ(z)，真实数据x～p(x)为获取到的待评测语音，鉴别器d和真/伪用于以待评测语音为输入参数，识别待评测语音的各个音子，确定各个音子与对应的预设标准音子之间的音子语音特征相似度，并根据待评测语音和对应的预设标准语音，确定待评测语音对应的流畅语音特征相似度，根据音子语音特征相似度和流畅语音特征相似度确定待评测语音的最终评测得分，若待评测语音与模拟语音样本的相似度高，则待评测语音趋近于伪，若待评测语音与标准语音样本的相似度高，则待评测语音趋近于真，鉴别器采用conditiongan，参阅图4所示，为本申请实施例中conditiongan的结构示意图，在训练时，带有输入条件，输入条件为标准语音对应的语音文本，训练时仅训练鉴别器，用于评测语音样本的真实程度，判别器的期望值不同于真1，伪0，是由预设第一变化强度系数或第二变化强度系数获得的。

例如：文本：老虎#1幼崽#2与#1宠物犬#1玩耍#4

拼音序列：lao2hu3you4zai3yu2chong3wu4quan3wan2shua3

音子和韵律序列：lao2hu3iou4zai3v2chong3u4qvan3uan2shua3

将音子序列经过上采样(upsample)处理，输入到鉴别器中，进行训练。

本申请实施例中，将标准语音样本、经过语音模拟的模拟语音样本和对应的语音文本(音子)输入到评测模型中，进行训练，模拟语音样本的强度变化(变化强度系数)越大，鉴别器的期望值越大，强度变化接近噪声，期望值接近0。

参阅图5所示，为本申请实施例中gan模型的优化示意图，固定g参数不变，优化d的参数，即最大化maxv(d,g)maxv(d,g)maxv(d,g)等价于min[-v(d,g)]min[-v(d,g)]min[-v(d,g)]，因此，d的损失函数等价如下：

其中，j表示判别器d的损失函数，θ^d表示判别器参数，θ^g表示生成器参数，x表示训练数据样本，表示生成器的数据样本，e表示函数的期望值，d表示gan中的鉴别器，pg表示通过参数为θg的g映射到高维的数据空间所获得的，g表示gan模型中的生成器。

gan目标函数可以表示为：

其中，e(*)表示分布函数的期望值，pdata(x)表示标准语音样本的分布，pz(z)是定义在低维的噪声分布，y为条件向量。

进一步地，在经过训练后，获得评测模型，在使用评测模型，对待评测语音进行评测时，可以输入待评测语音和对应的语音文本(音子串)，通过鉴别器对待评测语音打分。

本申请实施例中，通过训练评测模型，对待评测语音的发音和流畅度分别进行打分，能够实现对待评测语音的自动评测，并提高自动评测的准确性。

基于上述实施例，参阅图6所示，为本申请实施例中另一种语音评测方法的流程图，具体包括：

步骤600：获取待评测语音。

步骤610：通过降维网络对待评测语音进行特征提取，确定待评测语音的音子的音子特征和待评测语音的语音特征。

步骤620：通过特征识别模块对待评测语音的语音特征进行识别，识别待评测语音的各个音子。

本申请实施例中，当只有待评测语音时，通过特征识别模块对待评测语音的语音特征进行识别，识别出待评测语音的音子序列和每一个音子的发音时长，进而识别出待评测语音的各个音子。

步骤630：将待评测语音的音子语音特征输入到音子网络，获得待评测语音的发音得分。

本申请实施例中，将待评测语音的音子语音特征输入到音子网络中之后，对各个音子进行分类，分别确定各个音子所属的预设音子类别，然后分别确定各个音子与对应的预设音子类别中包括的预设标准音子之间的音子语音特征相似度，获得各个音子的发音得分，并将确定出的各个音子的发音得分进行加权平均，获得待评测语音的发音得分。

步骤640：将待评测语音的语音特征输入流畅度网络中，获得待评测语音的流畅得分。

本申请实施例中，待评测语音的语音特征输入流畅度网络中，确定待评测语音对应的流畅语音特征相似度，并根据流畅语音特征相似度，确定待评测语音的流畅得分。

其中，流畅度网络由1维卷积和2层gru组成，2层gru网络为循环神经网络(recurrentneuralnetwork，rnn)打分网络，参阅图7所示，为本申请实施例中2层gru网络的结构示意图。

进一步地，还可以通过2层gru网络构成流畅度网络。

其中，步骤630-640与步骤460是同时执行的，这样，能够实现对待评测语音的发音和流畅度进行并行评测，提高了评测时的效率。

步骤650：根据待评测语音的发音得分和流畅得分，获得待评测语音的最终评测得分。

本申请实施例中，评测模型中包括音子网络和流畅度网络，通过音子网络对待评测语音的发音进行打分，并通过流畅度网络对待评测语音的流畅程度进行打分，能够实现对待评测语音的自动评测，并提高评测时的准确性。

基于上述实施例，参阅图8所示，为本申请实施例中语音与语音文本结合进行评测的方法流程图。

步骤800：获取待评测语音和待评测语音对应的语音文本。

步骤810：通过降维网络对待评测语音进行特征提取，确定待评测语音的待评测语音的语音特征。

步骤820：通过特征对齐模块对待评测语音的语音特征进行识别，识别待评测语音的各个音子。

本申请实施例中，当获取待评测语音和待评测语音对应的语音文本时，特征对齐模块找到待评测语音中每个音子的起始时间和终止时间(发音时长)，继而识别待评测语音的各个音子。

步骤830：将待评测语音的音子语音特征输入到音子网络，获得待评测语音的发音得分。

本申请实施例中，音子网络采用1维卷积+2层gru，参阅图9所示，为本申请实施例中流畅度网络的结构示意图，参阅图10所示，为本申请实施例中rnn打分网络结构图，第二层gru的输入为第一层gru的输出+输入，第二层网络的输出为第二层gru的输出+第二层的输入。

其中，2层gru中间为残差连接，残差连接为resnet残差网络，参阅图11所示，为本申请实施例中gru网络的结构图，网络的输出为网络输出+输入。

步骤840：将待评测语音的语音特征输入流畅度网络中，获得待评测语音的流畅得分。

步骤850：根据待评测语音的发音得分和流畅得分，获得待评测语音的最终评测得分。

本申请实施例中，将待评测语音和对应的语音文本输入评测模型中，评测模型中包括音子网络和流畅度网络，通过音子网络对待评测语音的发音进行打分，并通过流畅度网络对待评测语音的流畅程度进行打分，能够实现对待评测语音的自动评测，并提高评测时的准确性。

基于同一发明构思，本申请实施例中还提供了一种语音评测装置，该语音评测装置例如可以是前述实施例中的服务器，该语音评测装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图12所示为本申请实施例中语音评测装置的结构示意图，具体包括：

第一获取模块1200，用于获取待评测语音；

评测模块1210，用于基于已训练的评测模型，以所述待评测语音为输入参数，识别所述待评测语音的各个音子，确定所述各个音子与对应的预设标准音子之间的音子语音特征相似度，并根据所述待评测语音和对应的预设标准语音，确定所述待评测语音对应的流畅语音特征相似度，其中，所述音子表征语音发音最小单元对应的音素；

确定模块1220，用于根据所述音子语音特征相似度和所述流畅语音特征相似度，确定所述待评测语音的评测结果。

可选的，第一获取模块1200进一步用于：获取待评测语音对应的语音文本；

则评测模块1210具体用于：

基于已训练的评测模型，以所述待评测语音和所述语音文本为输入参数，基于所述语音文本，识别所述待评测语音的各个音子。

可选的，评测模块1210具体用于：

分别确定所述各个音子对应的音子特征；

根据确定出的各个音子特征，对所述各个音子进行分类，分别确定所述各个音子所属的预设音子类别；

分别确定所述各个音子与对应的预设音子类别中包括的预设标准音子之间的音子语音特征相似度。

可选的，确定所述待评测语音的评测结果时，确定模块1220具体用于：

根据所述音子语音特征相似度，确定所述待评测语音的发音得分；

根据所述流畅语音特征相似度，确定所述待评测语音的流畅得分；

将所述发音得分和所述流畅得分进行加权平均，获得所述待评测语音的最终评测得分；

根据所述最终评测得分，获得所述待评测语音的评测结果。

可选的，根据所述最终评测得分，获得所述待评测语音的评测结果时，确定模块1220具体用于：

若确定所述最终评测得分大于或等于预设第一得分阈值，则确定所述待评测语音对应的等级为第一等级；

可选的，针对所述评测模块的训练方式，进一步包括：

第二获取模块1230，用于获取标准语音样本集和所述标准语音样本集中的各个标准语音样本对应的标准语音文本；

模拟模块1240，用于分别对所述各个标准语音样本进行语音模拟，获得各个模拟语音样本；

处理模块1250，用于分别将所述各个标准语音样本、对应的标准语音文本和模拟语音样本输入到所述评测模型进行训练，通过所述评测模型的特征模块，识别所述各个标准语音对应的音子和所述各个模拟语音样本对应的音子，通过所述评测模型的音子网络模块，确定所述各个标准语音的各个音子的发音与对应的模拟语音样本的各个音子之间的音子语音特征相似度，获得所述模拟语音样本的模拟发音得分，并通过所述评测模型的卷积网络模块，确定所述模拟语音对应的流畅语音特征相似度，获得所述模拟语音样本的模拟流畅得分，并根据确定出的各个模拟发音得分和确定出的各个模拟流畅得分，确定所述各个模拟语音样本对应的最终评测得分，直至所述评测模型的目标函数收敛，获得训练完成的评测模型，其中，所述目标函数为模拟语音样本和标准语音样本之间的交叉熵函数最小化。

可选的，模拟模块1240具体用于：

基于上述实施例，参阅图13所示为本申请实施例中电子设备的结构示意图。

本申请实施例提供了一种电子设备，该电子设备可以包括处理器1310(centerprocessingunit，cpu)、存储器1320、输入设备1330和输出设备1340等，输入设备1330可以包括键盘、鼠标、触摸屏等，输出设备1340可以包括显示设备，如液晶显示器(liquidcrystaldisplay，lcd)、阴极射线管(cathoderaytube，crt)等。

存储器1320可以包括只读存储器(rom)和随机存取存储器(ram)，并向处理器1310提供存储器1320中存储的程序指令和数据。在本申请实施例中，存储器1320可以用于存储本申请实施例中任一种语音评测方法的程序。

处理器1310通过调用存储器1320存储的程序指令，处理器1310用于按照获得的程序指令执行本申请实施例中任一种语音评测方法。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的语音评测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签：文本分类网络模型网络标准阈值自然语言处理

上一篇带情感的智能语音外呼方法及装置、服务器、存储介质与流程

下一篇音频信号处理方法、装置、设备及可读介质与流程

热门咨询

热门标签

热门产品

tips