一种语音音色转换方法及相关设备与流程

2021-01-28 14:01:27|

313|

起点商标网

本申请涉及语音处理技术领域，尤其涉及一种语音音色转换方法及相关设备。

背景技术：

语音音色转换技术是指将原始音频中的声音的音色转换为另外一个的说话人声音的音色。在音色转换过程中，需要保证转换语音音色之后的音频的音色与另外一个说话人声音的音色相似，而音频的内容保持不变。

目前，较为广泛使用的是基于非平行语料的训练数据结合生成对抗网络和变分自动编码器实现语音音色转换。但是，在实际应用中，利用对抗网络和变分自动编码器进行语音音色转换不稳定，导致转换后的音频存在音频质量不稳定、音色与目标音色的相似度不高的问题。

技术实现要素：

有鉴于此，本申请实施例提供一种语音音色转换方法及相关设备，以解决现有技术转换后的音频存在音频质量不稳定、音色与目标音色的相似度不高的问题。

为实现上述目的，本申请实施例提供如下技术方案：

本申请第一方面示出了一种语音音色转换方法，所述方法包括：

将获取的原始音频和用户确认的目标音色输入预先建立的音色转换网络，所述原始音频至少包括原始音色和语音内容；

基于所述预先建立的音色转换网络对所述原始音频进行音色转换，得到转换后的目标音频，所述目标音频由所述目标音色和所述语音内容构成；

其中，所述预先建立的音色转换网络由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建，所述语音内容识别模型和语音说话人识别模型基于第一数据集训练得到，所述音色转换模型和所述声码器模型基于第二数据集训练得到，所述第一数据集和所述第二数据集是指高质量的音频数据集；

所述音色转换模型由n个分离门卷积层、m个双向长短时记忆网络和1个全连接层构成，所述音色转换模型的构建过程包括：

将所述第二数据集输入所述语音内容识别模型得到音频对应的语音内容特征矩阵，将所述第二数据集输入所述语音说话人识别模型得到音频对应的语音信息特征矩阵；

基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型，n和m为大于等于1的正整数。

可选的，所述基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型，包括：

基于所述n个分离门卷积层、m个双向长短时记忆网络和1个全连接层构建初始音色转换模型；

将所述语音内容特征矩阵和语音信息特征矩阵输入所述初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵；

利用所述双向长短时记忆网络对所述第一特征矩阵进行训练，得到的第二特征矩阵；

利用所述全连接层对所述第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征；

计算所述预测的目标人音色的声学特征与所述目标声学特征的绝对差值，若所述绝对差值在预设范围内，确定当前的初始音色转换模型为音色转换模型；

若所述绝对差值在预设范围之外，对所述绝对差值进行迭代计算，直至所述绝对差值处于预设范围内，得到训练完成的音色转换模型。

可选的，所述将所述语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵，包括：

将所述语音内容特征矩阵和语音信息特征矩阵输入所述分离门卷积层中的卷积层和残差连接卷积层，所述卷积层的输出通道数是残差连接卷积层的输出通道数的两倍；

利用所述卷积层对所述语音内容特征矩阵和语音信息特征矩阵进行计算，确定第一特征数据；

计算基于线性整流relu激活函数和非线性sigmoid激活函数激活的特征数据集，得到初始特征矩阵，其中，所述特征数据集是按照所述卷积层的通道数对所述第一特征数据进行平均分配得到的；

利用所述残差连接卷积层对所述语音内容特征矩阵和语音信息特征矩阵计算得到第二特征数据；

基于所述第二特征数据对初始特征矩阵进行非线性组合，得到第一特征矩阵。

可选的，所述基于所述预先建立的音色转换网络对所述原始音频进行音色转换，得到转换后的目标音频，包括：

利用所述语音内容识别模型对所述原始音频的语音内容进行识别，得到语音内容特征矩阵；

利用所述语音说话人识别模型对所述目标音色进行识别，得到语音信息特征矩阵；

将所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵作为所述音色转换模型的输入，所述音色转换模型对所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵进行处理，得到声学特征；

利用所述声码器模型将所述声学特征转换成目标音频，所述目标音频由所述目标音色和所述语音内容构成。

本申请第二方面示出了一种语音音色转换装置，所述装置包括：

构建单元，用于基于第一数据集训练得到语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到音色转换模型和声码器模型构建音色转换网络，所述第一数据集和所述第二数据集是指高质量的音频数据集；

其中，所述构建单元，具有用于基于所述第二数据集训练由n个分离门卷积层、m个双向长短时记忆网络和1个全连接层构成的音色转换模型，具体过程包括：将所述第二数据集输入所述语音内容识别模型得到音频对应的语音内容特征矩阵，将所述第二数据集输入所述语音说话人识别模型得到音频对应的语音信息特征矩阵；基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型，n和m为大于等于1的正整数；

输入单元，用于将获取的原始音频和用户确认的目标音色输入所述预先建立的音色转换网络，所述原始音频至少包括原始音色和语音内容；

所述音色转换网络，用于对所述原始音频进行音色转换，得到转换后的目标音频，所述目标音频由所述目标音色和所述语音内容构成。

可选的，所述音色转换网络具体用于：利用所述语音内容识别模型对所述原始音频的语音内容进行识别，得到语音内容特征矩阵；利用所述语音说话人识别模型对所述目标音色进行识别，得到语音信息特征矩阵；将所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵作为所述音色转换模型的输入，所述音色转换模型对所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵进行处理，得到声学特征；利用所述声码器模型将所述声学特征转换成目标音频，所述目标音频由所述目标音色和所述语音内容构成。

可选的，所述基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型的构建单元，具体用于：

基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层构建初始音色转换模型；将所述语音内容特征矩阵和语音信息特征矩阵输入所述初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵；利用所述双向长短时记忆网络对所述第一特征矩阵进行训练，得到的第二特征矩阵；利用所述全连接层对所述第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征；计算所述预测的目标人音色的声学特征与所述目标声学特征的绝对差值，若所述绝对差值在预设范围内，确定当前的初始音色转换模型为音色转换模型；若所述绝对差值在预设范围之外，对所述绝对差值进行迭代计算，直至所述绝对差值处于预设范围内，得到训练完成的音色转换模型。

可选的，所述将所述语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵的构建单元，具体用于：

将所述语音内容特征矩阵和语音信息特征矩阵输入所述分离门卷积层中的卷积层和残差连接卷积层，所述卷积层的输出通道数是残差连接卷积层的输出通道数的两倍；利用所述卷积层对所述语音内容特征矩阵和语音信息特征矩阵进行计算，确定第一特征数据；计算基于线性整流relu激活函数和非线性sigmoid激活函数激活的特征数据集，得到初始特征矩阵，其中，所述特征数据集是按照所述卷积层的通道数对所述第一特征数据进行平均分配得到的；利用所述残差连接卷积层对所述语音内容特征矩阵和语音信息特征矩阵计算得到第二特征数据；基于所述第二特征数据对初始特征矩阵进行非线性组合，得到第一特征矩阵。

本申请第三方面示出了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储语音音色转换的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如本申请第一方面示出的一种语音音色转换方法。

本申请第四方面示出了一种存储介质，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如本申请第一方面示出的一种语音音色转换方法。

基于上述本申请实施例提供的一种语音音色转换方法及相关设备，该方法包括：将获取的原始音频和用户确认的目标音色输入预先建立的音色转换网络，原始音频至少包括原始音色和语音内容；基于预先建立的音色转换网络对原始音频进行音色转换，得到转换后的目标音频，目标音频由目标音色和语音内容构成；其中，预先建立的音色转换网络包括基于第一数据集训练得到的语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到的音色转换模型和声码器模型。在本申请实施例中，利用语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建的音色转换网络对原始音频和目标音色进行处理，从而得到由目标音色和语音内容构成目标音频。通过上述方式进行音色转换，能够保证转换后的音频的质量，且能够提高转换后的音频的音色与目标音色的相似度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的用户终端和服务器的应用架构图；

图2为本申请实施例提供的一种语音音色转换方法的流程示意图；

图3为本申请实施例提供的音色转换模型的训练流程示意图；

图4为本申请实施例提供的音色转换模型的优化流程示意图；

图5为本申请实施例提供的音色转换模型的原理结构图；

图6为本申请实施例提供的分离门卷积层的原理结构图；

图7为本申请实施例提供的音色转换模型的架构图；

图8为本申请实施例提供的音色转换网络具体进行音色转换的流程示意图；

图9为本申请实施例提供的音色转换网络的架构图；

图10为本申请实施例提供的一种语音音色转换装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请实施例中，利用语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建的音色转换网络对原始音频和目标音色进行处理，从而得到由目标音色和语音内容构成目标音频。通过上述方式进行音色转换，能够保证转换后的音频的质量，且能够提高转换后的音频的音色与目标音色的相似度。

参见图1，为本申请提供的用户终端和服务器的应用架构图。

用户终端通过通讯技术与服务器连接。

服务器中集成了音色转换网络，用于为用户终端提供音色转换服务。

需要说明的是，服务器中集成的音色转换网络是预先建立的，具体的，预先建立的音色转换网络由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建。语音内容识别模型和语音说话人识别模型基于第一数据集训练得到，音色转换模型和声码器模型基于第二数据集训练得到。

该第一数据集和第二数据集是指高质量的音频数据集。

其中，音色转换模型是由n个分离门卷积层、m个双向长短时记忆网络和1个全连接层构成的。

在本申请实施例中，基于第二数据集构建音色转换模型的过程包括：

将第二数据集输入语音内容识别模型得到音频对应的语音内容特征矩阵，将第二数据集输入语音说话人识别模型得到音频对应的语音信息特征矩阵。基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型，n和m为大于等于1的正整数。

本申请上述示出的应用架构可用于众多音色变换、语音克隆、指定音色配音等领域的场景中。

例如，基于该应用架构实现针对指定音色配音的处理过程包括：

用户基于用户终端输入原始音频，即待配音的音频，且基于用户终端确认的目标音色，即指定音色。

用户终端将用户输入的原始音频和目标音色发送至服务器。

服务器接收用户终端输入的原始音频和目标音色，并将获取的原始音频和目标音色输入预先建立的音色转换网络。

服务器利用自身集成的音色转换网络对原始音频进行音色转换，得到转换后的目标音频，目标音频由目标音色和语音内容构成。

服务器将转换后的目标音频发送给用户终端，以完成指定音色配音。

在本申请实施例中，利用训练好的语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建的音色转换网络，并基于构建好的音色转换网络对原始音频和目标音色进行处理，从而得到由目标音色和语音内容构成目标音频。通过上述方式进行音色转换，能够保证转换后的音频的质量，且能够提高转换后的音频的音色与目标音色的相似度。

基于上述本申请实施例公开的处理架构，参见图2，为本申请实施例示出的一种语音音色转换方法的流程示意图，所述方法包括：

步骤s201：将获取的原始音频和用户确认的目标音色输入预先建立的音色转换网络。

在步骤s201中，原始音频是指一个时间长度为t的音频，原始音频至少包括原始音色和语音内容。

在具体实现步骤s201的过程中，获取用户实时输入的原始音频和用户确认的目标音色，将该原始音频和目标音色输入预先建立的音色转换网络。

步骤s202：基于预先建立的音色转换网络对原始音频进行音色转换，得到转换后的目标音频。

在步骤s202中，目标音频由目标音色和语音内容构成。

在具体实现步骤s202的过程中，基于预先建立的音色转换网络对输入的原始音频和目标音色进行处理，将原始音频中的原始音色通过本申请实施例公开的音色转换网络转换为目标音色，最终输出由目标音色和语音内容构成的目标音频。

其中，预先建立的音色转换网络由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建，该语音内容识别模型和语音说话人识别模型基于第一数据集训练得到，以及音色转换模型和声码器模型基于第二数据集训练得到。

需要说明的是，第一数据集为高质量的语音数据集，第二数据集是指高质量的音频数据集。

可选的，第一数据集可以是开源的语音数据集librispeech，该开源的语音数据集librispeech包括2400多个音色，及总时长1000多小时的高质量语音数据集。

可选的，第二数据集可以是开源的音频数据集libritts，该开源的音频数据集libritts包含2400多个音色，及音频总时长为500多小时的高质量音频数据集。

在本申请实施例中，基于第一数据集训练得到的语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到的音色转换模型和声码器模型预先构建音色转换网络的过程，包括以下步骤：

步骤s11：基于第一数据集进行训练得到语音内容识别模型和语音说话人识别模型。

在具体实现步骤s11的过程中，在利用语音内容识别模型进行音频识别之前，需要对语音内容识别模型进行训练，以得到能够准确识别音频内容的语音内容识别模型。具体的，提取第一数据集中每一句语音所表达的音频内容，并按照预设规则分成不同的类别；利用循环神经网络模型来对不同的类别的音频内容进行训练，以得到语音内容识别模型。其中，语音内容识别模型可以用于准确识别来自任意人音色的音频内容，即用户输入的原始音频的音频内容。

在利用语音说话人识别模型进行音频识别之前，需要对语音说话人识别模型进行训练，以得到能够准确识别音频的音色的语音说话人识别模型。具体的，提取第一数据集中每一句音频的每一音色，并利用循环神经网络模型来对每一音色进行训练，以得到语音说话人识别模型。其中，语音说话人识别模型用于准确识别来自音频的说话人信息，即音频的音色。

需要说明的是，若音频内容的类型为英文时，预设规则可设置为英文发音的音素；若音频内容的类型为中文时，预设规则可设置为拼音的声韵母，且该韵母是带声调的。若音频内容的类型为其他类型的外文或方言时，可经过其他类型的外文或方言的发音方式设置预设规则，对此本申请实施例不加以限制。

每一句音频对应的语音内容特征矩阵的矩阵维度为t*256，t为每句音频的长度。其中，每一t*256的矩阵表示时间长度为t的音频每一时刻下的音素内容。

每一音色的语音信息特征矩阵的矩阵维度为1*256。在本申请实施例中，根据音频的长度t对语音信息特征矩阵的矩阵维度进行复制，得到t*256维的语音信息特征矩阵。

需要说明的是，循环神经网络模型是神经网络模型中的一种，其中部分神经元的连接组成了有向环，使得循环神经网络模型中出现内部状态或带记忆的结构，以存在对动态序列进行建模的能力。

在本申请实施例中，语音内容识别模型和语音说话人识别模型除了可以使用循环神经网络模型对语音内容识别模型和语音说话人识别模型进行构建外，还可以使用其他的神经网络模型或机器学习模型等对语音内容识别模型和语音说话人识别模型进行构建，对此本申请实施例不加以限定。

步骤s12：基于第二数据集进行训练得到声码器模型。

在具体实现步骤s12的过程中，在利用lpcnet声码器模型进行音频识别之前，需要对声码器模型进行训练，以得到能够将声学特征转换成时域音频信号的声码器模型。具体的，提取第二数据集中每一句语音的20维声学特征；并利用每一句语音的20维声学特征充分训练声码器模型，以得到声码器模型。

其中，声码器模型可以利用音频的每个时刻的20维声学特征还原回时域音频信号。

在本申请实施例中，lpcnet声码器模型除了可以使用上述方式进行构建外，还可以使用其他的方式进行构建，对此本申请实施例不加以限定。

步骤s13：基于第二数据集进行训练得到音色转换模型。

在具体实现步骤s13的过程中，通过上述训练好的语音内容识别模型和语音说话人识别模型对第二数据集进行处理，得到每一句音频的对应的语音内容特征矩阵和语音信息特征矩阵。再通过每一句音频的对应的语音内容特征矩阵和语音信息特征矩阵训练得到音色转换模型。

步骤s14：基于训练得到的语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

在具体实现步骤s14的过程中，利用上述训练好的语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建音色转换网络。

可选的，基于上述示出的音色转换网络的构建过程，具体基于第二数据集训练得到音色转换模型的过程，如图3所示，包括以下步骤：

步骤s301：将第二数据集输入语音内容识别模型得到音频对应的语音内容特征矩阵，将第二数据集输入语音说话人识别模型得到音频对应的语音信息特征矩阵。

在具体实现步骤s301的过程中，利用上述训练好的语音内容识别模型对第二数据集中每一句音频进行识别，从而提取每一句音频对应的语音内容特征矩阵；利用上述训练好的语音说话人识别模型对第二数据集中每一句音频进行识别，从而提取每一句音频的对应的语音信息特征矩阵。

步骤s302：基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型。

在步骤s302中，n和m为大于等于1的正整数。

在具体实现步骤s302的过程中，将得到的语音内容特征矩阵和语音信息特征矩阵进行矩阵合并，得到语音内容特征矩阵和语音信息特征矩阵的组合矩阵。再利用n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对每一句音频对应的语音内容特征矩阵和语音信息特征矩阵的组合矩阵进行训练，得到音色转换模型。

结合图3，参见图4，在执行步骤s302基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型的过程中，包括以下步骤：

步骤s401：基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层构建初始音色转换模型。

在本申请实施例中，使用n个分离门卷积层、m个双向长短时记忆网络和1个全连接层搭建初始音色转换模型的具体结构，如图5所示。

其中，n个分离门卷积层包括分离门卷积层1、分离门卷积层2…分离门卷积层n共n个分离门卷积层；m个双向长短时记忆网络包括双向长短时记忆网络1、双向长短时记忆网络2至双向长短时记忆网络m共m个双向长短时记忆网络。

需要说明的是，n和m的取值为大于等于1的正整数。

可选的，若n和m的数值增大，则音色转换模型识别的计算量也随之增加，音色转换模型的转换效果也呈现上升的趋势，但是，当n和m的增大到一定数值后，音色转换模型的转换效果反而呈现下降的趋势。为了音色转换模型能够达到更好的识别转换效果，且确定最佳的计算量，需要对音色转换模型的转换效果和计算量进行多次实验。因此，本申请在经过多次实验后，根据音色转换模型的转换计算量和转换效果，优选的，将n设置为4，m设置为2。

在实际应用中，对于n和m的设置，也可以根据技术人员的经验进行设置。

步骤s402：将语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵。

在具体实现步骤s402的过程中，利用n个分离门卷积层依次对输入的语音内容特征矩阵和语音信息特征矩阵进行特征学习，得到第一特征矩阵。

需要说明的是，在执行步骤s402将语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵的过程中，包括以下步骤：

步骤s21：将语音内容特征矩阵和语音信息特征矩阵输入分离门卷积层中的卷积层和残差连接卷积层。

在步骤s21中，卷积层的输出通道数是残差连接卷积层的输出通道数的两倍。

需要说明的是，残差连接卷积层是卷积核为1的卷积，该残差连接卷积层对应的通道数可为c，因此残差连接卷积层的大小为1*1*c。

卷积层是卷积核为k的卷积，该卷积层的对应的通道数可为2*c，因此卷积层的大小为k*k*2c。

可选的，k可设置为5，c可设置为256。

步骤s22：利用卷积层对语音内容特征矩阵和语音信息特征矩阵进行计算，确定第一特征数据。

在具体实现步骤s22的过程中，在不改变任何特征矩阵的值的情况下，将该语音内容特征矩阵和语音信息特征矩阵分别进行维度扩充，并将扩充后的矩阵进行合并，得到语音内容特征矩阵和语音信息特征矩阵的组合矩阵。将语音内容特征矩阵和语音信息特征矩阵的组合矩阵输入卷积层，使卷积层对语音内容特征矩阵和语音信息特征矩阵的组合矩阵进行处理，得到第一特征数据。

例如：将该语音内容特征矩阵的维度t*256进行扩充，得到语音内容特征矩阵此时的维度t*256*1，该语音信息特征矩阵的维度t*256进行扩充，得到语音信息特征矩阵此时的维度为t*256*1，将扩充后的矩阵进行合并，得到语音内容特征矩阵和语音信息特征矩阵的组合矩阵，此时这个组合矩阵的维度变为t*256*2。

步骤s23：计算基于线性整流relu激活函数和非线性sigmoid激活函数激活的特征数据集，得到初始特征矩阵。

在步骤s23中，特征数据集是按照卷积层的通道数对第一特征数据进行平均分配得到的。

可选的，在利用激活函数对语音内容特征矩阵和语音信息特征矩阵的组合矩阵进行处理前，需要按照卷积层的通道数平均对通过卷积层的语音内容特征矩阵和语音信息特征矩阵的组合矩阵，即第一特征数据进行划分，得到与通道数相同的特征数据集。

比如，卷积层的通道数为2*c，则按照卷积层的通道数2*c平均对通过卷积层的语音内容特征矩阵和语音信息特征矩阵的组合矩阵，即第一特征数据进行划分，得到两份相同的特征数据集。

在具体实现步骤s23的过程中，利用线性整流relu激活函数对一份的特征数据集进行激活；利用非线性sigmoid激活函数对另一份的特征数据集进行激活；并计算两个激活后的特征数据集的乘积，得到初始特征矩阵。

步骤s24：利用残差连接卷积层对语音内容特征矩阵和语音信息特征矩阵计算得到第二特征数据。

在具体实现步骤s24的过程中，在不改变任何特征矩阵的值的情况下，将该语音内容特征矩阵和语音信息特征矩阵分别进行维度扩充，并将扩充后的矩阵进行合并，得到语音内容特征矩阵和语音信息特征矩阵的组合矩阵。将语音内容特征矩阵和语音信息特征矩阵的组合矩阵输入残差连接卷积层，使残差连接卷积层对输入的语音内容特征矩阵和语音信息特征矩阵的组合矩阵进行处理，得到第二特征数据。

步骤s25：基于第二特征数据对初始特征矩阵进行非线性组合，得到第一特征矩阵。

在具体实现步骤s25的过程中，计算第二特征数据和初始特征矩阵的和，得到第一特征矩阵。

在本申请实施例中，如图6所示，为本申请实施例示出的基于上述步骤s21至步骤s25的内容体现的分离门卷积层的原理结构图。

步骤s403：利用双向长短时记忆网络对第一特征矩阵进行训练，得到的第二特征矩阵。

在本申请实施例中，在对分离门卷积层输出的数据进行训练之前，需要对双向长短时记忆网络进行训练，以得到该双向长短时记忆网络，需要说明的是，双向长短时记忆网络属于神经网络模型。

在具体实现步骤s403的过程中，将分离门卷积层输出的数据输入的m个双向长短时记忆网络中的第一个双向长短时记忆网络进行训练，并将训练后的第一特征矩阵输入下一双向长短时记忆网络，直至第m个双向长短时记忆网络对上一个双向长短时记忆网络输出的训练后的第一特征矩阵进行训练，得到第二特征矩阵。

需要说明的是，双向长短时记忆网络能够为输出层输入序列中每个结点完整的过去和未来的上下文信息。

步骤s404：利用全连接层对第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征。

在具体实现步骤s404的过程中，利用全连接层对经过分离门卷积层和双向长短时记忆网络的每一句音频进行训练后得到的第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征。

需要说明的是，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

步骤s405：计算预测的目标人音色的声学特征与目标声学特征的绝对差值。

为了更好的监督音色转换模型的识别效果，需要通过目标人音色的声学特征与目标声学特征的绝对差值来监督音色转换模型的识别效果，在具体实现步骤s405的过程中，将预测的目标人音色的声学特征与目标声学特征进行计算，确定预测的目标人音色的声学特征与目标声学特征的绝对差值，即预测的目标人音色的损失函数。

需要说明的是，目标声学特征是将第二数据集输入声码器模型进行识别得到的。

步骤s406：判断预测的目标人音色的声学特征与目标声学特征的绝对差值是否在预设范围内。若绝对差值在预设范围内，则执行步骤s407，若绝对差值在预设范围之外，则执行步骤s408。

在具体实现步骤s406的过程中，确定损失函数是否在预设范围内。若绝对差值在预设范围内，则执行步骤s407，若绝对差值在预设范围之外，则执行步骤s408。

步骤s407：确定当前的初始音色转换模型为音色转换模型。

在具体实现步骤s407的过程中，说明此时初始音色转换模型的识别效果最好，因此确定当前的初始音色转换模型为音色转换模型。

步骤s408：对绝对差值进行迭代计算，直至绝对差值处于预设范围内，得到训练完成的音色转换模型。

在本申请实施例中，通过观察在训练过程中的监测指标，即损失函数来判断当前音色转换模型处于什么样的状态，通过超参数来调整损失函数，使得损失函数收敛到最小值，进而使音色转换模型处于识别效果最好的状态。

其中，超参数包括学习率、训练批次大小batch_size和迭代次数。

需要说明的是，学习率用于表示更新音色转换模型的权重的幅度大小。学习率过大会导致音色转换模型不收敛；学习率过小会导致音色转换模型收敛速度偏慢，需要更长的时间训练。因此，本申请实施例将学习率预先设置为0.0003。

训练批次大小batch_size是每一次训练音色转换模型所需要的语音内容特征矩阵和语音信息特征矩阵。在卷积神经网络中，训练批次能使音色转换模型更快收敛，以达到识别效果更好的音色转换模型。因此，本申请实施例常将训练批次大小设置为32。

迭代次数是指整个训练批次大小输入到音色转换模型进行训练的次数，当预测的目标人音色的声学特征与目标声学特征的绝对值相差较小时，能够使损失函数收敛到最小值，此时音色转换模型的识别效果最好。因此，本申请实施例常将迭代次数设置为1000000。

在具体实现步骤s408的过程中，采用时刻估计算法adam，基于学习率对训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵进行训练，并将训练后的训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵输入初始音色转换模型进行迭代训练，以确定损失函数是否收敛到最小值，若否，则继续将训练后的训练批次大小batch_size的语音内容特征矩阵语音信息特征矩阵输入初始音色转换模型进行迭代训练，以使得损失函数收敛到最小值，即绝对差值处于预设范围内，得到训练完成音色转换模型，如图7所示，此时音色转换模型的识别效果最好。

在本申请实施例中，通过语音内容识别模型和语音说话人识别模型对第二数据集进行识别，得到语音内容特征矩阵和语音信息特征矩阵。通过分离门卷积层、双向长短时记忆网络和全连接层构建初始音色转换模块。利用分离门卷积层对语音内容特征矩阵和语音信息特征矩阵的组合矩阵进行训练，并将训练后的得到第一特征矩阵输入双向长短时记忆网络进行训练，以得到第二特征矩阵，再全连接层对第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征。基于目标人音色的声学特征确定损失函数，以确定当前的初始音色转换模型是否达到最好的识别效果，则继续对初始化音色转换模型进行优化，以使得音色转换模型的识别效果达到最好。

基于上述示出构建好的音色转换网络，在执行步骤s202基于预先建立的音色转换网络对原始音频进行音色转换，得到转换后的目标音频的过程，如图8所示。

在本申请实施例中，基于图8示出的音色转换网络具体进行音色转换的流程示意图，相应的，本申请实施例还对应公开了结合音色转换网络架构进行音色转换的流程图，如图9所示。

该基于预先建立的音色转换网络对原始音频进行音色转换，得到转换后的目标音频的过程包括以下步骤：

步骤s801：利用语音内容识别模型对原始音频的语音内容进行识别，得到语音内容特征矩阵。

在具体实现步骤s801的过程中，将原始音频的语音内容输入图9示出的音色转换网络的架构中，使得音色转换网络中的语音内容识别模型对原始音频的语音内容进行识别处理，输出语音内容特征矩阵，其中，该语音内容特征矩阵的维度为t*256的矩阵。

步骤s802：利用语音说话人识别模型对目标音色进行识别，得到语音信息特征矩阵。

在具体实现步骤s802的过程中，将目标音色输入图9示出的音色转换网络的架构中，使得音色转换网络中的语音说话人识别模型对时间长度为t的音频对应的目标音色进行识别处理，输出语音信息特征矩阵，其中，该语音信息特征矩阵的维度为1*256的矩阵。

需要说明的是，1*256的矩阵表示时间长度为t的音频的说话人的音色，即目标音色。

步骤s803：将语音内容特征矩阵和语音信息特征矩阵的组合矩阵作为音色转换模型的输入，音色转换模型对语音内容特征矩阵和语音信息特征矩阵的组合矩阵进行处理，得到声学特征。

在具体实现步骤s803的过程中，结合图9示出的架构，将得到的语音内容特征矩阵和语音信息特征矩阵进行矩阵合并，得到组合矩阵；然后将合并后的组合矩阵输入音色转换网络中的音色转换模型，使音色转换模型对组合矩阵进行识别处理，得到声学特征。

步骤s804：利用声码器模型将声学特征转换成目标音频。

在步骤s804中，目标音频由目标音色和语音内容构成。

在具体实现步骤s804的过程中，将声学特征输入图9示出的音色转换网络的架构中，使得音色转换网络中的声码器模型将声学特征还原回时域音频信号，并基于时域音频信号生成目标音频。

在本申请实施例中，利用语音内容识别模型对原始音频的语音内容进行识别，得到语音内容特征矩阵；利用语音说话人识别模型对目标音色进行识别，得到语音信息特征矩阵；将得到的语音内容特征矩阵和语音信息特征矩阵进行矩阵合并，得到组合矩阵；然后将合并后的组合矩阵输入训练好的音色转换模型，该音色转换模型对组合矩阵进行识别处理，得到声学特征。用声码器模型将声学特征转换成目标音频。通过上述方式进行音色转换，能够保证转换后的音频的质量，且能够提高转换后的音频的音色与目标音色的相似度。

与上述本申请实施例公开的语音音色转换方法相对应，本申请实施例还对应公开了一种语音音色转换装置的结构示意图，如图10所示，所述装置包括：

构建单元1001，用于基于第一数据集训练得到语音内容识别模型和语音说话人识别模型，以及基于第二数据集训练得到音色转换模型和声码器模型构建音色转换网络。

需要说明的是，第一数据集和第二数据集是指高质量的音频数据集。

其中，构建单元1001，具有用于基于第二数据集训练由n个分离门卷积层、m个双向长短时记忆网络和1个全连接层构成的音色转换模型，具体过程包括：将第二数据集输入语音内容识别模型得到音频对应的语音内容特征矩阵，将第二数据集输入语音说话人识别模型得到音频对应的语音信息特征矩阵；基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对语音内容特征矩阵和语音信息特征矩阵进行训练，得到音色转换模型。

需要说明的是，n和m为大于等于1的正整数。

输入单元1002，用于将获取的原始音频和用户确认的目标音色输入预先建立的音色转换网络1003。

需要说明的是，原始音频至少包括原始音色和语音内容。

音色转换网络1003，用于对原始音频进行音色转换，得到转换后的目标音频。

其中，目标音频由目标音色和语音内容构成。

需要说明的是，上述本申请实施例公开的语音音色转换装置中的各个单元具体的原理和执行过程，与上述本申请实施示出的语音音色转换方法相同，可参见上述本申请实施例公开的语音音色转换方法中相应的部分，这里不再进行赘述。

基于上述示出的语音音色转换装置，音色转换网络1003具体用于：利用语音内容识别模型对原始音频的语音内容进行识别，得到语音内容特征矩阵；利用语音说话人识别模型对目标音色进行识别，得到语音信息特征矩阵；将语音内容特征矩阵和语音信息特征矩阵的组合矩阵作为音色转换模型的输入，音色转换模型对语音内容特征矩阵和语音信息特征矩阵的组合矩阵进行处理，得到声学特征；利用声码器模型将声学特征转换成目标音频，目标音频由目标音色和语音内容构成。

在本申请实施例中，利用语音内容识别模型对原始音频的原始音色和语音内容进行识别，得到语音内容特征矩阵；利用语音说话人识别模型对目标音色进行识别，得到语音信息特征矩阵；将得到的语音内容特征矩阵和语音信息特征矩阵进行矩阵合并，得到组合矩阵；然后将合并后的组合矩阵输入训练好的音色转换模型，该音色转换模型对组合矩阵进行识别处理，得到声学特征。用声码器模型将声学特征转换成目标音频。通过上述方式进行音色转换，能够保证转换后的音频的质量，且能够提高转换后的音频的音色与目标音色的相似度。

基于上述示出的语音音色转换装置，基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层对语音内容特征矩阵和语音信息特征矩阵进行训练，确定音色转换模型的构建单元1001，具体用于：

基于n个分离门卷积层、m个双向长短时记忆网络和1个全连接层构建初始音色转换模型；将语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵；利用双向长短时记忆网络对第一特征矩阵进行训练，得到的第二特征矩阵；利用全连接层对第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征；计算预测的目标人音色的声学特征与目标声学特征的绝对差值，若绝对差值在预设范围内，确定当前的初始音色转换模型为音色转换模型；若绝对差值在预设范围之外，对绝对差值进行迭代计算，直至绝对差值处于预设范围内，得到训练完成的音色转换模型。

在本申请实施例中，通过语音内容识别模型和语音说话人识别模型对第二数据集进行识别，得到语音内容特征矩阵和语音信息特征矩阵。基于分离门卷积层、双向长短时记忆网络和全连接层，以及语音内容特征矩阵和语音信息特征矩阵生成的音色转换模型，可以将原始音频的音色转换为声学特征，以便于后续将声学特征转换为由目标音色和语音内容构成目标音频。能够保证转换后的音频的质量，且能够提高转换后的音频的音色与目标音色的相似度。

基于上述图10示出的语音音色转换装置，将语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习，得到第一特征矩阵的构建单元1001，具体用于：

将语音内容特征矩阵和语音信息特征矩阵输入分离门卷积层中的卷积层和残差连接卷积层，卷积层的输出通道数是残差连接卷积层的输出通道数的两倍；利用卷积层对语音内容特征矩阵和语音信息特征矩阵进行计算，确定第一特征数据；计算基于线性整流relu激活函数和非线性sigmoid激活函数激活的特征数据集，得到初始特征矩阵，其中，特征数据集是按照卷积层的通道数对第一特征数据进行平均分配得到的；利用残差连接卷积层对语音内容特征矩阵和语音信息特征矩阵计算得到第二特征数据；基于第二特征数据对初始特征矩阵进行非线性组合，得到第一特征矩阵。

在本申请实施例中，利用分离门卷积层对语音内容特征矩阵和语音信息特征矩阵的组合矩阵进行训练，并将训练后的得到第一特征矩阵，以便于后续将分离门卷积层训练得到的第一特征矩阵输入双向长短时记忆网络进行训练，以得到第二特征矩阵，再利用全连接层对第二特征矩阵进行非线性组合，输出预测的目标人音色的声学特征。基于目标人音色的声学特征确定损失函数，以确定当前的初始音色转换模型是否达到最好的识别效果，则继续对初始化音色转换模型进行优化，以使得音色转换模型的识别效果达到最好。

本申请实施例提供了一种电子设备，电子设备包括处理器和存储器，存储器用于存储语音音色转换的程序代码和数据，处理器用于调用存储器中的程序指令执行实现如上述实施例中语音音色转换方法所示的步骤。

本申请实施例提供了一种存储介质，存储介质包括存储程序，其中，在程序运行时控制存储介质所在设备执行上述实施例示出的语音音色转换方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。