HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种非平行数据的语音转换方法及系统与流程

2021-01-28 14:01:09|233|起点商标网
一种非平行数据的语音转换方法及系统与流程

本发明涉及语音转换技术领域,特别涉及一种非平行数据的语音转换方法及系统。



背景技术:

语音转换是一种用于修改源说话者语音信号以匹配目标说话者语音信号的技术,使之具有目标说话人的语音特征但同时保持语音信息不变。语音转换的主要任务包括提取代表说话人个性的特征参数并进行转换,然后将转换之后的参数重构成语音。这一过程既要保证转换后语音的清晰度,又要保证转换后语音特征的相似度。

在现有的语音转换技术中,大部分方法需要两个说话人具有平行数据(语音对应的文本内容一致),这种方法的主要弊端在于平行数据的获取比较困难;也有一部分方法不需要平行数据,仅需要非平行数据,这种方法的主要弊端在于转换效果不佳。

为了通过使用非平行数据实现较高质量的语音转换效果,亟需一种非平行数据的语音转换方法及系统。



技术实现要素:

本发明提供一种非平行数据的语音转换方法及系统,用以通过使用非平行数据实现较高质量的语音转换效果。

本发明提供了一种非平行数据的语音转换方法,所述方法执行以下步骤:

步骤1:利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型,其中所述大规模合成音库数据包括文本数据和语音对数据;

步骤2:基于所述源说话人的语音数据所对应的文本,根据所述目标说话人语音合成模型,生成与所述目标说话人对应的平行数据,其中,所述平行数据与所述源说话人的语音数据对应于相同的文本内容;

步骤3:利用所述源说话人的语音数据和所述平行数据,训练频谱参数转换模型;

步骤4:基于所述源说话人的语音数据,根据所述频谱参数转换模型和所述目标说话人语音合成模型,生成转换后的目标说话人的语音。

进一步地,所述步骤1:利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型执行以下步骤:

步骤s11:利用源说话人和目标说话人之外的大规模合成音库数据,训练得到基础语音合成模型;

步骤s12:基于目标说话人语音数据,根据所述基础语音合成模型,训练得到所述目标说话人语音合成模型。

进一步地,所述步骤s11:利用源说话人和目标说话人之外的大规模合成音库数据,训练得到基础语音合成模型执行以下步骤:

步骤s111:以所述大规模合成音库数据中的文本数据所对应的音素表征作为输入,以通过强制对齐算法得到的音素时长作为输出,训练得到基于深度神经网络的基础音素时长预测模型;

步骤s112:使用通过强制对齐算法得到的音素时长,对所述音素表征进行帧扩展;

步骤s113:以帧扩展后的音素表征作为输入,以所述大规模合成音库数据中的语音数据所对应的频谱参数作为输出,训练得到基础频谱参数预测模型;

步骤s114:以所述频谱参数作为输入,以所述大规模合成音库数据中的语音作为输出,训练得到基础声码器模型。

进一步地,在所述步骤s113中,所述基础频谱参数预测模型采用基于encoder-decoder框架的tacotron模型。

进一步地,所述步骤s12:基于目标说话人语音数据,根据所述基础语音合成模型,训练得到所述目标说话人语音合成模型执行以下步骤:

步骤s121:利用所述目标说话人的文本数据和语音数据,对所述基础音素时长预测模型进行重训练,得到目标说话人音素时长预测模型;

步骤s122:利用所述目标说话人的文本数据和语音数据,对所述基础频谱参数预测模型进行重训练,得到目标说话人频谱参数预测模型;

步骤s123:利用所述目标说话人的语音数据,对所述基础声码器模型进行重训练,得到目标声码器模型;

步骤s124:将所述目标说话人频谱参数预测模型和所述目标声码器模型作为所述目标说话人语音合成模型。

进一步地,所述步骤2:基于所述源说话人的语音数据所对应的文本,根据所述目标说话人语音合成模型,生成与所述目标说话人对应的平行数据执行以下步骤:

步骤s21:将所述源说话人的文本数据对应的音素表征输入所述目标说话人音素时长预测模型,得到目标说话人的音素时长;

步骤s22:根据所述目标说话人的音素时长对所述音素表征进行帧扩展,得到帧扩展后的音素表征;

步骤s23:将所述目标说话人的帧扩展后的音素表征输入所述目标说话人频谱参数预测模型,得到所述目标说话人的频谱参数;

步骤s24:将所述目标说话人的频谱参数作为所述平行数据。

进一步地,所述步骤3:利用所述源说话人的语音数据和所述平行数据,训练频谱参数转换模型执行以下步骤:

步骤s31:从所述源说话人的语音数据中提取源说话人频谱参数;

步骤s32:使用动态时间弯曲方法将所述源说话人频谱参数和所述平行数据进行帧对齐;

步骤s33:以帧对齐后的所述源说话人频谱参数作为输入,以帧对齐后的所述平行数据作为输出,训练得到所述频谱参数转换模型。

进一步地,在所述步骤s33中,所述频谱参数转换模型采用基于encoder-decoder框架的tacotron模型。

进一步地,所述步骤4:基于所述源说话人的语音数据,根据所述频谱参数转换模型和所述目标说话人语音合成模型,生成转换后的目标说话人的语音执行以下步骤:

步骤s41:从输入的所述源说话人的语音数据中提取源说话人频谱参数;

步骤s42:将所述源说话人频谱参数输入所述频谱参数转换模型,得到转换后的源说话人频谱参数;

步骤s43:将所述转换后的源说话人频谱参数输入所述目标说话人语音合成模型,得到转换后的目标说话人的语音数据。

本发明实施例提供的一种非平行数据的语音转换方法,具有以下有益效果:使用目标说话人语音合成模型,伪造出高质量的平行数据,然后使用平行数据训练频谱参数转换模型,并利用频谱参数转换模型和目标说话人语音合成模型进行语音转换,保证了转换质量。

本发明还提供一种非平行数据的语音转换系统,包括:

目标说话人语音合成模型训练模块,用于利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型,其中所述大规模合成音库数据包括文本数据和语音对数据;

平行数据生成模块,用于基于所述源说话人的语音数据所对应的文本,根据所述目标说话人语音合成模型,生成与所述目标说话人对应的平行数据,其中,所述平行数据与所述源说话人的语音数据对应于相同的文本内容;

频谱参数转换模型训练模块,用于利用所述源说话人的语音数据和所述平行数据,训练频谱参数转换模型;

语音转换模块,用于基于所述源说话人的语音数据,根据所述频谱参数转换模型和所述目标说话人语音合成模型,生成转换后的目标说话人的语音。

本发明实施例提供的一种非平行数据的语音转换系统,具有以下有益效果:平行数据生成模块使用目标说话人语音合成模型,伪造出高质量的平行数据,频谱参数转换模型训练模块使用平行数据训练频谱参数转换模型,语音转换模块利用频谱参数转换模型和目标说话人语音合成模型进行语音转换,保证了转换质量。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例中一种非平行数据的语音转换方法的流程示意图;

图2为本发明实施例中一种非平行数据的语音转换系统的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

本发明实施例提供了一种非平行数据的语音转换方法,如图1所示,所述方法执行以下步骤:

步骤1:利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型,其中所述大规模合成音库数据包括文本数据和语音对数据;

步骤2:基于所述源说话人的语音数据所对应的文本,根据所述目标说话人语音合成模型,生成与所述目标说话人对应的平行数据,其中,所述平行数据与所述源说话人的语音数据对应于相同的文本内容;

步骤3:利用所述源说话人的语音数据和所述平行数据,训练频谱参数转换模型;

步骤4:基于所述源说话人的语音数据,根据所述频谱参数转换模型和所述目标说话人语音合成模型,生成转换后的目标说话人的语音。

上述技术方案的工作原理为:源说话人的语音数据和目标说话人的语音数据之间没有平行的语音数据。示例性地,说话人a为源说话人,说话人b为目标说话人,在本发明中,根据说话人a的语音数据,得到说话人b的语音,该语音可以保持说话人a的语音内容,并且具有说话人b的音色。

在本发明中,首先,利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型;接着,基于源说话人的语音数据所对应的文本,根据目标说话人语音合成模型,生成与目标说话人对应的平行数据;然后,利用源说话人的语音数据和平行数据,训练频谱参数转换模型;最后,基于源说话人的语音数据,根据频谱参数转换模型和目标说话人语音合成模型,生成转换后的目标说话人的语音。

上述技术方案的有益效果为:使用目标说话人语音合成模型,伪造出高质量的平行数据,然后使用平行数据训练频谱参数转换模型,并利用频谱参数转换模型和目标说话人语音合成模型进行语音转换,保证了转换质量。

在一个实施例中,所述步骤1:利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型执行以下步骤:

步骤s11:利用源说话人和目标说话人之外的大规模合成音库数据,训练得到基础语音合成模型;

步骤s12:基于目标说话人语音数据,根据所述基础语音合成模型,训练得到所述目标说话人语音合成模型。

上述技术方案的工作原理为:首先利用大规模合成音库数据,训练得到基础语音合成模型;然后在该基础语音合成模型基础上,利用目标说话人语音数据,训练得到所述目标说话人语音合成模型。

上述技术方案的有益效果为:提供了利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型的具体步骤。

在一个实施例中,所述步骤s11:利用源说话人和目标说话人之外的大规模合成音库数据,训练得到基础语音合成模型执行以下步骤:

步骤s111:以所述大规模合成音库数据中的文本数据所对应的音素表征作为输入,以通过强制对齐算法得到的音素时长作为输出,训练得到基于深度神经网络的基础音素时长预测模型;

步骤s112:使用通过强制对齐算法得到的音素时长,对所述音素表征进行帧扩展;

步骤s113:以帧扩展后的音素表征作为输入,以所述大规模合成音库数据中的语音数据所对应的频谱参数作为输出,训练得到基础频谱参数预测模型;

步骤s114:以所述频谱参数作为输入,以所述大规模合成音库数据中的语音作为输出,训练得到基础声码器模型。

上述技术方案的工作原理为:首先训练得到基础音素时长预测模型,以进行时长预测;然后训练得到基础频谱参数预测模型,以进行频谱预测;最后训练得到基础声码器模型。

在所述步骤s113中,所述基础频谱参数预测模型采用基于encoder-decoder框架的tacotron模型,另外,由于事先已经对输入和输出进行了强制对齐,所以tacotron模型去掉了注意力(attention)模块。

上述技术方案的有益效果为:提供了利用源说话人和目标说话人之外的大规模合成音库数据,训练得到基础语音合成模型的具体步骤。

在一个实施例中,所述步骤s12:基于目标说话人语音数据,根据所述基础语音合成模型,训练得到所述目标说话人语音合成模型执行以下步骤:

步骤s121:利用所述目标说话人的文本数据和语音数据,对所述基础音素时长预测模型进行重训练,得到目标说话人音素时长预测模型;

步骤s122:利用所述目标说话人的文本数据和语音数据,对所述基础频谱参数预测模型进行重训练,得到目标说话人频谱参数预测模型;

步骤s123:利用所述目标说话人的语音数据,对所述基础声码器模型进行重训练,得到目标声码器模型;

步骤s124:将所述目标说话人频谱参数预测模型和所述目标声码器模型作为所述目标说话人语音合成模型。

上述技术方案的工作原理为:使用目标说话人的数据,对基础音素时长预测模型、基础频谱参数预测模型和基础声码器模型分别进行重训练,分别得到目标说话人音素时长预测模型、目标说话人频谱参数预测模型和目标声码器模型。

上述技术方案的有益效果为:提供了基于目标说话人语音数据,根据所述基础语音合成模型,训练得到所述目标说话人语音合成模型的具体步骤。

在一个实施例中,所述步骤2:基于所述源说话人的语音数据所对应的文本,根据所述目标说话人语音合成模型,生成与所述目标说话人对应的平行数据执行以下步骤:

步骤s21:将所述源说话人的文本数据对应的音素表征输入所述目标说话人音素时长预测模型,得到目标说话人的音素时长;

步骤s22:根据所述目标说话人的音素时长对所述音素表征进行帧扩展,得到帧扩展后的音素表征;

步骤s23:将所述目标说话人的帧扩展后的音素表征输入所述目标说话人频谱参数预测模型,得到所述目标说话人的频谱参数;

步骤s24:将所述目标说话人的频谱参数作为所述平行数据。

上述技术方案的工作原理为:将源说话人的文本数据对应的音素表征输入目标说话人音素时长预测模型,根据输出的目标说话人的音素时长对音素表征进行帧扩展后,作为目标说话人频谱参数预测模型的输入,得到目标说话人的频谱参数,即为平行数据。平行数据与源说话人的语音数据具有相同的文本内容。

上述技术方案的有益效果为:提供了基于源说话人的语音数据所对应的文本,根据目标说话人语音合成模型,生成与目标说话人对应的平行数据的具体步骤。

在一个实施例中,所述步骤3:利用所述源说话人的语音数据和所述平行数据,训练频谱参数转换模型执行以下步骤:

步骤s31:从所述源说话人的语音数据中提取源说话人频谱参数;

步骤s32:使用动态时间弯曲方法将所述源说话人频谱参数和所述平行数据进行帧对齐;

步骤s33:以帧对齐后的所述源说话人频谱参数作为输入,以帧对齐后的所述平行数据作为输出,训练得到所述频谱参数转换模型。

上述技术方案的工作原理为:提取的源说话人频谱参数和平行数据的长度可能不一致,因此需要对频谱参数进行处理,具体为使用动态时间弯曲(dynamictimewarping,dtw)将源说话人频谱参数和平行数据进行帧对齐。

在所述步骤s33中,所述频谱参数转换模型采用基于encoder-decoder框架的tacotron模型。另外,由于事先已经对输入和输出进行了帧对齐,所以tacotron模型去掉了注意力(attention)模块。

上述技术方案的有益效果为:提供了利用源说话人的语音数据和所述平行数据,训练频谱参数转换模型的具体步骤。

在一个实施例中,所述步骤4:基于所述源说话人的语音数据,根据所述频谱参数转换模型和所述目标说话人语音合成模型,生成转换后的目标说话人的语音执行以下步骤:

步骤s41:从输入的所述源说话人的语音数据中提取源说话人频谱参数;

步骤s42:将所述源说话人频谱参数输入所述频谱参数转换模型,得到转换后的源说话人频谱参数;

步骤s43:将所述转换后的源说话人频谱参数输入所述目标说话人语音合成模型,得到转换后的目标说话人的语音数据。

上述技术方案的工作原理为:在步骤s43中,将转换后的源说话人频谱参数输入步骤s123得到的目标声码器模型,得到转换后的语音,该语音可以保持输入语音的内容,并且具有目标说话人的音色。因此,根据输入的源说话人的语音数据,经过上述的语音转换步骤,得到目标说话人的语音。

上述技术方案的有益效果为:提供了基于源说话人的语音数据,根据频谱参数转换模型和目标说话人语音合成模型,生成转换后的目标说话人的语音的具体步骤。

如图2所示,本发明实施例提供了一种非平行数据的语音转换系统,包括:

目标说话人语音合成模型训练模块201,用于利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型,其中所述大规模合成音库数据包括文本数据和语音对数据;

平行数据生成模块202,用于基于所述源说话人的语音数据所对应的文本,根据所述目标说话人语音合成模型,生成与所述目标说话人对应的平行数据,其中,所述平行数据与所述源说话人的语音数据对应于相同的文本内容;

频谱参数转换模型训练模块203,用于利用所述源说话人的语音数据和所述平行数据,训练频谱参数转换模型;

语音转换模块204,用于基于所述源说话人的语音数据,根据所述频谱参数转换模型和所述目标说话人语音合成模型,生成转换后的目标说话人的语音。

上述技术方案的工作原理为:源说话人的语音数据和目标说话人的语音数据之间没有平行的语音数据。示例性地,说话人a为源说话人,说话人b为目标说话人,在本发明中,根据说话人a的语音数据,得到说话人b的语音,该语音可以保持说话人a的语音内容,并且具有说话人b的音色。

在本发明中,目标说话人语音合成模型训练模块201利用源说话人和目标说话人之外的大规模合成音库数据,训练目标说话人语音合成模型;平行数据生成模块202基于源说话人的语音数据所对应的文本,根据目标说话人语音合成模型,生成与目标说话人对应的平行数据;频谱参数转换模型训练模块203利用源说话人的语音数据和平行数据,训练频谱参数转换模型;语音转换模块204基于源说话人的语音数据,根据频谱参数转换模型和目标说话人语音合成模型,生成转换后的目标说话人的语音。

上述技术方案的有益效果为:平行数据生成模块使用目标说话人语音合成模型,伪造出高质量的平行数据,频谱参数转换模型训练模块使用平行数据训练频谱参数转换模型,语音转换模块利用频谱参数转换模型和目标说话人语音合成模型进行语音转换,保证了转换质量。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 预测模型语音合成
tips