HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音转换方法、装置、设备及存储介质与流程

2021-01-28 13:01:06|247|起点商标网
语音转换方法、装置、设备及存储介质与流程

本申请涉及互联网技术领域,特别涉及一种语音转换方法、装置、设备及存储介质。



背景技术:

tts(text-to-speech,从文本到语音)技术可以通过机械的、电子的方法产生人造语音。随着互联网技术的发展和人们对tts技术精确性需求的日益提升,目前出现了调用语音转换模型将文本转换成语音的方法。

相关技术中,通过多个样本文本以及同一用户按照该多个样本文本发出的语音来训练语音转换模型,则模型能够学习到文本和对应的语音之间的关系,从而能够实现将给定的文本转换成对应的语音。

然而,这种语音转换模型只能将文本转换为固定音色的语音,即与上述用户的音色匹配的语音,智能化程度低。



技术实现要素:

本申请实施例提供了一种语音转换方法、装置、设备及存储介质,能够自由控制由文本转换出的语音的音色,智能化程度高。所述技术方案如下。

一方面,提供了一种语音转换方法,所述方法包括:

获取语音转换模型,所述语音转换模型用于根据具有任一音色且属于原始语种的参考语音,将属于所述原始语种的文本转换成具有所述任一音色且属于目标语种的语音,所述原始语种与所述目标语种不同;

获取属于所述原始语种的目标文本和参考语音;

调用所述语音转换模型,根据所述参考语音,将所述目标文本转换成目标语音,所述目标语音与所述目标文本的语义相同,与所述参考语音的音色相同,且属于所述目标语种。

在一种可能的实现方式中,所述语音转换模型包括特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据所述参考语音,将所述目标文本转换成目标语音,包括:

调用所述特征提取子模型,对所述参考语音进行特征提取,得到目标用户特征;

调用所述语音转换子模型,根据所述目标用户特征对所述目标文本进行语音转换,得到所述目标语音。

在另一种可能的实现方式中,所述语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,所述调用所述语音转换子模型,根据所述目标用户特征对所述目标文本进行语音转换,得到所述目标语音,包括:

调用所述文本特征提取网络,根据所述目标用户特征对所述目标文本进行特征提取,得到目标文本特征;

调用所述声学特征提取网络,对所述目标文本特征进行特征转换,得到目标声学特征;

调用所述语音转换网络,根据所述目标用户特征对所述目标声学特征进行语音转换,得到所述目标语音。

在另一种可能的实现方式中,所述语音转换模型的训练过程包括:

获取样本信息,所述样本信息包括样本文本、第一样本语音和第二样本语音,所述样本文本和所述第一样本语音属于所述原始语种,所述第一样本语音与所述样本文本的语义相同,所述第二样本语音与所述样本文本的语义相同且属于所述目标语种,所述第一样本语音和所述第二样本语音的音色不同;

根据所述样本信息,对所述语音转换模型进行训练。

在另一种可能的实现方式中,所述根据所述样本信息,对所述语音转换模型进行训练,包括:

调用所述语音转换模型,根据所述第一样本语音,将所述样本文本转换成第一预测语音;

根据所述第一预测语音与所述第一样本语音之间的音色差异以及所述第一预测语音与所述第二样本语音之间的内容差异,训练所述语音转换模型。

在另一种可能的实现方式中,所述语音转换模型包括特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据所述第一样本语音,将所述样本文本转换成第一预测语音,包括:

调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到样本用户特征;

调用所述语音转换子模型,根据所述样本用户特征对所述样本文本进行语音转换,得到所述第一预测语音。

在另一种可能的实现方式中,所述调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到样本用户特征之前,所述语音转换模型的训练过程还包括:

获取所述第一样本语音的样本标签,所述样本标签指示发出所述第一样本语音的样本用户;

调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到第一用户特征;

调用用户分类模型,根据所述第一用户特征进行分类,得到预测标签;

根据所述样本标签和所述预测标签,训练所述特征提取子模型。

在另一种可能的实现方式中,所述调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到样本用户特征之前,所述语音转换模型的训练过程还包括:

调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到第二用户特征;

获取所述原始语种的正样本用户特征和负样本用户特征,提取出所述正样本用户特征的语音属于所述原始语种,提取出所述负样本用户特征的语音不属于所述原始语种;

根据所述第二用户特征、所述正样本用户特征和所述负样本用户特征,训练所述特征提取子模型。

在另一种可能的实现方式中,所述根据所述第二用户特征、所述正样本用户特征和所述负样本用户特征,训练所述特征提取子模型,包括:

获取所述第二用户特征与所述正样本用户特征之间的第一相似度和所述第二用户特征与所述负样本用户特征之间的第二相似度;

根据所述第一相似度和所述第二相似度训练所述特征提取子模型。

在另一种可能的实现方式中,所述根据所述第一相似度和所述第二相似度训练所述特征提取子模型,包括:

根据所述第一相似度和所述第二相似度确定所述特征提取子模型的损失值,所述损失值与所述第一相似度呈负相关关系,与所述第二相似度呈正相关关系;

根据所述损失值训练所述特征提取子模型。

在另一种可能的实现方式中,所述调用所述语音转换子模型,根据所述样本用户特征对所述样本文本进行语音转换,得到所述第一预测语音之前,所述语音转换模型的训练过程还包括:

调用所述语音转换子模型对所述样本文本进行转换,得到第二预测语音;

根据所述第二预测语音与所述第二样本语音之间的内容差异,训练所述语音转换子模型。

在另一种可能的实现方式中,所述语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,所述调用所述语音转换子模型,根据所述样本用户特征对所述样本文本进行语音转换,得到所述第一预测语音,包括:

调用所述文本特征提取网络,根据所述样本用户特征对所述样本文本进行特征提取,得到样本文本特征;

调用所述声学特征提取网络,对所述样本文本特征进行特征转换,得到样本声学特征;

调用所述语音转换网络,根据所述样本用户特征对所述样本声学特征进行语音转换,得到所述第一预测语音。

另一方面,提供了一种语音转换装置,所述装置包括:

模型获取模块,被配置为获取语音转换模型,所述语音转换模型用于根据具有任一音色且属于原始语种的参考语音,将属于所述原始语种的文本转换成具有所述任一音色且属于目标语种的语音,所述原始语种与所述目标语种不同;

文本获取模块,被配置为获取属于所述原始语种的目标文本和参考语音;

语音转换模块,被配置为调用所述语音转换模型,根据所述参考语音,将所述目标文本转换成目标语音,所述目标语音与所述目标文本的语义相同,与所述参考语音的音色相同,且属于所述目标语种。

在一种可能的实现方式中,所述语音转换模型包括特征提取子模型和语音转换子模型,所述语音转换模块,包括:

特征获取单元,被配置为调用所述特征提取子模型,对所述参考语音进行特征提取,得到目标用户特征;

语音转换单元,被配置为调用所述语音转换子模型,根据所述目标用户特征对所述目标文本进行语音转换,得到所述目标语音。

在另一种可能的实现方式中,所述语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,

所述语音转换单元,被配置为调用所述文本特征提取网络,根据所述目标用户特征对所述目标文本进行特征提取,得到目标文本特征;调用所述声学特征提取网络,对所述目标文本特征进行特征转换,得到目标声学特征;调用所述语音转换网络,根据所述目标用户特征对所述目标声学特征进行语音转换,得到所述目标语音。

在另一种可能的实现方式中,所述语音转换模型的训练过程包括:

获取样本信息,所述样本信息包括样本文本、第一样本语音和第二样本语音,所述样本文本和所述第一样本语音属于所述原始语种,所述第一样本语音与所述样本文本的语义相同,所述第二样本语音与所述样本文本的语义相同且属于所述目标语种,所述第一样本语音和所述第二样本语音的音色不同;

根据所述样本信息,对所述语音转换模型进行训练。

在另一种可能的实现方式中,所述根据所述样本信息,对所述语音转换模型进行训练,包括:

调用所述语音转换模型,根据所述第一样本语音,将所述样本文本转换成第一预测语音;

根据所述第一预测语音与所述第一样本语音之间的音色差异以及所述第一预测语音与所述第二样本语音之间的内容差异,训练所述语音转换模型。

在另一种可能的实现方式中,所述语音转换模型包括特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据所述第一样本语音,将所述样本文本转换成第一预测语音,包括:

调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到样本用户特征;

调用所述语音转换子模型,根据所述样本用户特征对所述样本文本进行语音转换,得到所述第一预测语音。

在另一种可能的实现方式中,所述调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到样本用户特征之前,所述语音转换模型的训练过程还包括:

获取所述第一样本语音的样本标签,所述样本标签指示发出所述第一样本语音的样本用户;

调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到第一用户特征;

调用用户分类模型,根据所述第一用户特征进行分类,得到预测标签;

根据所述样本标签和所述预测标签,训练所述特征提取子模型。

在另一种可能的实现方式中,所述调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到样本用户特征之前,所述语音转换模型的训练过程还包括:

调用所述特征提取子模型,对所述第一样本语音进行特征提取,得到第二用户特征;

获取所述原始语种的正样本用户特征和负样本用户特征,提取出所述正样本用户特征的语音属于所述原始语种,提取出所述负样本用户特征的语音不属于所述原始语种;

根据所述第二用户特征、所述正样本用户特征和所述负样本用户特征,训练所述特征提取子模型。

在另一种可能的实现方式中,所述根据所述第二用户特征、所述正样本用户特征和所述负样本用户特征,训练所述特征提取子模型,包括:

获取所述第二用户特征与所述正样本用户特征之间的第一相似度和所述第二用户特征与所述负样本用户特征之间的第二相似度;

根据所述第一相似度和所述第二相似度训练所述特征提取子模型。

在另一种可能的实现方式中,所述根据所述第一相似度和所述第二相似度训练所述特征提取子模型,包括:

根据所述第一相似度和所述第二相似度确定所述特征提取子模型的损失值,所述损失值与所述第一相似度呈负相关关系,与所述第二相似度呈正相关关系;

根据所述损失值训练所述特征提取子模型。

在另一种可能的实现方式中,所述调用所述语音转换子模型,根据所述样本用户特征对所述样本文本进行语音转换,得到所述第一预测语音之前,所述语音转换模型的训练过程还包括:

调用所述语音转换子模型对所述样本文本进行转换,得到第二预测语音;

根据所述第二预测语音与所述第二样本语音之间的内容差异,训练所述语音转换子模型。

在另一种可能的实现方式中,所述语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,所述调用所述语音转换子模型,根据所述样本用户特征对所述样本文本进行语音转换,得到所述第一预测语音,包括:

调用所述文本特征提取网络,根据所述样本用户特征对所述样本文本进行特征提取,得到样本文本特征;

调用所述声学特征提取网络,对所述样本文本特征进行特征转换,得到样本声学特征;

调用所述语音转换网络,根据所述样本用户特征对所述样本声学特征进行语音转换,得到所述第一预测语音。

另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述程序代码由所述处理器加载并执行以实现上述任一种可能实现方式中的语音转换方法中执行的操作。

另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现上述任一种可能实现方式中的语音转换方法中执行的操作。

再一方面,提供了一种计算机程序产品,所述计算机程序产品中包括至少一条程序代码,所述程序代码由处理器加载并执行以实现上述任一种可能实现方式中的语音转换方法中执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括:

在本申请实施例中,由于获取的语音转换模型能够根据具有任一音色且属于原始语种的参考语音,将属于原始语种的文本转换成具有该音色且属于目标语种的语音,并且,原始语种与目标语种不同,因此,使用该语音转换模型进行语音转换,一方面实现了通过参考语音来自由控制转换出的语音的音色,另一方面还实现了跨语种的语音转换,智能化程度更高且适用范围更广。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图;

图2是本申请实施例提供的一种语音转换方法的流程图;

图3是本申请实施例提供的一种语音转换方法的流程图;

图4是本申请实施例提供的一种语音转换方法的流程图;

图5是本申请实施例提供的一种语音转换模型的示意图;

图6是本申请实施例提供的一种用户特征提取网络的示意图;

图7是本申请实施例提供的一种语音转换装置的框图;

图8是本申请实施例提供的一种终端的结构示意图;

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”、“第三”、“第四”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一用户特征称为用户特征,且类似地,可将第二用户特征称为第一用户特征。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个样本信息包括3个样本信息,而每个是指这3个样本信息中的每一个样本信息,任一是指这3个样本信息中的任意一个,可以是第一个,可以是第二个、也可以是第三个。

图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括至少一个终端101(图1中以两个终端101为例)和服务器102。终端101和服务器102之间通过无线或者有线网络连接。终端101与服务器102能够进行数据传输、消息交互等功能。

可选地,终端101可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表或者智能电梯,其中,智能电梯是指安装有语音控制系统,并通过该语音控制系统来控制电梯运行的电梯。当然,终端101也能够为其他终端,本申请对此不做限制。可选地,服务器102为独立的物理服务器,或者为多个物理服务器构成的服务器集群或者分布式系统,或者为提供云计算和云存储等云服务的云服务器。

可选地,终端101能够根据样本信息训练语音转换模型,训练完成后,终端101能够通过该语音转换模型实现跨语种的语音转换,即将属于原始语种的目标文本转换成属于目标语种的目标语音,并且,还能够通过输入的参考语音控制转换出的目标语音的音色。可选地,终端101直接从服务器102下载已经训练好的语音转换模型,将该语音转换模型存储在终端101中,调用该语音转换模型,获取目标语音。可选地,服务器102中存储的语音转换模型是由服务器102根据样本信息训练好的,或者是由其他终端101训练好后上传到服务器102中的。

本申请实施例提供的方法,能够应用于语音转换的任一场景下。

例如,应用在信息播报的场景下,终端101在获取到属于原始语种的目标文本和参考语音后,能够采用本申请实施例提供的方法对目标文本进行转换,得到与目标文本的语义相同,与参考语音的音色相同,且属于目标语种的语音,然后播放该语音。可选地,信息播报是在任意场合,例如,车站、地铁、火车、医院、比赛会场、新闻发布等各种场合的各类信息的播报,本申请对此不做限制。

又如,应用在跨语言交流的场景下,假设用户会说属于上述原始语种的语言,而不会说属于上述目标语种的语言,若用户需要使用该目标语种表达某段对话,只需要获取属于该原始语种的、能够表达该对话的语义的文本,以及属于该原始语种且由该用户发出的语音,则能够通过本申请实施例提供的方法转换出与该文本的语义相同、属于目标语种且包含该用户的音色的语音,从而实现该用户与属于该目标语种的其他用户之间的对话。实现了在用户不会说属于目标语种的语言的情况下,用用户自己的声音以及属于目标语种的语言来进行交流。

当然,本申请实施例提供的方法,还能够应用在其他场景下,本申请对此不做限制。

图2是本申请实施例提供的一种语音转换方法的流程图。参见图2,该实施例包括以下步骤。

201:获取语音转换模型,语音转换模型用于根据具有任一音色且属于原始语种的参考语音,将属于原始语种的文本转换成具有任一音色且属于目标语种的语音,原始语种与目标语种不同。

202:获取属于原始语种的目标文本和参考语音。

203:调用语音转换模型,根据参考语音,将目标文本转换成目标语音,目标语音与目标文本的语义相同,与参考语音的音色相同,且属于目标语种。

在本申请实施例中,由于获取的语音转换模型能够根据具有任一音色且属于原始语种的参考语音,将属于原始语种的文本转换成具有该音色且属于目标语种的语音,并且,原始语种与目标语种不同,因此,使用该语音转换模型进行语音转换,一方面实现了通过参考语音来自由控制转换出的语音的音色,另一方面还实现了跨语种的语音转换,智能化程度更高且适用范围更广。

在一种可能的实现方式中,语音转换模型包括特征提取子模型和语音转换子模型,调用语音转换模型,根据参考语音,将目标文本转换成目标语音,包括:

调用特征提取子模型,对参考语音进行特征提取,得到目标用户特征;

调用语音转换子模型,根据目标用户特征对目标文本进行语音转换,得到目标语音。

在另一种可能的实现方式中,语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,调用语音转换子模型,根据目标用户特征对目标文本进行语音转换,得到目标语音,包括:

调用文本特征提取网络,根据目标用户特征对目标文本进行特征提取,得到目标文本特征;

调用声学特征提取网络,对目标文本特征进行特征转换,得到目标声学特征;

调用语音转换网络,根据目标用户特征对目标声学特征进行语音转换,得到目标语音。

在另一种可能的实现方式中,语音转换模型的训练过程包括:

获取样本信息,样本信息包括样本文本、第一样本语音和第二样本语音,样本文本和第一样本语音属于原始语种,第一样本语音与样本文本的语义相同,第二样本语音与样本文本的语义相同且属于目标语种,第一样本语音和第二样本语音的音色不同;

根据样本信息,对语音转换模型进行训练。

在另一种可能的实现方式中,根据样本信息,对语音转换模型进行训练,包括:

调用语音转换模型,根据第一样本语音,将样本文本转换成第一预测语音;

根据第一预测语音与第一样本语音之间的音色差异以及第一预测语音与第二样本语音之间的内容差异,训练语音转换模型。

在另一种可能的实现方式中,语音转换模型包括特征提取子模型和语音转换子模型,调用语音转换模型,根据第一样本语音,将样本文本转换成第一预测语音,包括:

调用特征提取子模型,对第一样本语音进行特征提取,得到样本用户特征;

调用语音转换子模型,根据样本用户特征对样本文本进行语音转换,得到第一预测语音。

在另一种可能的实现方式中,调用特征提取子模型,对第一样本语音进行特征提取,得到样本用户特征之前,语音转换模型的训练过程还包括:

获取第一样本语音的样本标签,样本标签指示发出第一样本语音的样本用户;

调用特征提取子模型,对第一样本语音进行特征提取,得到第一用户特征;

调用用户分类模型,根据第一用户特征进行分类,得到预测标签;

根据样本标签和预测标签,训练特征提取子模型。

在另一种可能的实现方式中,调用特征提取子模型,对第一样本语音进行特征提取,得到样本用户特征之前,语音转换模型的训练过程还包括:

调用特征提取子模型,对第一样本语音进行特征提取,得到第二用户特征;

获取原始语种的正样本用户特征和负样本用户特征,提取出正样本用户特征的语音属于原始语种,提取出负样本用户特征的语音不属于原始语种;

根据第二用户特征、正样本用户特征和负样本用户特征,训练特征提取子模型。

在另一种可能的实现方式中,根据第二用户特征、正样本用户特征和负样本用户特征,训练特征提取子模型,包括:

获取第二用户特征与正样本用户特征之间的第一相似度和第二用户特征与负样本用户特征之间的第二相似度;

根据第一相似度和第二相似度训练特征提取子模型。

在另一种可能的实现方式中,根据第一相似度和第二相似度训练特征提取子模型,包括:

根据第一相似度和第二相似度确定特征提取子模型的损失值,损失值与第一相似度呈负相关关系,与第二相似度呈正相关关系;

根据损失值训练特征提取子模型。

在另一种可能的实现方式中,调用语音转换子模型,根据样本用户特征对样本文本进行语音转换,得到第一预测语音之前,语音转换模型的训练过程还包括:

调用语音转换子模型对样本文本进行转换,得到第二预测语音;

根据第二预测语音与第二样本语音之间的内容差异,训练语音转换子模型。

在另一种可能的实现方式中,语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,调用语音转换子模型,根据样本用户特征对样本文本进行语音转换,得到第一预测语音,包括:

调用文本特征提取网络,根据样本用户特征对样本文本进行特征提取,得到样本文本特征;

调用声学特征提取网络,对样本文本特征进行特征转换,得到样本声学特征;

调用语音转换网络,根据样本用户特征对样本声学特征进行语音转换,得到第一预测语音。

上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。

图3是本申请实施例提供的一种语音转换模型的训练方法的流程图。在该实施例中,以执行主体为终端为例进行说明。参见图3,该实施例包括以下步骤。

301:终端获取样本信息,样本信息包括样本文本、第一样本语音和第二样本语音。

样本文本和第一样本语音属于原始语种,第一样本语音与样本文本的语义相同,第二样本语音与样本文本的语义相同且属于目标语种,原始语种和目标语种不同,第一样本语音和第二样本语音的音色不同。

可选地,原始语种包括任意语种,例如,汉语、英语、日语、韩语、西班牙英、法语等。可选地,目标语种包括任意语种,例如,汉语、英语、日语、韩语、西班牙英、法语等。可选地,样本文本和样本语音的内容为任意内容,本申请实施例对此不做限制。

第一样本语音以及第二样本语音与样本文本的语义相同,是指第一样本语音以及第二样本语音与样本文本表达的意思相同。例如,假设原始语种为汉语,目标语种为英语,样本文本为“今天天气非常好”,则第一样本语音为“今天天气非常好”,第二样本语音为“it'sabeautifulday(今天天气非常好)”。

可选地,在获取到属于原始语种的样本文本后,终端录制任意能够使用原始语种的用户按照样本文本发出的语音,则获取到第一样本语音。

可选地,将该样本文本翻译为目标语种的文本后,终端录制任意能够使用目标语种的用户按照该文本发出的语音,则获取到第二样本语音。如此,一方面不用通过同时会说原始语种和目标语种的用户来录制样本语音,降低了录制样本语音的难度,另一方面,样本语音通过多个人来录制,提高了样本语音的录制效率,进而提高了训练语音转换模型的效率。

需要说明的一点是,在样本信息包括多个的情况下,每个样本信息中的样本文本和第一样本语音属于原始语种,第一样本语音与样本文本的语义相同,第二样本语音与样本文本的语义相同且属于目标语种,第一样本语音和第二样本语音的音色不同。多个样本信息的样本文本的内容相同或者不同,例如,第一个样本信息中的样本文本为“今天天气非常好”,第二个样本信息中的样本文本为“周末去看电影吗”,其他样本信息中的样本文本能够为其他内容。同理,多个样本信息的第一样本语音的音色相同或者不同。多个样本信息的第二样本语音的音色相同或者不同。

例如,使用1000个样本用户,其中500个使用原始语种,500个使用目标语种,每个样本用户录制10000句样本文本,则得到1000*10000个样本语音,即得到500*10000个样本信息。其中,多个样本信息的样本文本的内容相同或者不同,多个样本信息的第一样本语音的音色相同或者不同,多个样本信息的第二样本语音的音色相同或者不同。

终端获取到样本信息后,则能够根据样本信息,对语音转换模型进行训练,其中,训练的目标是使该语音转换模型能够根据具有任一音色且属于原始语种的参考语音,将属于该原始语种的文本转换成具有该音色且属于目标语种的语音。以下步骤是训练过程。

302:终端调用语音转换模型,根据第一样本语音,将样本文本转换成第一预测语音。

第一预测语音是根据第一样本语音和样本文本进行预测得到的语音,第一预测语音与样本文本的含义越接近,与第一样本语音的音色越接近,代表语音转换模型越准确。

在一种可能的实现方式中,参考图5,语音转换模型包括特征提取子模型501和语音转换子模型502,相应的,终端调用语音转换模型,根据第一样本语音,将样本文本转换成第一预测语音,包括:终端调用特征提取子模型501,对第一样本语音进行特征提取,得到样本用户特征;终端调用语音转换子模型502,根据样本用户特征对样本文本进行语音转换,得到第一预测语音。

第一样本语音是由样本用户发出的,能够体现样本用户的语音特点,例如,能够体现样本用户的音色特点,也能够体现样本用户的语种特点,即原始语种的特点。对第一样本语音进行特征提取后,得到的样本用户特征则包含了该样本用户的语音特征,该语音特征既包含样本用户的音色特征,还包含样本用户的语种特征,即原始语种的语种特征。

在一种可能的实现方式中,特征提取子模型501包括语音特征提取网络和用户特征提取网络,相应的,终端调用特征提取子模型501,对第一样本语音进行特征提取,得到样本用户特征,包括:终端调用语音特征提取网络对第一样本语音进行特征提取,得到语音特征,调用用户特征提取网络对该语音特征进行特征提取,得到样本用户特征。

其中,语音特征是用于描述第一样本语音的特征,能够在一定程度上描述第一样本语音包含的内容的含义,以及该第一样本语音的音色。可选地,语音特征为梅尔倒谱系数(mel-scalefrequencycepstralcoefficients,mfcc)。

在一种可能的实现方式中,参考图6,用户特征提取网络包括卷积网络500、全连接层509、仿射层510和归一化层511,并且上述各个网络层依次连接。可选地,终端调用用户特征提取网络对该语音特征进行特征提取,得到样本用户特征的实现方式为:终端依次调用卷积网络500、全连接层509、仿射层510和归一化层511对该语音特征进行特征提取,得到样本用户特征。

其中,卷积网络500、全连接层509、仿射层510和归一化层511均用于进行特征提取,但每个网络层的权重以及提取的特征的维度不同,通过这多个网络层依次进行特征提取,得到的样本用户特征更加准确。

在另一种可能的实现方式中,终端也能够依次调用卷积网络500、全连接层509和仿射层510对语音特征进行特征提取,得到样本用户特征。

可选地,继续参考图6,卷积网络500包括的卷积层的个数为多个,例如为3个,分别为128维的第一卷积层506、256维的第二卷积层507和512维的第三卷积层508,并且上述三个卷积层依次连接。可选地,卷积层的个数还能够为3的倍数,例如当卷积层的个数为6的时候,这6个卷积层包括2个第一卷积层506、2个第二卷积层507和2个第三卷积层508,并且这6个卷积层按照第一卷积层506、第二卷积层507、第三卷积层508、第一卷积层506、第二卷积层507和第三卷积层508的顺序依次连接。当卷积层的个数为3的其他倍数时,卷积层的连接方式类似,此处不再赘述。图6中的“n*”表示卷积网络500的个数,其中,n为任意正整数。例如,当n为2时,表示卷积网络500的个数为2。

可选地,在卷积网络500包括第一卷积层506、第二卷积层507和第三卷积层508的情况下,终端依次调用卷积网络500、全连接层509、仿射层510和归一化层511对该语音特征进行特征提取,得到样本用户特征,包括:终端调用第一卷积层506对该语音特征进行特征提取,得到第一输出特征后,依次调用第二卷积层507和第三卷积层508对该第一输出特征进行多级特征提取,得到第二输出特征,再将第一输出特征以残差的形式与第二输出特征一起输入到全连接层509中,然后依次调用全连接层509、仿射层510和归一化层511对该第一输出特征和该第二输出特征进行多级特征提取,得到样本用户特征。上述方法通过将第一输出特征与第二输出特征以残差的形式一起输入到之后的全连接层509,然后再继续进行特征提取,能够有效防止用户特征提取网络出现梯度消失的问题,即当用户特征提取网络的网络层数较深时,在训练用户特征提取网络时,层数比较浅的网络层的权重不更新的问题。

可选地,终端调用语音转换子模型502,根据样本用户特征对样本文本进行语音转换,得到第一预测语音的实现方式为:终端调用语音转换子模型502对样本文本进行特征提取,得到低级文本特征,将样本用户特征与低级文本特征进行融合,得到融合特征,根据该融合特征进行语音转换,得到第一预测语音。

其中,低级文本特征为描述样本文本的特征,能够在一定程度上描述样本文本包含的内容的含义,以及样本文本的语种特点,也即原始语种的语种特点。样本用户特征中包含了发出第一样本语音的样本用户的音色特征,以及原始语种的语种特征,能够描述该样本用户的音色以及原始语种,则融合特征既能描述样本文本的含义,也能描述样本用户的音色,还能描述原始语种,从而使得语音转换子模型502能够根据该融合特征,得到与该样本文本的含义相同、属于目标语种、且包含该样本用户的音色的第一预测语音。

在一种可能的实现方式中,继续参考图5,语音转换子模型502包括文本特征提取网络503、声学特征提取网络504和语音转换网络505,相应的,终端调用语音转换子模型502,根据样本用户特征对样本文本进行语音转换,得到第一预测语音,包括:终端调用文本特征提取网络503,根据样本用户特征对样本文本进行特征提取,得到样本文本特征;调用声学特征提取网络504,对样本文本特征进行特征转换,得到样本声学特征;调用语音转换网络505,根据样本用户特征对样本声学特征进行语音转换,得到第一预测语音。

其中,样本文本特征描述的是文本,而样本声学特征描述的是样本文本的内容对应的发音,并且,样本文本特征描述的是属于原始语种的文本,而样本声学特征描述的是属于目标语种的发音。

在一种可能的实现方式中,终端调用文本特征提取网络503,根据样本用户特征对样本文本进行特征提取,得到样本文本特征,包括:终端调用文本特征提取网络503,对样本文本进行特征提取,得到低级文本特征,将样本用户特征与该低级文本特征融合,得到融合特征,再对该融合特征进行特征提取,得到样本文本特征。

可选地,终端调用文本特征提取网络503,对样本文本进行特征提取,得到低级文本特征,将样本用户特征与该低级文本特征融合,得到融合特征,再对该融合特征进行特征提取,得到样本文本特征的实现方式为:终端在通过文本特征提取网络503中的多个网络层对样本文本进行多级特征提取的过程中,将样本用户特征输入到该多个网络层中的目标网络层中,与该目标网络层中的特征进行融合,终端将文本特征提取网络503中最后一个网络层的输出作为样本文本特征。

可选地,文本特征提取网络503包括文本归一化层、分词层、词性标注层、韵律标注层,重音标注层、多音字预测层、音素序列获取层和文本特征提取层,并且,上述各个网络层依次连接。

文本归一化层用于规范文本的格式,例如将“2020/02/01”转换为“二零二零年二月一号”、将“¥500”转换为“五百元”等。分词层用于对文本进行分词,例如将文本“今天天气非常好”转换为多个词语:“今天”、“天气”、“非常”、“好”。韵律标注层用于标注出文本的停顿、文本中的词的音高和音长等。重音标注层用于标注出文本中的词的重音。多音字预测层用于标注出文本中的多音字。音素序列获取层用于将文本转换为音素序列,例如,将“普通话”转换为音素序列“p、u、t、o、ng、h、u、a”,并且,音素序列获取层是将文本转换为与该文本所属的语种对应的音素序列。

在一种可能的实现方式中,终端调用文本特征提取网络503,根据样本用户特征对样本文本进行特征提取,得到样本文本特征,包括:终端依次调用文本归一化层、分词层、词性标注层、韵律标注层,重音标注层、多音字预测层对样本文本进行标注或者转换后,调用音素序列获取层对样本文本进行映射,得到样本文本对应的音素序列,调用文本特征提取层,根据样本用户特征对该音素序列进行特征提取,得到样本文本特征。

可选地,声学特征提取网络504的内部采用了注意力机制,注意力机制是一种从大量信息中有选择地筛选出少量重要信息并聚焦这些重要信息,而忽略大多不重要的信息的机制。

声学特征提取网络504采用注意力机制,则会自适应地提高靠近发音位置的声学特征的权重,从而使得样本语音中距离发音位置越近的帧越能影响当前帧的发音,保证了语音转换模型的对齐效果。

在一种可能的实现方式中,终端调用语音转换网络505,根据样本用户特征对样本声学特征进行语音转换,得到第一预测语音,包括:终端调用语音转换网络505,将样本用户特征与样本声学特征进行融合,得到融合特征,再对该融合特征进行语音转换,得到第一预测语音。

样本声学特征能够描述样本文本的内容对应的目标语种的发音,而样本用户特征能够描述第一样本语音的音色,则该融合特征能够描述样本文本的内容对应的目标语种的发音,以及第一样本语音的音色,则对该融合特征进行语音转换,语音转换网络505不仅能够学习文本内容对应的目标语种的发音,还能够学习第一样本语音的音色,从而能够转换出与样本文本的内容相同、属于目标语种且包含该音色的第一预测语音。

需要说明的一点是,可选地,上述终端调用文本特征提取网络503,根据样本用户特征对样本文本进行特征提取,得到样本文本特征的过程中,所采用的样本用户特征为上述用户特征提取网络中仿射层510输出的样本用户特征,而上述终端调用语音转换网络505,根据样本用户特征对样本声学特征进行语音转换,得到第一预测语音的过程中,所采用的用户特征为上述用户特征提取网络中归一化层511输出的样本用户特征。如此,前后采用的用户特征不完全相同,能够防止语音转换模型提取重复的特征,从而能够提高语音转换模型的训练效果。

在一种可能的实现方式中,语音转换网络505包括声谱转换层和语音转换层,相应的,终端调用语音转换网络505,根据样本用户特征对样本声学特征进行语音转换,得到第一预测语音,包括:终端调用声谱转换层,根据样本用户特征对样本声学特征进行语音转换,得到预测声谱,调用语音转换层,对该预测声谱进行语音转换,得到第一预测语音。可选地,语音转换层包括声码器模型,用于将声谱转换为语音波形。其中,声谱能够看作“声音的照片”,用来描绘声音成分,如频率、幅度等。可选地,该声码器模型采用parallelwavenet(一种神经网络模型)或者其他模型,本申请实施例对此不做限制。

在本申请实施例中,由于根据样本用户特征获取样本文本特征,使得样本文本特征中融合了样本用户特征,因此,语音转换模型对样本文本特征进行声学特征提取的过程则考虑了样本用户特征中的语种特征,从而提高了提取的声学特征的准确性,即提高了属于原始语种的样本文本与属于目标语种的语音的对齐效果,从而提高了转换出的语音在语义上的准确性。并且,由于根据样本用户特征对声学特征进行语音转换,考虑了样本用户特征中的音色特征,使得转换出的第一预测语音能够接近第一样本语音的音色,提高了转换出的语音在音色上的准确性。

在一种可能的实现方式中,终端调用特征提取子模型501,对第一样本语音进行特征提取,得到样本用户特征之前,先对特征提取子模型501进行训练,训练的方法有两种,第一种包括以下步骤(1)-(4)。

(1)终端获取第一样本语音的样本标签。

其中,样本标签指示发出第一样本语音的样本用户。可选地,样本标签为该样本用户的标识,例如,该样本用户的名称、编号等。

(2)终端调用特征提取子模型501,对第一样本语音进行特征提取,得到第一用户特征。

由于第一样本语音是由样本用户发出的,则对第一样本语音进行特征提取后,得到的第一用户特征则包含了该样本用户的语音特征。可选地,该语音特征包含该样本用户的音色特征和样本用户的语种特征。

(3)终端调用用户分类模型,根据第一用户特征进行分类,得到预测标签。

由于第一用户特征包含了样本用户的音色特征和语种特征,则用户分类模型能够根据该第一用户特征区别出不同的用户,进而得到预测标签。

(4)终端根据样本标签和预测标签,训练特征提取子模型501。

若预测标签和样本标签不同,则调整特征提取子模型501或用户分类模型中至少一个模型的参数,以使预测标签和该样本标签相同。若该预测标签和该样本标签相同,则使用下一个样本信息按照上述(1)-(4)继续训练特征提取子模型501,直到训练完所有的样本信息,特征提取子模型501则训练完成。

在一种可能的实现方式中,该用户分类模型是准确的,即只要输入准确的用户特征,该用户分类模型就能够得到准确的预测标签,则终端只需根据样本标签和预测标签,训练特征提取子模型501即可。由于用户分类模型能够根据训练完成后的特征提取子模型501提取的用户特征得到准确的预测标签,因此说明训练完成后的特征提取子模型501能够提取到能够区分音色和语种的准确的用户特征。如此,通过用户分类模型来辅助训练特征提取子模型501,能够提高训练出的特征提取子模型501的准确性。

在另一种可能的实现方式中,该用户分类模型不是准确的,则终端需要根据样本标签和预测标签,对特征提取子模型501和用户分类模型一起训练。由于训练完成后的用户分类模型能够根据训练完成后的特征提取子模型501提取的用户特征得到准确的预测标签,因此说明训练完成后的特征提取子模型501能够提取到能够区分音色和语种的准确的用户特征。如此,通过用户分类模型来辅助训练特征提取子模型501,能够提高训练出的特征提取子模型501的准确性。

在一种可能的实现方式中,对特征提取子模型501进行训练的第二种方法包括以下步骤(a)-(c)。

(a)终端调用特征提取子模型501,对第一样本语音进行特征提取,得到第二用户特征。

由于第一样本语音是由样本用户发出的,则对第一样本语音进行特征提取后,得到的第二用户特征则包含了该样本用户的语音特征。可选地,该语音特征包含该样本用户的音色特征和样本用户的语种特征。

(b)终端获取原始语种的正样本用户特征和负样本用户特征。

其中,提取出正样本用户特征的语音属于原始语种,提取出负样本用户特征的语音不属于原始语种。

(c)终端根据第二用户特征、正样本用户特征和负样本用户特征,训练特征提取子模型501。

终端根据第二用户特征、正样本用户特征和负样本用户特征,训练特征提取子模型501,以使训练出的特征提取子模型501提取出的第二用户特征与正样本用户特征更加相似,与负样本用户特征更加不同,从而使特征提取子模型501能够提取出能够区分不同语种的准确的用户特征,保证了特征提取子模型501的准确性。

在一种可能的实现方式中,终端根据第二用户特征、正样本用户特征和负样本用户特征,训练特征提取子模型501,包括:终端获取第二用户特征与正样本用户特征之间的第一相似度和第二用户特征与负样本用户特征之间的第二相似度;根据第一相似度和第二相似度训练特征提取子模型501。

其中,终端根据第一相似度和第二相似度训练特征提取子模型501,以使训练出的特征提取子模型501提取出的第二用户特征与正样本用户特征之间的第一相似度更大,与负样本用户特征之间的第二相似度更小,从而使特征提取子模型501能够提取出能够区分不同语种的准确的用户特征,保证了特征提取子模型501的准确性。

在一种可能的实现方式中,终端根据第一相似度和第二相似度训练特征提取子模型501,包括:终端根据第一相似度和第二相似度确定特征提取子模型501的损失值,损失值与第一相似度呈负相关关系,与第二相似度呈正相关关系;终端根据损失值训练特征提取子模型501。可选地,通过下述公式(1)来确定特征提取子模型501的损失值。

(1)

其中,表示损失值,表示当前样本信息的序号,表示样本信息的总数量、表示第二用户特征,表示正样本用户特征,表示负样本用户特征,表示第二用户特征与正样本用户特征之间的第一相似度,表示第二用户特征与负样本用户特征之间的第二相似度,表示偏置值。

其中,终端根据损失值训练特征提取子模型501,以使该损失值更小,由于损失值与第一相似度呈负相关关系,与第二相似度呈正相关关系,当损失值更小时,则说明特征提取子模型501提取出的第二用户特征与正样本用户特征之间的第一相似度更大,与负样本用户特征之间的第二相似度更小,即特征提取子模型501能够提取出能够区分不同语种的准确的用户特征,保证了特征提取子模型501的准确性。

需要说明的一点是,上述两种训练特征提取子模型501的方法能够采用任意方式结合,例如,先通过上述第一种方法对该特征提取子模型501进行训练,再通过上述第二种方法对该特征提取子模型501进行训练,如此,通过结合这两种训练方法对特征提取子模型501进行训练,能够进一步提高模型的训练效果,保证训练后的特征提取子模型501能够提取出准确的用户特征。

在一种可能的实现方式中,终端调用语音转换子模型502,根据样本用户特征对样本文本进行语音转换,得到第一预测语音之前,先对语音转换子模型502进行训练,方法包括:终端调用语音转换子模型502对样本文本进行转换,得到第二预测语音;终端根据第二预测语音与第二样本语音之间的内容差异,训练语音转换子模型502。

其中,终端根据第二预测语音与第二样本语音之间的内容差异,训练语音转换子模型502,以使第二预测语音与第二样本语音之间的内容差异更小,由于第二预测语音是语音转换子模型502根据属于原始语种的样本文本转换得到的,而第二样本语音是与样本文本语义相同但属于目标语种的语音,则第二预测语音与第二样本语音之间的内容差异更小,则说明语音转换子模型502转换得到的语音更加准确,具有了将属于原始语种的文本转换成属于目标语种的语音的能力。

303:终端根据第一预测语音与第一样本语音之间的音色差异以及第一预测语音与第二样本语音之间的内容差异,训练语音转换模型。

在一种可能的实现方式中,终端根据第一预测语音与第一样本语音之间的音色差异以及第一预测语音与第二样本语音之间的内容差异,训练语音转换模型的实现方式为:终端调整语音转换模型的参数,以使调整后获取的第一预测语音与第一样本语音之间的音色差异更小,与第二样本语音之间的内容差异更小。通过这种方式训练语音转换模型后,语音转换模型能够学习到由文本转换出的语音的音色与第一样本语音的音色之间的关系,以及转换出的语音的内容与样本文本的内容之间的关系,从而具备根据任一音色的参考语音,将目标文本转换成音色与该参考语音的音色相同,与目标文本的语义相同,且属于目标语种的目标语音。

需要说明的一点是,上述训练方法只是对语音转换模型训练的示例性说明,还能够通过其他训练方式得到语音转换模型,本申请对此不做限制。

需要说明的另一点是,上述训练方法的执行主体还能够为其他电子设备,例如服务器,本申请对此不做限制。

图4是本申请实施例提供的一种语音转换方法的流程图。在该实施例中,以执行主体为终端为例进行说明。参见图4,该实施例包括以下步骤。

401:终端获取语音转换模型。

语音转换模型用于根据具有任一音色且属于原始语种的参考语音,将属于原始语种的文本转换成具有任一音色且属于目标语种的语音,原始语种与目标语种不同。

可选地,终端获取语音转换模型的实现方式为:终端自己训练该语音转换模型,或者,终端从服务器获取该语音转换模型,该语音转换模型为服务器训练的,或者是由其他终端训练好后上传到服务器中的。

402:终端获取属于原始语种的目标文本和参考语音。

在一种可能的实现方式中,终端获取输入的属于原始语种的目标文本和参考语音。用户如果想要合成指定内容的语音,将该指定内容对应的属于原始语种的文本输入到终端中,以及输入属于原始语种的参考语音即可,该参考语音用于控制转换出的语音的音色。

需要说明的一点是,可选地,该参考语音的内容与该目标文本的语义相同或者不相同,语音转换模型所转换出的语音的内容是与目标文本的语义相同的语音。

403:终端调用语音转换模型,根据参考语音,将目标文本转换成目标语音。

其中,目标语音与目标文本的语义相同,与参考语音的音色相同,且属于目标语种。

在一种可能的实现方式中,语音转换模型包括特征提取子模型和语音转换子模型,终端调用语音转换模型,根据参考语音,将目标文本转换成目标语音,包括:终端调用特征提取子模型,对参考语音进行特征提取,得到目标用户特征;终端调用语音转换子模型,根据目标用户特征对目标文本进行语音转换,得到目标语音。

其中,目标用户特征是从参考语音中提取的特征,能够描述该参考语音的音色以及原始语种。因此,根据目标用户特征对目标文本进行语音转换,考虑了参考语音的音色和原始语种,使得语音转换子模型能够根据该音色和要转换出的语音的音色之间的关系,以及原始语种和目标语种之间的关系,将目标文本转换成包含参考语音的音色且属于目标语种的语音。

上述步骤的实现方式与上述302中,终端调用特征提取子模型,对第一样本语音进行特征提取,得到样本用户特征;调用语音转换子模型,根据样本用户特征对样本文本进行语音转换,得到第一预测语音的实现方式同理,此处不再赘述。

在一种可能的实现方式中,语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,终端调用语音转换子模型,根据目标用户特征对目标文本进行语音转换,得到目标语音,包括:终端调用文本特征提取网络,根据目标用户特征对目标文本进行特征提取,得到目标文本特征;调用声学特征提取网络,对目标文本特征进行特征转换,得到目标声学特征;调用语音转换网络,根据目标用户特征对目标声学特征进行语音转换,得到目标语音。

若不根据目标用户特征而直接对目标文本特征进行特征提取,则目标文本特征只能描述属于原始语种的文本,但在本申请实施例中,由于目标用户特征能够描述参考语音的音色和原始语种,因此,根据目标用户特征对目标文本进行特征提取,得到的目标文本特征既能描述属于原始语种的文本,又能描述参考语音的音色,由该目标文本特征转换出的目标声学特征,则不仅能够描述目标文本的内容对应的目标语种的发音,还能描述参考语音的音色。之后再次结合目标用户特征对目标声学特征进行转换,能够使语音转换模型充分学习参考语音的音色,从而使转换的目标语音的音色与参考语音的音色相同。

上述步骤的实现方式与上述终端调用文本特征提取网络,根据样本用户特征对样本文本进行特征提取,得到样本文本特征;调用声学特征提取网络,对样本文本特征进行特征转换,得到样本声学特征;调用语音转换网络,根据样本用户特征对样本声学特征进行语音转换,得到第一预测语音的实现方式同理,此处不再赘述。

在本申请实施例中,由于获取的语音转换模型能够根据具有任一音色且属于原始语种的参考语音,将属于原始语种的文本转换成具有该音色且属于目标语种的语音,并且,原始语种与目标语种不同,因此,使用该语音转换模型进行语音转换,一方面实现了通过参考语音来自由控制转换出的语音的音色,另一方面还实现了跨语种的语音转换,智能化程度更高且适用范围更广。

需要说明的一点是,上述语音转换方法的执行主体还能够为其他电子设备,例如服务器,本申请对此不做限制。

图7是本申请实施例提供的一种语音转换装置的框图。参见图7,该装置包括:

模型获取模块701,被配置为获取语音转换模型,语音转换模型用于根据具有任一音色且属于原始语种的参考语音,将属于原始语种的文本转换成具有任一音色且属于目标语种的语音,原始语种与目标语种不同;

文本获取模块702,被配置为获取属于原始语种的目标文本和参考语音;

语音转换模块703,被配置为调用语音转换模型,根据参考语音,将目标文本转换成目标语音,目标语音与目标文本的语义相同,与参考语音的音色相同,且属于目标语种。

在一种可能的实现方式中,语音转换模型包括特征提取子模型和语音转换子模型,语音转换模块703,包括:

特征获取单元,被配置为调用特征提取子模型,对参考语音进行特征提取,得到目标用户特征;

语音转换单元,被配置为调用语音转换子模型,根据目标用户特征对目标文本进行语音转换,得到目标语音。

在另一种可能的实现方式中,语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,

语音转换单元,被配置为调用文本特征提取网络,根据目标用户特征对目标文本进行特征提取,得到目标文本特征;调用声学特征提取网络,对目标文本特征进行特征转换,得到目标声学特征;调用语音转换网络,根据目标用户特征对目标声学特征进行语音转换,得到目标语音。

在另一种可能的实现方式中,语音转换模型的训练过程包括:

获取样本信息,样本信息包括样本文本、第一样本语音和第二样本语音,样本文本和第一样本语音属于原始语种,第一样本语音与样本文本的语义相同,第二样本语音与样本文本的语义相同且属于目标语种,第一样本语音和第二样本语音的音色不同;

根据样本信息,对语音转换模型进行训练。

在另一种可能的实现方式中,根据样本信息,对语音转换模型进行训练,包括:

调用语音转换模型,根据第一样本语音,将样本文本转换成第一预测语音;

根据第一预测语音与第一样本语音之间的音色差异以及第一预测语音与第二样本语音之间的内容差异,训练语音转换模型。

在另一种可能的实现方式中,语音转换模型包括特征提取子模型和语音转换子模型,调用语音转换模型,根据第一样本语音,将样本文本转换成第一预测语音,包括:

调用特征提取子模型,对第一样本语音进行特征提取,得到样本用户特征;

调用语音转换子模型,根据样本用户特征对样本文本进行语音转换,得到第一预测语音。

在另一种可能的实现方式中,调用特征提取子模型,对第一样本语音进行特征提取,得到样本用户特征之前,语音转换模型的训练过程还包括:

获取第一样本语音的样本标签,样本标签指示发出第一样本语音的样本用户;

调用特征提取子模型,对第一样本语音进行特征提取,得到第一用户特征;

调用用户分类模型,根据第一用户特征进行分类,得到预测标签;

根据样本标签和预测标签,训练特征提取子模型。

在另一种可能的实现方式中,调用特征提取子模型,对第一样本语音进行特征提取,得到样本用户特征之前,语音转换模型的训练过程还包括:

调用特征提取子模型,对第一样本语音进行特征提取,得到第二用户特征;

获取原始语种的正样本用户特征和负样本用户特征,提取出正样本用户特征的语音属于原始语种,提取出负样本用户特征的语音不属于原始语种;

根据第二用户特征、正样本用户特征和负样本用户特征,训练特征提取子模型。

在另一种可能的实现方式中,根据第二用户特征、正样本用户特征和负样本用户特征,训练特征提取子模型,包括:

获取第二用户特征与正样本用户特征之间的第一相似度和第二用户特征与负样本用户特征之间的第二相似度;

根据第一相似度和第二相似度训练特征提取子模型。

在另一种可能的实现方式中,根据第一相似度和第二相似度训练特征提取子模型,包括:

根据第一相似度和第二相似度确定特征提取子模型的损失值,损失值与第一相似度呈负相关关系,与第二相似度呈正相关关系;

根据损失值训练特征提取子模型。

在另一种可能的实现方式中,调用语音转换子模型,根据样本用户特征对样本文本进行语音转换,得到第一预测语音之前,语音转换模型的训练过程还包括:

调用语音转换子模型对样本文本进行转换,得到第二预测语音;

根据第二预测语音与第二样本语音之间的内容差异,训练语音转换子模型。

在另一种可能的实现方式中,语音转换子模型包括文本特征提取网络、声学特征提取网络和语音转换网络,调用语音转换子模型,根据样本用户特征对样本文本进行语音转换,得到第一预测语音,包括:

调用文本特征提取网络,根据样本用户特征对样本文本进行特征提取,得到样本文本特征;

调用声学特征提取网络,对样本文本特征进行特征转换,得到样本声学特征;

调用语音转换网络,根据样本用户特征对样本声学特征进行语音转换,得到第一预测语音。

在本申请实施例中,由于获取的语音转换模型能够根据具有任一音色且属于原始语种的参考语音,将属于原始语种的文本转换成具有该音色且属于目标语种的语音,并且,原始语种与目标语种不同,因此,使用该语音转换模型进行语音转换,一方面实现了通过参考语音来自由控制转换出的语音的音色,另一方面还实现了跨语种的语音转换,智能化程度更高且适用范围更广。

需要说明的是:上述实施例提供的语音转换装置在进行语音转换时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音转换装置与语音转换方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本申请实施例还提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的语音转换方法中执行的操作。

可选地,电子设备提供为终端。图8示出了本申请一个示例性实施例提供的终端800的结构框图。该终端800可以是:智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端800包括有:处理器801和存储器802。

处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器801所执行以实现本申请中方法实施例提供的语音转换方法。

在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路804用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏805用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在另一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件808可以是基于美国的gps(globalpositioningsystem,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3d动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时,由处理器801根据用户对显示屏805的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商logo时,指纹传感器814可以与物理按键或厂商logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制显示屏805的显示亮度。具体地,当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。

接近传感器816,也称距离传感器,设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

可选地,电子设备提供为服务器。图9是本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)901和一个或一个以上的存储器902,其中,所述存储器902中存储有至少一条程序代码,所述至少一条程序代码由所述处理器901加载并执行以实现上述各个方法实施例提供的语音转换方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的语音转换方法中执行的操作。

本申请实施例还提供了一种计算机程序,该计算机程序中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的语音转换方法中执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips