HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音合成方法、装置、计算机设备及计算机可读存储介质与流程

2021-01-28 17:01:05|440|起点商标网
语音合成方法、装置、计算机设备及计算机可读存储介质与流程

本发明涉及人工智能技术领域,具体涉及一种语音合成方法、装置、计算机设备及计算机可读存储介质。



背景技术:

语音合成被广泛运用于智能阅读、智能播报等应用场景。如根据文本播放语音,或在具体流程中播放预设语音。

如何提升语音合成的准确率和效率成为亟待解决的问题。



技术实现要素:

鉴于以上内容,有必要提出一种语音合成方法、装置、计算机设备及计算机可读存储介质,其可以根据文本合成语音数据。

本申请的第一方面提供一种语音合成方法,所述语音合成方法包括:

获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本;

根据所述语音类型从云服务器获取第一语音合成模型的模型参数;

用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;

通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型;

基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据。

另一种可能的实现方式中,在所述获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本之前,在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型;在所述语音服务器中存储所述待合成文本。

另一种可能的实现方式中,在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型之前,判断所述语音数据样本是否正确;当所述语音数据样本正确时,在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型。

另一种可能的实现方式中,所述根据所述语音类型从云服务器获取第一语音合成模型的模型参数包括:

根据所述语音类型获取所述语音类型与语音合成模型的关联关系;

根据所述关联关系从所述云服务器获取所述第一语音合成模型的模型参数。

另一种可能的实现方式中,所述通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型包括:

通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练,更新所述第二语音合成模型的参数,得到更新后的模型参数;

通过所述语音服务器将所述更新后的模型参数上传至所述云服务器,使所述云服务器对各个语音服务器上传的参数进行聚合处理,得到聚合参数;

用所述语音服务器接收所述云服务器下发的所述聚合参数,用所述聚合参数更新所述第二语音合成模型的参数,得到所述训练后的语音合成模型。

另一种可能的实现方式中,所述语音合成方法还包括:

将所述目标语音数据从所述语音服务器同步至播报服务器;

控制所述播报服务器根据所述目标语音数据进行语音播报。

另一种可能的实现方式中,所述语音合成方法还包括:

将所述待合成文本和所述训练后的语音合成模型的模型参数发送至播报服务器;

控制所述播报服务器用本地的语音合成模型,根据所述待合成文本和所述训练后的语音合成模型的模型参数合成所述目标语音数据;

控制所述播报服务器根据所述目标语音数据进行语音播报。

本申请的第二方面提供一种语音合成装置,所述语音合成装置包括:

第一获取模块,用于获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本;

第二获取模块,用于根据所述语音类型从云服务器获取第一语音合成模型的模型参数;

初始化模块,用于用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;

训练模块,用于通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型;

合成模块,用于基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据。

本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述语音合成方法。

本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述语音合成方法。

本发明中,用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型,提升了对所述语音合成模型进行训练的效率。基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据,提升了语音合成的准确率。因此,本发明实现了根据文本合成语音数据,提升了语音合成的准确率和效率。

附图说明

图1是本发明实施例提供的语音合成方法的流程图。

图2是本发明实施例提供的语音合成装置的结构图。

图3是本发明实施例提供的计算机设备的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

优选地,本发明的语音合成方法应用在一个或者多个计算机设备中。所述计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的语音合成方法的流程图。所述语音合成方法应用于计算机设备,用于根据文本合成语音数据。

如图1所示,所述语音合成方法包括:

101,获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本。

在一具体实施例中,在所述获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本之前,在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型;在所述语音服务器中存储所述待合成文本。

具体地,所述在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型包括:

向所述用户提供语音录制界面;

通过所述语音录制界面接收所述用户输入的文本数据样本和语音类型,获取所述用户上传录入的语音数据样本;

将所述用户输入的文本数据样本、语音类型和上传录入的语音数据样本关联存储至所述语音服务器。

可以将所述用户输入的文本数据样本、语音类型和上传录入的语音数据样本关联存储至所述语音服务器的预设文件夹中,如将用户user001用户输入的文本数据样本、语音类型和上传录入的语音数据样本存储在文件夹“…/voiceser/user001/flow1/”中。其中,flow1为所述待合成文本对应的应用场景。

在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型之前,判断所述语音数据样本是否正确;当所述语音数据样本正确时,在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型。具体地,将所述语音数据样本识别为待检验文本数据;当所述待检验文本数据与所述文本数据样本一致时,所述语音数据样本正确;当所述待检验文本数据与所述文本数据样本不一致时,所述语音数据样本错误。

在一具体实施例中,通过所述语音录制界面接收所述用户输入的文本数据样本包括:

通过所述语音录制界面接收所述用户自定义输入的文本数据样本;或者

通过所述语音录制界面接收所述用户从多个预设文本数据样本中选择的目标预设文本数据样本。

在一具体实施例中,所述获取所述用户上传录入的语音数据样本包括:

在所述语音录制界面展现所述文本数据样本;

当所述用户朗读所述文本数据样本时,通过录音设备获取所述用户录入的语音数据样本。

102,根据所述语音类型从云服务器获取第一语音合成模型的模型参数。

所述语音类型包括音色、音质、比特率等。

所述语音类型还包括女声、男声、童声女、童声男等。

在一具体实施例中,所述根据所述语音类型从云服务器获取第一语音合成模型的模型参数包括:

根据所述语音类型获取所述语音类型与语音合成模型的关联关系;

根据所述关联关系从所述云服务器获取所述第一语音合成模型的模型参数。

例如,根据语音类型(男声)获取所语音类型与语音合成模型的关联关系为“男生-语音合成模型002”;根据关联关系从云服务器获取第一语音合成模型(语音合成模型002)的模型参数。

不同性别、年龄的声音区别较大,可以用不同声音训练相应的语音合成模型。比如,女声比男声的频率普遍地高一些,在声学上对应于基频特征上的差异。因此根据所述语音类型从云服务器获取第一语音合成模型的模型参数,即对于不同的声音类别采用不同的基频特征参数,例如基频特征的上、下限。另外,在进行语音合成模型的训练时,当前用户上传的语音数据样本较少,为了提高语音合成模型的准确度,可以结合语音类型一致的其他用户的语音数据作为语音合成模型的训练数据。

103,用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致。

所述第一语音合成模型可以是经过多次迭代训练的语音合成模型,且没有达到预设条件,还需要继续训练。所述预设条件包括达到收敛条件、达到预设训练次数、达到预设合成精度。

所述第一语音合成模型的超参数与所述第二语音模型的超参数一致,即所述第一语音合成模型的结构、神经元数量等与所述第二语音模型一致。

在一具体实施例中,所述第一语音合成模型的模型参数是经过预设加密算法加密后的模型参数。

在一具体实施例中,所述第一语音合成模型和所述第二语音合成模型是基于wavenet网络构建而成的神经网络模型。wavenet网络是一种基于cnn(卷积神经网络)的自回归网络。

104,通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型。

在一具体实施例中,所述通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型包括:

(1)通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练,更新所述第二语音合成模型的参数,得到更新后的模型参数。

通过本地训练可以根据所述语音数据样本和所述文本数据样本优化所述第二语音合成模型的参数。同时,与所述云服务器相连的各个语音服务器也会根据各个语音服务器中的样本优化语音合成模型的参数。达到了利用各个语音服务器中的样本同时训练语音合成模型的效果。

(2)通过所述语音服务器将所述更新后的模型参数上传至所述云服务器,使所述云服务器对各个语音服务器上传的参数进行聚合处理,得到聚合参数。

所述云服务器对各个语音服务器上传的参数进行聚合处理,聚合处理可以是对各个语音服务器上传的参数进行加权平均。通过所述云服务器对各个语音服务器上传的参数进行聚合处理,可以不用获取各个语音服务器的样本数据,保护了各个语音服务器中的数据安全性及数据隐私。

(3)用所述语音服务器接收所述云服务器下发的所述聚合参数,用所述聚合参数更新所述第二语音合成模型的参数,得到所述训练后的语音合成模型。

具体地,可以用所述聚合参数替换所述第二语音合成模型的参数,使替换参数后的语音合成模型(即所述训练后的语音合成模型)能够更加准确地合成语音。因为通过所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练具有局限性,样本可能不充足或样本类型相近(如相同声音、近似的文本),对所述第二语音合成模型进行单独训练难以达到较好的训练效果。通过用所述聚合参数更新所述第二语音合成模型的参数,可以综合各个语音服务器的训练效果,在所述训练后的语音合成模型中使用所述聚合参数,可以提升通过所述训练后的语音合成模型合成的语音的质量。

在一具体实施例中,所述通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练包括:

使用预设文本解析模型对所述文本数据样本进行解析,获得所述文本数据样本对应的文本参数;

根据所述语音数据样本生成所述语音数据样本的声学特征序列;

将所述文本数据样本对应的文本参数输入所述第二语音合成模型,通过所述第二语音合成模型计算中间特征序列;

根据所述声学特征序列和所述中间特征序列基于反向传播算法优化所述第二语音合成模型的模型参数。

所述文本数据样本的文本参数包括字词的音调、韵律、音节等。所述预设文本解析模型可以解析文本中所包含的所有字词的音调、韵律、音节等信息,并生成相应的文本参数(可以使用语境信息标注文件的形式表现)。获得的文本参数可以通过语音合成模型转换成合成语音。所述预设文本解析模型以汉语普通话的声韵母为语音合成基元,(基于语法词典、语法规则库)通过文本规范化、语法分析、韵律预测分析、字音转换,依次获得文本的语句信息、词信息、韵律结构信息和每个汉字的声韵母;从而获得文本的语音合成基元(声韵母)的信息以及每个语音合成基元的上下文相关信息,最终生成的文本参数包括了文本中各字词的单音素标注和上下文相关的标注。

在一具体实施例中,所述根据所述语音数据样本生成所述语音数据样本的声学特征序列包括:

将所述语音数据样本切分为多个语音帧;

分别计算各个语音帧的声学特征,声学特征包括基频、能量、梅尔频率倒谱系数;

将各个语音帧的声学特征按时序排序,生成所述语音数据样本的声学特征序列。

105,基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据。

在一具体实施例中,所述基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据包括:

使用预设文本解析模型对所述待合成文本进行解析,获得所述待合成文本对应的文本参数;

将所述待合成文本对应的文本参数输入所述训练后的语音合成模型,获得所述目标语音数据的声学特征序列;

根据所述目标语音数据的声学特征序列生成所述目标语音数据。

实施例一用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型,提升了对所述语音合成模型进行训练的效率。基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据,提升了语音合成的准确率。因此,本发明实现了根据文本合成语音数据,提升了语音合成的准确率和效率。

在另一实施例中,所述方法还包括:

将所述目标语音数据从所述语音服务器同步至播报服务器;

控制所述播报服务器根据所述目标语音数据进行语音播报。

在另一实施例中,所述方法还包括:

将所述待合成文本和所述训练后的语音合成模型的模型参数发送至播报服务器;

控制所述播报服务器用本地的语音合成模型,根据所述待合成文本和所述训练后的语音合成模型的模型参数合成所述目标语音数据;

控制所述播报服务器根据所述目标语音数据进行语音播报。

实施例二

图2是本发明实施例二提供的语音合成装置的结构图。所述语音合成装置20应用于计算机设备。所述语音合成装置20用于根据文本合成语音数据。

如图2所示,所述语音合成装置20可以包括第一获取模块201、第二获取模块202、初始化模块203、训练模块204、合成模块205。

第一获取模块201,用于获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本。

在一具体实施例中,在所述获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本之前,在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型;在所述语音服务器中存储所述待合成文本。

具体地,所述在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型包括:

向所述用户提供语音录制界面;

通过所述语音录制界面接收所述用户输入的文本数据样本和语音类型,获取所述用户上传录入的语音数据样本;

将所述用户输入的文本数据样本、语音类型和上传录入的语音数据样本关联存储至所述语音服务器。

可以将所述用户输入的文本数据样本、语音类型和上传录入的语音数据样本关联存储至所述语音服务器的预设文件夹中,如将用户user001用户输入的文本数据样本、语音类型和上传录入的语音数据样本存储在文件夹“…/voiceser/user001/flow1/”中。其中,flow1为所述待合成文本对应的应用场景。

在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型之前,判断所述语音数据样本是否正确;当所述语音数据样本正确时,在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型。具体地,将所述语音数据样本识别为待检验文本数据;当所述待检验文本数据与所述文本数据样本一致时,所述语音数据样本正确;当所述待检验文本数据与所述文本数据样本不一致时,所述语音数据样本错误。

在一具体实施例中,通过所述语音录制界面接收所述用户输入的文本数据样本包括:

通过所述语音录制界面接收所述用户自定义输入的文本数据样本;或者

通过所述语音录制界面接收所述用户从多个预设文本数据样本中选择的目标预设文本数据样本。

在一具体实施例中,所述获取所述用户上传录入的语音数据样本包括:

在所述语音录制界面展现所述文本数据样本;

当所述用户朗读所述文本数据样本时,通过录音设备获取所述用户录入的语音数据样本。

第二获取模块202,用于根据所述语音类型从云服务器获取第一语音合成模型的模型参数。

所述语音类型包括音色、音质、比特率等。

所述语音类型还包括女声、男声、童声女、童声男等。

在一具体实施例中,所述根据所述语音类型从云服务器获取第一语音合成模型的模型参数包括:

根据所述语音类型获取所述语音类型与语音合成模型的关联关系;

根据所述关联关系从所述云服务器获取所述第一语音合成模型的模型参数。

例如,根据语音类型(男声)获取所语音类型与语音合成模型的关联关系为“男生-语音合成模型002”;根据关联关系从云服务器获取第一语音合成模型(语音合成模型002)的模型参数。

不同性别、年龄的声音区别较大,可以用不同声音训练相应的语音合成模型。比如,女声比男声的频率普遍地高一些,在声学上对应于基频特征上的差异。因此根据所述语音类型从云服务器获取第一语音合成模型的模型参数,即对于不同的声音类别采用不同的基频特征参数,例如基频特征的上、下限。另外,在进行语音合成模型的训练时,当前用户上传的语音数据样本较少,为了提高语音合成模型的准确度,可以结合语音类型一致的其他用户的语音数据作为语音合成模型的训练数据。

初始化模块203,用于用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致。

所述第一语音合成模型可以是经过多次迭代训练的语音合成模型,且没有达到预设条件,还需要继续训练。所述预设条件包括达到收敛条件、达到预设训练次数、达到预设合成精度。

所述第一语音合成模型的超参数与所述第二语音模型的超参数一致,即所述第一语音合成模型的结构、神经元数量等与所述第二语音模型一致。

在一具体实施例中,所述第一语音合成模型的模型参数是经过预设加密算法加密后的模型参数。

在一具体实施例中,所述第一语音合成模型和所述第二语音合成模型是基于wavenet网络构建而成的神经网络模型。wavenet网络是一种基于cnn(卷积神经网络)的自回归网络。

训练模块204,用于通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型。

在一具体实施例中,所述通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型包括:

(1)通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练,更新所述第二语音合成模型的参数,得到更新后的模型参数。

通过本地训练可以根据所述语音数据样本和所述文本数据样本优化所述第二语音合成模型的参数。同时,与所述云服务器相连的各个语音服务器也会根据各个语音服务器中的样本优化语音合成模型的参数。达到了利用各个语音服务器中的样本同时训练语音合成模型的效果。

(2)通过所述语音服务器将所述更新后的模型参数上传至所述云服务器,使所述云服务器对各个语音服务器上传的参数进行聚合处理,得到聚合参数。

所述云服务器对各个语音服务器上传的参数进行聚合处理,聚合处理可以是对各个语音服务器上传的参数进行加权平均。通过所述云服务器对各个语音服务器上传的参数进行聚合处理,可以不用获取各个语音服务器的样本数据,保护了各个语音服务器中的数据安全性及数据隐私。

(3)用所述语音服务器接收所述云服务器下发的所述聚合参数,用所述聚合参数更新所述第二语音合成模型的参数,得到所述训练后的语音合成模型。

具体地,可以用所述聚合参数替换所述第二语音合成模型的参数,使替换参数后的语音合成模型(即所述训练后的语音合成模型)能够更加准确地合成语音。因为通过所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练具有局限性,样本可能不充足或样本类型相近(如相同声音、近似的文本),对所述第二语音合成模型进行单独训练难以达到较好的训练效果。通过用所述聚合参数更新所述第二语音合成模型的参数,可以综合各个语音服务器的训练效果,在所述训练后的语音合成模型中使用所述聚合参数,可以提升通过所述训练后的语音合成模型合成的语音的质量。

在一具体实施例中,所述通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练包括:

使用预设文本解析模型对所述文本数据样本进行解析,获得所述文本数据样本对应的文本参数;

根据所述语音数据样本生成所述语音数据样本的声学特征序列;

将所述文本数据样本对应的文本参数输入所述第二语音合成模型,通过所述第二语音合成模型计算中间特征序列;

根据所述声学特征序列和所述中间特征序列基于反向传播算法优化所述第二语音合成模型的模型参数。

所述文本数据样本的文本参数包括字词的音调、韵律、音节等。所述预设文本解析模型可以解析文本中所包含的所有字词的音调、韵律、音节等信息,并生成相应的文本参数(可以使用语境信息标注文件的形式表现)。获得的文本参数可以通过语音合成模型转换成合成语音。所述预设文本解析模型以汉语普通话的声韵母为语音合成基元,(基于语法词典、语法规则库)通过文本规范化、语法分析、韵律预测分析、字音转换,依次获得文本的语句信息、词信息、韵律结构信息和每个汉字的声韵母;从而获得文本的语音合成基元(声韵母)的信息以及每个语音合成基元的上下文相关信息,最终生成的文本参数包括了文本中各字词的单音素标注和上下文相关的标注。

在一具体实施例中,所述根据所述语音数据样本生成所述语音数据样本的声学特征序列包括:

将所述语音数据样本切分为多个语音帧;

分别计算各个语音帧的声学特征,声学特征包括基频、能量、梅尔频率倒谱系数;

将各个语音帧的声学特征按时序排序,生成所述语音数据样本的声学特征序列。

合成模块205,用于基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据。

在一具体实施例中,所述基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据包括:

使用预设文本解析模型对所述待合成文本进行解析,获得所述待合成文本对应的文本参数;

将所述待合成文本对应的文本参数输入所述训练后的语音合成模型,获得所述目标语音数据的声学特征序列;

根据所述目标语音数据的声学特征序列生成所述目标语音数据。

实施例二的语音合成装置20用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型,提升了对所述语音合成模型进行训练的效率。基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据,提升了语音合成的准确率。因此,本发明实现了根据文本合成语音数据,提升了语音合成的准确率和效率。

在另一实施例中,所述语音合成装置20还包括播报模块,用于将所述目标语音数据从所述语音服务器同步至播报服务器;控制所述播报服务器根据所述目标语音数据进行语音播报。

在另一实施例中,所述播报模块还用于将所述待合成文本和所述训练后的语音合成模型的模型参数发送至播报服务器;

控制所述播报服务器用本地的语音合成模型,根据所述待合成文本和所述训练后的语音合成模型的模型参数合成所述目标语音数据;

控制所述播报服务器根据所述目标语音数据进行语音播报。

实施例三

本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音合成方法实施例中的步骤,例如图1所示的步骤101-105:

101,获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本;

102,根据所述语音类型从云服务器获取第一语音合成模型的模型参数;

103,用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;

104,通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型;

105,基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据。

或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-205:

第一获取模块201,用于获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本;

第二获取模块202,用于根据所述语音类型从云服务器获取第一语音合成模型的模型参数;

初始化模块203,用于用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;

训练模块204,用于通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型;

合成模块205,用于基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据。

实施例四

图3为本发明实施例三提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如语音合成程序。所述处理器302执行所述计算机程序303时实现上述语音合成方法实施例中的步骤,例如图1所示的101-105:

101,获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本;

102,根据所述语音类型从云服务器获取第一语音合成模型的模型参数;

103,用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;

104,通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型;

105,基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据。

或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-205:

第一获取模块201,用于获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本;

第二获取模块202,用于根据所述语音类型从云服务器获取第一语音合成模型的模型参数;

初始化模块203,用于用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型,所述第一语音合成模型的超参数与所述第二语音模型的超参数一致;

训练模块204,用于通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型,得到训练后的语音合成模型;

合成模块205,用于基于所述训练后的语音合成模型,根据所述待合成文本合成目标语音数据。

示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序303在所述计算机设备30中的执行过程。例如,所述计算机程序303可以被分割成图2中的第一获取模块201、第二获取模块202、初始化模块203、训练模块204、合成模块205,各模块具体功能参见实施例二。

本领域技术人员可以理解,所述示意图3仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。

所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据等。此外,存储器301可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述语音合成方法的部分步骤。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 文本分析语音合成
tips