HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种语音合成模型的训练方法、装置、电子设备和存储介质与流程

2021-01-28 14:01:58|227|起点商标网
一种语音合成模型的训练方法、装置、电子设备和存储介质与流程

本申请涉及语音合成技术领域,特别是涉及一种语音合成模型的训练方法、装置、电子设备和存储介质。



背景技术:

语音合成模型是一种能够将语音语句转换为对应的语音的神经网络模型。通过语音合成模型对语音文本进行处理时,有可能出现没有对语音语句进行正确的结尾操作,导致后续阶段出现大量的无效语音。



技术实现要素:

为解决上述问题,本申请提出了一种语音合成模型的训练方法、装置、电子设备和存储介质。

第一方面,本申请实施例提供一种语音合成模型的训练方法,包括:

通过语音合成模型对语音文本进行处理,得到所述语音文本中的一条语音语句对应的语音;

基于所述语音的长度,判定所述语音语句是否正确结尾;

若判定所述语音语句没有正确结尾,则确定所述语音语句的正确结束位置;

将所述语音语句和所述语音语句的正确结束位置存储至异常训练库,基于所述异常训练库对所述语音合成模型进行局部训练,得到更新的语音合成模型。

第二方面,本申请实施例提供一种语音合成模型的训练装置,包括:

处理单元,用于通过语音合成模型对语音文本进行处理,得到所述语音文本中的一条语音语句对应的语音;

判断单元,用于基于所述语音的长度,判定所述语音语句是否正确结尾;

确定单元,用于若判定所述语音语句没有正确结尾,则确定所述语音语句的正确结束位置;

训练单元,用于将所述语音语句和所述语音语句的正确结束位置存储至异常训练库,基于所述异常训练库对所述语音合成模型进行局部训练,得到更新的语音合成模型。

第三方面,本申请实施例提供一种电子设备,包括:

一个或多个处理器;

与所述一个或多个处理器通信连接的存储器;

一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现以上所述的方法。

采用本申请实施例的上述技术方案,通过语音合成模型对语音文本进行处理时,判断语音语句是否正确结尾;对于没有正确结尾的语音语句,确定该语音语句的正确结束位置,并基于语音语句的正确结束位置对语音合成模型进行局部训练,从而实现对语音合成模型的自动更新。更新后的语音合成模型能够大大提高正确结尾的概率,从而提升了语音合成的稳定性。

附图说明

图1为本申请实施例提供的语音合成模型的训练方法的实现流程示意图一;

图2为本申请实施例提供的语音合成模型的训练方法的实现流程示意图二;

图3为本申请实施例提供的语音合成模型的训练装置的结构组成示意图;

图4本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。

语音合成模型(也即语音合成系统)基于端到端的神经网络实现,因此,语音合成模型也可以称为语音合成神经网络模型。一方面,目前对于语音合成模型的训练,要求有大量的高质量训练语音(例如10小时以上的训练语音)作为训练样本,这使得训练成本很高。另一方面,语音合成模型一旦出现问题很难解决,例如一个经常遭遇到的重要问题是:在对语音文本进行语音合成完毕后,所生成的部分语音没有正确的结束,导致后续阶段带出大量的无效语音。

基于此,本申请实施例提供了一种语音合成模型的训练方法、装置、电子设备和存储介质,通过一种全自动更新方式来更新语音合成模型,更新的语音合成模型能够解决语音合成中出现的无法结尾的问题。

图1为本申请实施例提供的语音合成模型的训练方法的实现流程示意图一,如图1所示,所述方法包括:

步骤101:通过语音合成模型对语音文本进行处理,得到所述语音文本中的一条语音语句对应的语音。

本申请实施例中,语音合成模型能够实现语音合成,语音合成又称为文语转换(texttospeech,tts),可以实现将任意输入的语音文本转换成相应的语音。

在本申请一可选方式中,语音合成模型接收到语音合成请求消息时,开始对语音文本进行处理。这里,语音合成请求消息可以由用户触发。

本申请实施例中,通过语音合成模型对语音文本进行处理时,按照语音文本中的每条语音语句的结束判断符(或者称为结束标志符)判断是否需要进行结尾。

需要说明的是,语音合成模型有可能会对某一条语音语句做出正确的结尾,也有可能会对某一条语音语句做出错误的结尾。对于做出错误结尾的语音语句是不被期望的,因此,需要重新更新语音合成模型,来提高语音合成模型对语音语句进行正确结尾的准确度。本申请实施例的技术方案按照以下步骤102至步骤104对语音合成模型进行更新。

步骤102:基于所述语音的长度,判定所述语音语句是否正确结尾。

本申请实施例中,通过以下方式来判定所述语音语句是否正确结尾:

a)判断所述语音的长度是否大于或等于第一目标阈值;b1)若所述语音的长度大于或等于第一目标阈值,则判定所述语音语句没有正确结尾;b2)若所述语音的长度小于第一目标阈值,则判定所述语音语句正确结尾。

这里,预先设置一个阈值(即第一目标阈值),该阈值的单位为时长。判断合成的语音的长度是否达到(或者说是否大于或等于)该阈值,若达到,则确定语音合成模型对语音语句没有做出正确的结尾操作,若没有达到,则确定语音合成模型对语音语句做出了正确的结尾操作,可以继续处理下一条语音语句的合成处理。

步骤103:若判定所述语音语句没有正确结尾,则确定所述语音语句的正确结束位置。

本申请实施例中,通过以下方式来确定所述语音语句的正确结束位置:对所述语音进行识别;将所述语音的识别结果与所述语音语句所在的语音文本进行比较,基于比较结果确定所述语音语句的正确结束位置。

这里,对语音进行识别,得到的识别结果是该语音对应的语音语句,将该语音对应的语音语句与语音文本进行比对,检测出语音语句的正确结束位置。

例如:语音的识别结果为:有效音素+无效音素。将该识别结果与语音文本比对,确定出正确结束位置是在有效音素的后面。

步骤104:将所述语音语句和所述语音语句的正确结束位置存储至异常训练库,基于所述异常训练库对所述语音合成模型进行局部训练,得到更新的语音合成模型。

本申请实施例中,通过反复执行上述步骤101至步骤103,可以得到多条语音语句及其对应的正确结束位置,异常训练库中可以存储多条语音语句及其对应的正确结束位置。

在一可选方式中,判断所述异常训练库中的语音语句的数量是否达到第二目标阈值;若所述异常训练库中的语音语句的数量达到第二目标阈值,则基于所述异常训练库对所述语音合成模型进行局部训练。

在另一可选方式中,判断目标时间距离当前时间的时长是否达到指定时长;若所述目标时间距离当前时间的时长是否达到指定时长,则基于所述异常训练库对所述语音合成模型进行局部训练。这里,所述目标时间为所述语音合成模型对文本中的第一条语音语句进行处理的时间;或者,所述目标时间为所述异常训练库首次更新的时间。

本申请实施例中,所述基于所述异常训练库对所述语音合成模型进行局部训练,包括:将所述异常训练库中的训练数据添加到原始训练数据里面,对所述语音合成模型进行局部训练。在一可选方式中,采用迁移技术对语音合成模型进行局部训练(也可以称为局部再训练(retrain))。如此,在不破坏语音合成模型原有正常的合成语音的效果的基础上,解决了语音语句无法正常结尾的问题。

本申请实施例中,对语音合成模型进行局部训练完成后,得到更新的语音合成模型,将该更新的语音合成模型替换掉之前老的语音合成模型,实现自动优化语音合成模型。

本申请实施例的技术方案中,通过自动更新的语音合成模型,解决了语音合成模型无法正确对语言语句结尾的问题。语音合成模型的自动更新,无需人工介入,降低了维护成本。此外,无需对原始训练数据进行扩充,大大降低了数据成本。再者,用户可以根据自身策略对语音合成模型进行局部训练,从而不断提升语音合成的稳定性,大大提升了产品使用体验。

图2为本申请实施例提供的语音合成模型的训练方法的实现流程示意图二,如图2所示,所述方法包括:

步骤201:通过语音合成模型对语音文本进行处理,得到所述语音文本中的一条语音语句对应的语音。

本申请实施例中,语音合成模型能够实现语音合成,语音合成又称为tts,可以实现将任意输入的语音文本转换成相应的语音。

在本申请一可选方式中,语音合成模型接收到语音合成请求消息时,开始对语音文本进行处理。这里,语音合成请求消息可以由用户触发。

本申请实施例中,通过语音合成模型对语音文本进行处理时,按照语音文本中的每条语音语句的结束判断符(或者称为结束标志符)判断是否需要进行结尾。

需要说明的是,语音合成模型有可能会对某一条语音语句做出正确的结尾,也有可能会对某一条语音语句做出错误的结尾。对于做出错误结尾的语音语句是不被期望的,因此,需要重新更新语音合成模型,来提高语音合成模型对语音语句进行正确结尾的准确度。本申请实施例的技术方案按照以下步骤对语音合成模型进行更新。

步骤202:判断所述语音的长度是否达到第一目标阈值,若是,则执行步骤203,若否,则执行步骤201。

这里,预先设置一个阈值(即第一目标阈值),该阈值的单位为时长。判断合成的语音的长度是否达到(或者说是否大于或等于)该阈值,若达到,则确定语音合成模型对语音语句没有做出正确的结尾操作,若没有达到,则确定语音合成模型对语音语句做出了正确的结尾操作,可以继续处理下一条语音语句的合成处理。

步骤203:对所述语音进行识别;将所述语音的识别结果与所述语音语句所在的语音文本进行比较,基于比较结果确定所述语音语句的正确结束位置。

步骤204:将所述语音语句和所述语音语句的正确结束位置存储至异常训练库。

步骤205:判断所述异常训练库中的语音语句的数量是否达到第二目标阈值;若是,则执行步骤206,若否,则执行步骤201。

步骤206:基于所述异常训练库对所述语音合成模型进行局部训练,得到更新的语音合成模型。

本申请实施例中,所述基于所述异常训练库对所述语音合成模型进行局部训练,包括:将所述异常训练库中的训练数据添加到原始训练数据里面,对所述语音合成模型进行局部训练。在一可选方式中,采用迁移技术对语音合成模型进行局部训练。如此,在不破坏语音合成模型原有正常的合成语音的效果的基础上,解决了语音语句无法正常结尾的问题。

本申请实施例中,对语音合成模型进行局部训练完成后,得到更新的语音合成模型,将该更新的语音合成模型替换掉之前老的语音合成模型,实现自动优化语音合成模型。

图3为本申请实施例提供的语音合成模型的训练装置的结构组成示意图,如图3所示,所述装置包括:

处理单元301,用于通过语音合成模型对语音文本进行处理,得到所述语音文本中的一条语音语句对应的语音;

判断单元302,用于基于所述语音的长度,判定所述语音语句是否正确结尾;

确定单元303,用于若判定所述语音语句没有正确结尾,则确定所述语音语句的正确结束位置;

训练单元304,用于将所述语音语句和所述语音语句的正确结束位置存储至异常训练库,基于所述异常训练库对所述语音合成模型进行局部训练,得到更新的语音合成模型。

在一可选方式中,所述判断单元302,具体用于判断所述语音的长度是否大于或等于第一目标阈值;若所述语音的长度大于或等于第一目标阈值,则判定所述语音语句没有正确结尾;若所述语音的长度小于第一目标阈值,则判定所述语音语句正确结尾。

在一可选方式中,所述确定单元303,具体用于对所述语音进行识别;将所述语音的识别结果与所述语音语句所在的语音文本进行比较,基于比较结果确定所述语音语句的正确结束位置。

在一可选方式中,所述判断单元302,还用于判断所述异常训练库中的语音语句的数量是否达到第二目标阈值;

所述训练单元304,用于若所述异常训练库中的语音语句的数量达到第二目标阈值,则基于所述异常训练库对所述语音合成模型进行局部训练。

在一可选方式中,所述判断单元302,还用于判断目标时间距离当前时间的时长是否达到指定时长;

所述训练单元304,用于若所述目标时间距离当前时间的时长是否达到指定时长,则基于所述异常训练库对所述语音合成模型进行局部训练。

在一可选方式中,所述目标时间为所述语音合成模型对文本中的第一条语音语句进行处理的时间;或者,所述目标时间为所述异常训练库首次更新的时间。

这里需要指出的是:以上装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本申请装置实施例中未披露的技术细节,本领域的技术人员请参照本申请方法实施例的描述而理解,为节约篇幅,这里不再赘述。

本申请实施例还提供了一种电子设备,包括:一个或多个处理器;与所述一个或多个处理器通信连接的存储器;一个或多个应用程序;其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的方法。

在一具体示例中,本申请实施例所述的电子设备可具体为如图4所示的结构,所述电子设备至少包括处理器41、存储介质42以及至少一个外部通信接口43;所述处理器41、存储介质42以及外部通信接口43均通过总线44连接。所述处理器41可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码,所述计算机可执行代码能够执行以上任一实施例所述的方法。在实际应用中,上述方案中的处理单元可以通过所述处理器41实现。

这里需要指出的是:以上电子设备实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本申请电子设备实施例中未披露的技术细节,本领域的技术人员请参照本申请方法实施例的描述而理解,为节约篇幅,这里不再赘述。

本申请实施例还提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现以上所述的方法。

这里,计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式只读存储器(cdrom)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

上述所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 语音合成阈值
tips