HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种语音合成方法和装置与流程

2021-01-28 14:01:37|420|起点商标网
一种语音合成方法和装置与流程

本发明涉及信息处理技术领域,特别是涉及一种语音合成方法和一种语音合成装置。



背景技术:

目前,语音合成技术可以比较真实地还原语调平缓的人声语音合成,但在某些特殊场景下,合成的语音需要在某些特殊的单词或短语部分进行重读,即所谓的逻辑句重音,以用来强调以及提醒句子的重点。比如,在银行客服的场景下,输出的语音“请您尽快还清贷款。”中的“尽快”一词理应需要进行特殊重读。这种句重音部分的音频较之语调平缓的语音,通常有语速、音调(基频)等多个方面的特征变化。

针对逻辑句重音的语音合成,传统做法是在声学模型输出声学特征信息之后,通过截取需要强调的特征片段,人为地设置一些参数对声学特征进行调整,比如将音高调高,幅度(响度)增加,语速降低等,然后再将调整后的声学特征片段再拼接到原音频片段中,最后经声码器合成最后的语音序列,即得到具有逻辑句重音的语音序列。

然而上述通过语音合成中的合成器部分,手动或设置工程逻辑调节各个声学特征参数,以达成强调效果的方式,涉及到对音频片段截取和拼接,以及需要通过工程经验和手动调整声学特征参数实现重音效果。



技术实现要素:

鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成方法和相应的一种语音合成装置。

为了解决上述问题,本发明实施例公开了一种语音合成方法,所述方法包括:

获取包括至少一个句子的待处理文本,并从所述待处理文本提取文本特征;

获取句重音特征以及针对句重音特征的目标声学模型;其中,所述目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到,以及所述目标声学模型包括针对句重音特征的偏置层;

根据所述文本特征与所述句重音特征,以及所述目标声学模型,得到具有句重音特征的声学特征;

对所述声学特征进行处理,得到具有句重音特征的语音序列。

可选地,所述目标声学模型通过如下方式生成:

构建针对音色特征的第一偏置层;

根据预设声学模型以及所述针对音色特征的第一偏置层,得到针对音色特征的预先声学模型;

构建针对句重音特征的第二偏置层;

根据所述针对句重音特征的第二偏置层,以及所述针对音色特征的预先声学模型,得到针对句重音特征的目标声学模型。

可选地,所述根据预设声学模型以及所述针对音色特征的第一偏置层,得到针对音色特征的预先声学模型,包括:

获取归一化文本特征,以及根据所述针对音色特征的第一偏置层获取第一偏置项;

采用归一化文本特征以及所述第一偏置项所述第一训练模型进行训练,得到针对音色特征的预先声学模型。

可选地,所述第一偏置层包括第一嵌入层;所述根据所述针对音色特征的第一偏置层获取第一偏置项,包括:

获取针对音色特征的第一训练集;所述第一训练集包括存在多说话人的音色特征样本数据;

对所述音色特征样本数据进行独热编码,得到音色特征向量;

将所述音色特征向量经过所述第一嵌入层,得到针对音色特征的第一偏置项。

可选地,所述根据所述针对句重音特征的第二偏置层,以及所述针对音色特征的预先声学模型,得到针对句重音特征的目标声学模型,包括:

根据所述针对句重音特征的第二偏置项获取第二偏置项;

采用所述归一化文本特征以及所述第二偏置项对所述针对音色特征的预先声学模型进行训练,得到针对句重音特征的目标声学模型。

可选地,所述第二偏置层包括第二嵌入层;所述第一偏置项具有预设长度;所述根据所述第二偏置项获取针对句重音特征的第二偏置项,包括:

获取预设长度的可训练随机序列以及针对句重音特征的第二训练集;所述第二训练集包括存在单个说话人的句重音特征样本数据;

对所述句重音特征样本数据进行独热编码,得到句重音特征向量;

将所述可训练随机序列作为随机偏置项;

将所述句重音特征向量与所述随机偏置项相加并经过所述第二嵌入层,得到针对句重音特征的第二偏置项。

可选地,所述预先训练的声学模型包括浅层参数以及深层参数;还包括:

对所述预先声学模型的浅层参数进行锁定,以及对所述预先声学模型的深层参数进行调整,得到针对句重音特征的目标声学模型。

本发明实施例还公开了一种语音合成装置,所述装置包括:

文本特征提取模块,用于获取包括至少一个句子的待处理文本,并从所述待处理文本提取文本特征;

句重音特征获取模块,用于获取句重音特征;

目标声学模型获取模块,用于获取针对句重音特征的目标声学模型;其中,所述目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到,以及所述目标声学模型包括针对句重音特征的偏置层;

声学特征生成模块,用于根据所述文本特征与所述句重音特征,以及所述目标声学模型,得到具有句重音特征的声学特征;

语音序列生成模块,用于对所述声学特征进行处理,得到具有句重音特征的语音序列。

可选地,所述目标声学模型生成模块包括:

第一偏置层构建子模块,用于构建针对音色特征的第一偏置层;

预先声学模型生成子模块,用于根据预设声学模型以及所述针对音色特征的第一偏置层,得到针对音色特征的预先声学模型;

第二偏置层构建子模块,用于构建针对句重音特征的第二偏置层;

目标声学模型生成子模块,用于根据所述针对句重音特征的第二偏置层,以及所述针对音色特征的预先声学模型,得到针对句重音特征的目标声学模型。

可选地,所述预先声学模型生成子模块包括:

第一偏置项获取单元,用于获取归一化文本特征,以及根据所述针对音色特征的第一偏置层获取第一偏置项;

预先声学模型生成单元,用于采用归一化文本特征以及所述第一偏置项所述第一训练模型进行训练,得到针对音色特征的预先声学模型。

可选地,所述第一偏置层包括第一嵌入层;所述第一偏置项获取单元包括:

第一训练集获取子单元,用于获取针对音色特征的第一训练集;所述第一训练集包括存在多说话人的音色特征样本数据;

音色特征向量获取子单元,用于对所述音色特征样本数据进行独热编码,得到音色特征向量;

第一偏置项获取子单元,用于将所述音色特征向量经过所述第一嵌入层,得到针对音色特征的第一偏置项。

可选地,所述目标声学模型生成子模块包括:

第二偏置项生成单元,用于根据所述针对句重音特征的第二偏置项获取第二偏置项;

目标声学模型生成单元,用于采用所述归一化文本特征以及所述第二偏置项对所述针对音色特征的预先声学模型进行训练,得到针对句重音特征的目标声学模型。

可选地,所述第二偏置层包括第二嵌入层;所述第一偏置项具有预设长度;所述第二偏置项获取单元包括:

获取预设长度的可训练随机序列以及针对句重音特征的第二训练集;所述第二训练集包括存在单个说话人的句重音特征样本数据;

对所述句重音特征样本数据进行独热编码,得到句重音特征向量;

将所述可训练随机序列作为随机偏置项;

将所述句重音特征向量与所述随机偏置项相加并经过所述第二嵌入层,得到针对句重音特征的第二偏置项。

可选地,所述预先训练的声学模型包括浅层参数以及深层参数;还包括:

目标声学模型生成单元,还用于对所述预先声学模型的浅层参数进行锁定,以及对所述预先声学模型的深层参数进行调整,得到针对句重音特征的目标声学模型。

本发明实施例包括以下优点:

在本发明实施例中,向获取的针对句重音特征的目标声学模型输入获取的文本特征以及句重音特征,以便根据目标声学模型的输出,得到针对句重音特征的声学特征,并对输出的声学特征进行处理之后得到针对句重音特征的语音序列;其中,针对句重音特征的目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到,且包括针对句重音特征的偏置层。通过将句重音特征作为单独特征编码,为语音合成提供额外的信息,并结合自适应训练的训练方法,使得声学模型在训练数据有限的前提下,无需依靠工程经验以及经由人为调节,可以自动生成带有句重音的语音序列。

附图说明

图1是现有技术中的一种语音合成系统的示意图;

图2是本发明的一种语音合成方法实施例一的步骤流程图;

图3是本发明的一种语音合成方法实施例二的步骤流程图;

图4是本发明实施例中针对音色特征的预先声学模型的示意图;

图5是本发明实施例中针对句重音特征的目标声学模型的示意图;

图6是本发明实施例中预先训练阶段的时程模型的示意图;

图7是本发明实施例中自适应阶段的时程模型的示意图;

图8是本发明实施例中的一种语音合成方法的应用场景图;

图9是本发明的一种语音合成装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1,示出了现有技术中的一种语音合成系统的示意图,语音合成系统可以包括语音合成前端、时程模型、声学模型以及声码器,其中语音合成前端可以包括文本分析模块以及韵律预测模块。

在现有技术中,采用语音合成系统对语音进行合成的过程可以是将获取到的输入文本作为语音合成系统中语音合成前端的输入项,即将输入文本经过文本分析模块以及韵律预测模块,可以输出得到带有韵律信息的音素,其音素可以简单地对应为中文的汉语拼音或英语的国际音标;然后将输出的带有韵律信息的音素作为时程模型的输入项,并输出得到每个音素所占的帧长;然后还可以将带有时长信息的音素作为声学模型的输入项,该带有时程信息的音素在经过特定的神经网络模型之后,可以输出声学特征;最后可以将经由声学模型输出得到的声学模型,输入到声码器,以便声码器将声学特征转换为时域的声音序列。

针对逻辑句重音的语音合成,传统做法是在通过上述现有的声学模型输出声学特征信息之后,通过截取需要强调的特征片段,并人为地设置一些参数对声学特征进行调整,比如将音高调高,幅度(响度)增加,语速降低等,然后再将调整后的声学特征片段再拼接到原音频片段中,最后经声码器合成最后的语音序列,即得到具有逻辑句重音的语音序列。

上述针对逻辑句重音的语音合成的传统做法,首先涉及到对特征片段的截取以及对调整后的声学特征片段的拼接,可能造成合成的语音序列过渡不够自然;其次,最后得到的具有逻辑句重音的语音序列的重音效果是通过工程经验以及手动调整声学特征参数得到的,可能造成合成的语音序列比较生硬,突兀以及不够灵活。

然而,由于带有逻辑句重音的语句文本通常出现在特定场景中,比如银行客服或是电话催缴等场景需要合成的语音,在该类场景下的文本数量有限,仅使用业务场景的数据,难以直接训练出效果自然流畅的声学模型。

本发明实施例的核心思想之一是将句重音特征作为单独特征编码,为语音合成提供额外的信息,并结合自适应训练的训练方法,使得声学模型在训练数据有限的前提下,无需依靠工程经验以及经由人为调节,可以自动生成带有句重音的语音序列。

参照图2,示出了本发明的一种语音合成方法实施例一的步骤流程图,具体可以包括如下步骤:

步骤201,获取包括至少一个句子的待处理文本,并从所述待处理文本提取文本特征;

步骤202,获取句重音特征以及针对句重音特征的目标声学模型;其中,所述目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到,以及所述目标声学模型包括针对句重音特征的偏置层;

在本发明的一种实施例中,在对目标声学模型进行训练之后,可以获取文本特征与句重音特征,以及针对句重音特征的目标声学模型,以便将文本特征以及句重音特征作为目标声学模型的输入项,输入目标声学模型得到针对句重音特征的声学特征。

其中,获取的文本特征可以从包括至少一个句子的待处理文本中进行提取,待处理文本可以是任意输入文本信息,将提取的文本特征作为目标声学模型的输入项中的其中一项;获取的句重音特征作为目标声学模型的输入项中的另一项输入项,可以用于为作为输入项的文本特征添加句重音特征,可以是需要进行句重音的文本对应的特征向量。

具体的,句重音可以分为两类,分别是语法重音和逻辑重音。语法重音反映的是说话人话语的自然节奏,其在句子中分布相对稳定,所以也可以称之为常规重音;逻辑重音指的是说话人根据特定条件和/或言语需要的临时条件主观安排的重音,逻辑重音没有固定的出现位置,并可以随着说话人的语义重心的转移而变化。在本发明实施例中所提及的句重音,主要指的是逻辑重音,即所提及的句重音特征可以是针对逻辑重音的句重音特征。

步骤203,根据所述文本特征与所述句重音特征,以及所述目标声学模型,得到具有句重音特征的声学特征;

在本发明的一种实施例中,在获取文本特征以及句重音特征之后,可以将文本特征以及句重音特征作为目标声学模型的输入项,输入目标声学模型得到针对句重音特征的声学特征,以便对输出得到的声学特征进行处理并得到具有句重音特征的语音序列。

其中,用于输出具有句重音特征的声学特征的目标声学模型,可以是根据针对音色特征的预先声学模型经过自适应训练得到的模型,即目标声学模型为在预先声学模型的基础上,再通过对预先声学模型进行自适应训练得到;以及,目标声学模型可以包括针对句重音特征的偏置层,即将句重音特征进行单独编码,并作为额外添加的信息,以得到具有句重音特征的目标声学模型。

步骤204,对所述声学特征进行处理,得到具有句重音特征的语音序列。

在实际应用中,在将获取的文本特征以及句重音特征输入目标声学模型并得到输出的声学特征之后,可以对输出的声学特征进行处理,以得到具有句重音特征的语音序列。

具体的,输出的声学特征可以是带有句重音特征的声学特征,对带有句重音特征的声音特征进行处理,可以将带有句重音特征的声音特征输入到声码器,以便声码器将声学特征转换为时域的有句重音特征的声音序列。

在本发明实施例中,向获取的针对句重音特征的目标声学模型输入获取的文本特征以及句重音特征,以便根据目标声学模型的输出,得到针对句重音特征的声学特征,并对输出的声学特征进行处理之后得到针对句重音特征的语音序列;其中,针对句重音特征的目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到。通过将句重音特征作为单独特征编码,为语音合成提供额外的信息,并结合自适应训练的训练方法,使得声学模型在训练数据有限的前提下,无需依靠工程经验以及经由人为调节,可以自动生成带有句重音的语音序列。

参照图3,示出了本发明的一种语音合成方法实施例二的步骤流程图,具体可以包括如下步骤:

步骤301,生成针对句重音特征的目标声学模型;其中,所述目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到的模型,以及所述目标声学模型包括针对句重音特征的偏置层;

在本发明的一种实施例中,可以生成针对句重音特征的目标声学模型,其中,用于输出具有句重音特征的声学特征的目标声学模型,可以是根据针对音色特征的预先声学模型经过自适应训练得到的模型,即目标声学模型为在预先声学模型的基础上,再通过对预先声学模型进行自适应训练得到。

在模型的神经网络的特征学习上,随着由浅入深,模型学习的特征是由一般到特殊的。即越靠近浅层,其学习的特征越为通用泛化的一般特征,越深的层,其学习到的特征越特异化。预先训练的数据与目标数据分布越相似,经自适应训练后得到的模型效果越好。随着分布差异增大,效果的增益降低,但始终比从头训练的模型效果更佳优异。

在实际应用中,合成声音饱满流畅的声学模型(可以是针对任何特征的声学模型)一般需要花费5到10小时甚至以上的文本语音数据进行训练得到,然而在特定场景下的针对句重音特征的语音数据可能仅在两小时的左右。由于针对句重音特征的目标数据源数量有限,难以对神经网络中的各层系数进行充分训练,此时可以采用自适应的训练方法。

具体的,需要先期采用与目标数据源分布相似的其他数据源中的大量数据,训练出一个联合模型,即得到预先训练阶段的模型。在本发明实施例中,所生成的目标声学模型为针对句重音特征的声学模型,可以确定与句重音特征的样本数据概率分布相似的数据,其可以是音色特征的样本数据,此时可以采用音色特征的样本数据进行训练得到针对音色特征的预先声学模型,即训练得到的预先声学模型可以作为目标声学模型的预先训练阶段的模型。

其中,以中文语境来说,可以找到两个或以上说话人用不包含句重音的普通语料数据库进行训练,得到预先训练阶段的模型,然后通过锁定先训练阶段的模型的浅层系数,再用针对句重音特征的目标数据,并采用较小的学习率调整深层的系数,使得先训练阶段的模型中的神经网络最终向目标说话人的风格进行拟合,以得到最终生成的目标声学模型。

在本发明的一种实施例中,步骤301可以包括如下子步骤:

子步骤s11,构建针对音色特征的第一偏置层;

具体的,为了通过自适应训练得到针对句重音特征的目标声学模型,需要先期采用与句重音特征的样本数据概率分布相似的数据,在本发明实施例中可以以音色特征的样本数据为例,此时可以利用该音色特征的样本数据构建针对音色特征的第一偏置层,以便通过第一偏置层,实现对音色特征的单独特征编码,并将该单独特征编码作为额外提供的信息,简化对预先声学模型的训练过程。

子步骤s12,根据预设声学模型以及所述针对音色特征的第一偏置层,得到针对音色特征的预先声学模型;

在本发明的一种实施例中,为了简化对预先声学模型的训练过程,在构建针对音色特征的第一偏置层之后,可以选取预设声学模型,并将构建的第一偏置层与预设声学模型进行拟合,即将音色特征的单独特征编码作为预设声学模型额外提供的信息,以得到针对音色特征的预先声学模型。

需要说明的是,预设声学模型可以是任何常见的声学模型,例如双向sru的声学模型,对此,本发明实施例不加以限制。

在本发明的一种实施例中,子步骤s12可以包括如下子步骤:

子步骤s121,获取归一化文本特征,以及根据所述针对音色特征的第一偏置层获取第一偏置项;

具体的,将构建的第一偏置层与预设声学模型进行拟合得到针对音色特征的预先声学模型,首先可以获取归一化文本特征,作为用于拟合生成预先声学模型的预设声学模型的输入项;并获取针对音色特征的第一偏置项,该第一偏置项可以是通过第一偏置层输出得到,用于为预设声学模型提供额外信息,即作为用于拟合生成预先声学模型的预设声学模型的另一项输入项,以便采用上述两项针对预设声学模型的输入项对预设声学模型进行训练。

其中,归一化文本特征,可以是对文本特征进行归一化处理,以提升模型精度以及提升收敛速度;其中,文本特征可以是从包括至少一个句子的待处理文本中进行提取的特征。

在本发明的一种实施例中,所述第一偏置层包括第一嵌入层,子步骤s121可以包括如下子步骤:

子步骤s1211,获取针对音色特征的第一训练集;所述第一训练集包括存在多说话人的音色特征样本数据;

子步骤s1212,对所述音色特征样本数据进行独热编码,得到音色特征向量;

在本发明的一种实施例中,为了采用与句重音特征的样本数据概率分布相似的数据,可以获取针对音色特征的第一训练集,该第一训练集可以包括存在多说话人的音色特征样本数据,这里存在多说话人的音色特征样本数据指的是两个或以上说话人用不包含句重音的普通语料数据;为了区分多说话人的音色,可以为每一位说话人添加了一个特征向量,具体的,可以对音色特征样本数据进行独热编码,得到音色特征向量。

子步骤s1213,将所述音色特征向量经过所述第一嵌入层,得到针对音色特征的第一偏置项。

在实际应用中,对音色特征样本数据进行独热编码,其独热编码后得到的为稀疏矩阵,即得到的音色特征向量同样为稀疏矩阵,此时可以将得到的音色特征向量经过第一嵌入层,该第一嵌入层可以用于对稀疏矩阵进行降维,即将音色特征向量映射为多维矩阵,即稠密向量,并将稠密向量作为针对音色特征的第一偏置项。其中,稠密向量的维度可以与所获取的归一化文本特征具有同一维度。

子步骤s122,采用归一化文本特征以及所述第一偏置项对所述预设声学模型进行训练,得到针对音色特征的预先声学模型。

在本发明实施例中,在得到归一化文本特征以及针对音色特征的第一偏置项之后,可以采用归一化文本特征以及第一偏置项对预设声学模型进行训练,得到针对音色特征的预先声学模型。

其中,可以不断获取归一化文本特征以及第一偏置项,并将归一化文本特征以及第一偏置项进行相加作为预设声学模型的输入项,并通过预设声学模型输出得到具有音色特征的声学特征,即通过数量足够的输入项以及输出的声学特征得到针对音色特征的预先声学模型。

具体的,参照图4,示出了本发明实施例中针对音色特征的预先声学模型的示意图,其中,预设声学模型可以采用多种声学模型结构,在本发明实施例中以简单的双向sru的声学模型为例。

如图4所示,左侧部分可以为预设声学模型(即双向sru的声学模型)的主体结构,其可以由串行的全连接层(fcn)及sru层(simplerecurrentunits,简单循环单元,大部分运算进行并行处理,用于加快训练)组成;右侧虚线部分,可以是为了区分多说话人的音色,为每位说话人添加音色特征向量i-vector,具体的,i-vector可以采用独热编码,并经过embdding层(即第一嵌入层),以得到稠密向量并将稠密向量作为第一偏置项bias。然后将第一偏置项bias同归一化后的文本特征相加,输入预设声学模型进行训练。在针对音色特征的预先声学模型的生成阶段,只要输入文本特征以及特定说话人的独热码,即可得到针对音色特征的声学特征,并合成具有说话人风格的语音序列。

子步骤s13,构建针对句重音特征的第二偏置层;

在本发明的一种实施例中,在得到针对音色特征的预先声学模型之后,可以对音色特征的预先声学模型进行自适应训练得到针对句重音特征的目标声学模型,首先可以构建针对句重音特征的第二偏置层,以便通过第二偏置层,实现对句重音特征的单独特征编码,并将该单独特征编码作为额外提供的信息,简化对目标声学模型的训练过程。

子步骤s14,根据所述针对句重音特征的第二偏置层,以及所述针对音色特征的预先声学模型,得到针对句重音特征的目标声学模型。

在本发明的一种实施例中,为了简化对目标声学模型的训练过程,在构建针对句重音特征的第二偏置层之后,可以将构建的第一偏置层与预先声学模型进行拟合,即将音色特征的单独特征编码作为预先声学模型额外提供的信息,以对预先声学模型进行自适应训练,得到针对句重音特征的目标声学模型。

在本发明的一种实施例中,子步骤s14可以包括如下子步骤:

子步骤s141,根据所述针对句重音特征的第二偏置层获取第二偏置项;

具体的,将构建的第一偏置层与预设声学模型进行拟合得到针对音色特征的预先声学模型,可以获取针对句重音特征的第二偏置项,该第二偏置项可以是通过第二偏置层输出得到,用于为预先声学模型提供额外信息,即作为用于拟合生成目标声学模型的预先声学模型的输入项。

在本发明的一种实施例中,所述第二偏置层包括第二嵌入层,且所述第一偏置项具有预设长度,子步骤s141可以包括如下子步骤:

子步骤s1411,获取预设长度的可训练随机序列以及针对句重音特征的第二训练集;所述第二训练集包括存在单个说话人的句重音特征样本数据;

子步骤s1412,对所述句重音特征样本数据进行独热编码,得到句重音特征向量;

在本发明的一种实施例中,为了得到用于向预先声学模型提供的额外信息,可以获取针对音色特征的第二训练集,该第二训练集可以包括存在单个说话人的句重音特征样本数据,这里存在单个说话人的句重音特征样本数据指的是只有单个说话人用包含句重音的语料数据;其中,在第二训练集的单个句重音特征样本数据中,可以包括句重音字以及非句重音字,并可以将句重音字与非句重音字视为两个不同的风格,为了区分单个说话人的风格,此时可以对这两种风格进行独热编码,即对句重音特征样本数据进行独热编码,得到句重音特征向量,以单个说话人添加句重音特征向量。

此外,在训练针对音色特征的预先声学模型时,会对存在多说话人的音色特征样本数据进行独热编码,然而在对针对音色特征的预先声学模型进行自适应训练以得到针对句重音特征的目标声学模型的过程中,为了给当前说话人提供一个说话人的音色特征,此时可以添加一个可训练的随机序列,替换预先声学模型中第一嵌入层的输出,即替换第一偏置项,以使得在自适应训练的过程中保持模型结构和训练参数的量纲一致。

其中,采用添加的可训练的随机序列替换第一偏置项,假设第一偏置项的长度为预设长度,则所添加的可训练的随机序列的长度需与第一偏置项的长度保持一致,同样为预设长度。

子步骤s1414,将所述句重音特征向量与所述可训练随机序列相加并经过所述第二嵌入层,得到针对句重音特征的第二偏置项。

在实际应用中,对句重音特征样本数据进行独热编码,其独热编码后得到的为稀疏矩阵,即得到的句重音特征向量同样为稀疏矩阵,以及为了在自适应训练的过程中保持模型结构和训练参数的量纲一致,此时可以将得到的音色特征向量以及可训练随机序列进行相加后经过第二嵌入层,该第二嵌入层可以用于对稀疏矩阵进行降维,即将句重音特征向量映射为多维矩阵,即稠密向量,并将稠密向量作为针对句重音特征的第二偏置项。其中,稠密向量的维度可以与所获取的归一化文本特征具有同一维度。

子步骤s142,采用所述归一化文本特征以及所述第二偏置项对所述针对音色特征的预先声学模型进行训练,得到针对句重音特征的目标声学模型。

在本发明实施例中,在得到归一化文本特征以及针对句重音特征的第二偏置项之后,可以采用归一化文本特征以及第二偏置项对针对音色特征的预先声学模型,得到针对句重音特征的目标声学模型。

其中,可以不断获取归一化文本特征以及第二偏置项,并将归一化文本特征以及第二偏置项进行相加作为预先声学模型的输入项,并通过预先声学模型输出得到具有句重音特征的声学特征,即通过数量足够的输入项以及输出的声学特征得到针对句重音特征的目标声学模型。

具体的,参照图5,示出了本发明实施例中针对句重音特征的目标声学模型的示意图,其中,预设声学模型经过预先训练之后,其大量训练数据可以为训练得到的预先声学模型本身提供了足够的通用泛化信息,而目标声学模型可以对预先声学模型进行自适应训练得到。

如图5所示,模型的主体结构相同,但对输入的特征做了一些变更。由于针对句重音特征的第二训练集为单说话人,此时可以将多说话人的音色特征向量ivector改为一个与输入特征等长的可训练随机序列。同时,在第二训练集的单个句重音样本数据中,句重音字和非句重音字可以视为两个不同的风格,因此对这两种风格进行独热编码,并经过embedding层(即第二嵌入层),输出与文本特征同一维度的句重音特征向量,也称为音素级别特征向量ivector。之后可将输入的归一化文本特征、句重音特征向量和随机偏置相加,共同作为目标声学模型的输入。

需要说明的是,上述提到的句重音特征向量作为加性特征参与模型训练,其也可以作为乘性特征或以拼接的形式作为额外的特征信息,并与文本特征组合进行训练。对此,本发明实施例不加以限制。

其中,归一化文本特征向量可以是文本特征经由时程模型所得到,例如,当输入的文本特征为woshimao(汉语拼音),该文本特征经过时程模型可以输出得到322512(每个拼音的发音时长),那么此时输入到预先声学模型以及目标声学模型的归一化文本特征可以是wwwooshshiiiiimaoao(每个拼音按照发音时长复制n份)。

在实际应用中,上述对声学模型进行训练的方式,也可以应用到对时程模型的训练中,即时程模型也可以包括预先训练阶段的时程模型以及自适应阶段的时程模型。关于预先训练阶段的时程模型以及自适应阶段的时程模型可以参照上述针对音色特征的预先声学模型以及针对句重音特征的目标声学模型的训练流程。

参照图6,示出了本发明实施例中预先训练阶段的时程模型的示意图,其中,在预先训练阶段可以存在对预设时程模型进行训练,预设时程模型可以采用基础时程模型,例如双层bilstm模型。

如图6所示,左侧部分可以为预设时程模型(即双层bilstm模型)的主体结构,其可以由bilstm层以及串行的全连接层(fcn)组成;右侧虚线部分,可以是为了区分多说话人的音色,为每位说话人添加音色特征向量i-vector,具体的,i-vector可以采用独热编码,并经过embdding层(即第一嵌入层),以得到稠密向量并将稠密向量作为第一偏置项bias。然后将第一偏置项bias同归一化后的文本特征相加,输入预设时程模型进行训练。在预先训练阶段的时程模型的生成阶段,只要输入文本特征以及特定说话人的独热码,即可得到针对音色特征的时程特征。

参照图7,示出了本发明实施例中自适应阶段的时程模型的示意图,具体的训练方法与声学模型相同,为避免重复,这里不再赘述。

在一种优选的实施例中,所述预先训练的声学模型包括浅层参数以及深层参数,还包括:

对所述预先声学模型的浅层参数进行锁定,以及对所述预先声学模型的深层参数进行调整,得到针对句重音特征的目标声学模型。

在实际应用中,在预先训练时,预先声学模型中的所有参数在每次后向传播时可以进行同步更新;而进入自适应训练阶段,浅层的通用特征不再更新,但较深层的参数可以随着每次迭代进行微调。具体可以参照图5所示的目标声学模型,其作为浅层fcn_1层的参数被锁住,作为深层的随机偏置、句重音的embedding层、sru层的偏置项以及fcn_2的所有参数可以随着每次迭代进行更新。此时,自适应训练阶段模型的学习率是小于预先训练阶段模型的学习率,则需要将在自适应训练阶段的目标声学模型的后向传播时的学习率调整为预先训练阶段模型,即预先声学模型的1/10左右。

其中,对较深层的参数随着每次迭代进行微调,微调的方法首先要选定一个较小的学习率,其次要对神经网络的浅层参数进行锁定。只有深层参数在训练过程中被更新。具体的锁定方法,可以是先锁定除了最后一层之外的所有层,进行训练,在loss收敛后,解开倒数第二层进行训练,如此往复,逐步解开倒数第二、三…n层的锁定逐步训练,直到最后loss收敛稳定。

需要说明的是,该锁定的方法可以是采用由深到浅,以及逐步更新的方式,也可以采用一步到位,倒数几层直接一起训练的方式,对此,本发明实施例不加以限制。

在本发明的一种实施例中,经过自适应训练微调的模型即为最终的目标模型。模型的输入为文本特征和音素级别的句重音独热编码。输出直接经过声码器,即可合成带有句重音的语音序列。

步骤302,获取针对句重音特征的目标声学模型;

步骤303,获取文本特征与句重音特征;

在本发明的一种实施例中,在对目标声学模型进行训练之后,可以获取文本特征与句重音特征,以及针对句重音特征的目标声学模型,以便将文本特征以及句重音特征作为目标声学模型的输入项,输入目标声学模型得到针对句重音特征的声学特征。

其中,获取的文本特征可以是从包括至少一个句子的待处理文本中进行提取,待处理文本可以是任意输入文本信息,作为目标声学模型的输入项中的其中一项;获取的句重音特征作为目标声学模型的输入项中的另一项输入项,可以用于为作为输入项的文本特征添加句重音特征,可以是需要进行句重音的文本对应的特征向量。

步骤304,向所述目标声学模型输入所述文本特征与所述句重音特征,输出得到针对句重音特征的声学特征;

在本发明的一种实施例中,在获取文本特征以及针对句重音特征的特征向量之后,可以将文本特征以及针对句重音特征的特征向量作为目标声学模型的输入项,输入目标声学模型得到针对句重音特征的声学特征,以便对输出得到的声学特征进行处理并得到具有句重音特征的语音序列。

步骤305,根据所述声学特征生成针对句重音特征的语音序列。

在实际应用中,在将获取的文本特征以及针对句重音特征的特征向量输入目标声学模型并得到输出的声学特征之后,可以对输出的声学特征进行处理,以得到具有句重音特征的语音序列。

具体的,输出的声学特征可以是带有句重音特征的声学特征,对带有句重音特征的声音特征进行处理,可以将带有句重音特征的声音特征输入到声码器,以便声码器将声学特征转换为时域的有句重音特征的声音序列。

在本发明实施例中,向获取的针对句重音特征的目标声学模型输入获取的文本特征以及句重音特征,以便根据目标声学模型的输出,得到针对句重音特征的声学特征,并对输出的声学特征进行处理之后得到针对句重音特征的语音序列;其中,针对句重音特征的目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到。通过将句重音特征作为单独特征编码,为语音合成提供额外的信息,并结合自适应训练的训练方法,使得声学模型在训练数据有限的前提下,无需依靠工程经验以及经由人为调节,可以自动生成带有句重音的语音序列。

在一种优选的实施例中,银行客服系统的语音合成为例,首先可以准备5-10小时其他领域的语音合成数据(例如音色特征样本数据)进行预先训练,然后对带有句重音的客服场景约2小时训练数据额外标记句重音,便于音素级的句重音独热编码;而后采用自适应训练方法,对预先训练模型进行微调,得到能够生成句重音序列的声学模型和时程模型。

参照图8,示出了本发明实施例中的一种语音合成方法的应用场景图,经过自适应训练得到的目标声学模型可以配合通用的文本分析、韵律预测模块和声码器,即可组成完整的从文字到语音的语音合成系统。即将目标声学模型配合前端及语音识别(asr)、语义分析(nlu)可以组成一套完整的自动外呼系统,以替代人工客服,为银行客户提供定制化的专线服务。

在一种优选的实施例中,自适应的训练方法本身多种多样,本发明实施例提到的是比较通用的方案,除此之外,还可以由下至上,由深至浅,分次更新模型参数进行训练。对此,本发明实施例不加以限制。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图9,示出了本发明的一种语音合成装置实施例的结构框图,具体可以包括如下模块:

目标声学模型生成模块901,用于生成针对句重音特征的目标声学模型;其中,所述目标声学模型为根据针对音色特征的预先声学模型训练得到的模型,以及所述目标声学模型包括针对句重音特征的偏置层;

文本特征提取模块902,用于获取包括至少一个句子的待处理文本,并从所述待处理文本提取文本特征;

句重音特征获取模块903,用于获取句重音特征;

目标声学模型获取模块904,用于获取针对句重音特征的目标声学模型;

声学特征生成模块905,用于根据所述文本特征与所述句重音特征,以及所述目标声学模型,得到具有句重音特征的声学特征;

语音序列生成模块906,用于对所述声学特征进行处理,得到针对句重音特征的语音序列。

在本发明的一种实施例中,目标声学模型生成模块901可以包括如下子模块:

第一偏置层构建子模块,用于构建针对音色特征的第一偏置层;

预先声学模型生成子模块,用于根据预设声学模型以及所述针对音色特征的第一偏置层,得到针对音色特征的预先声学模型;

第二偏置层构建子模块,用于构建针对句重音特征的第二偏置层;

目标声学模型生成子模块,用于根据所述针对句重音特征的第二偏置层,以及所述针对音色特征的预先声学模型,得到针对句重音特征的目标声学模型。

在本发明的一种实施例中,预先声学模型生成子模块可以包括如下单元:

第一偏置项获取单元,用于获取归一化文本特征,以及根据所述针对音色特征的第一偏置层获取第一偏置项;

预先声学模型生成单元,用于采用归一化文本特征以及所述第一偏置项所述第一训练模型进行训练,得到针对音色特征的预先声学模型。

在本发明的一种实施例中,所述第一偏置层包括第一嵌入层;第一偏置项获取单元可以包括如下子单元:

第一训练集获取子单元,用于获取针对音色特征的第一训练集;所述第一训练集包括存在多说话人的音色特征样本数据;

音色特征向量获取子单元,用于对所述音色特征样本数据进行独热编码,得到音色特征向量;

第一偏置项获取子单元,用于将所述音色特征向量经过所述第一嵌入层,得到针对音色特征的第一偏置项。

在本发明的一种实施例中,目标声学模型生成子模块可以包括如下单元:

第二偏置项生成单元,用于根据所述针对句重音特征的第二偏置项获取第二偏置项;

目标声学模型生成单元,用于采用所述归一化文本特征以及所述第二偏置项对所述针对音色特征的预先声学模型进行训练,得到针对句重音特征的目标声学模型。

在本发明的一种实施例中,所述第二偏置层包括第二嵌入层;所述第一偏置项具有预设长度;第二偏置项获取单元可以包括如下子单元:

获取预设长度的可训练随机序列以及针对句重音特征的第二训练集;所述第二训练集包括存在单个说话人的句重音特征样本数据;

对所述句重音特征样本数据进行独热编码,得到句重音特征向量;

将所述可训练随机序列作为随机偏置项;

将所述句重音特征向量与所述随机偏置项相加并经过所述第二嵌入层,得到针对句重音特征的第二偏置项。

在本发明的一种实施例中,所述预先训练的声学模型包括浅层参数以及深层参数;还包括:

目标声学模型生成单元,还用于对所述预先声学模型的浅层参数进行锁定,以及对所述预先声学模型的深层参数进行调整,得到针对句重音特征的目标声学模型。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备,包括:

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语音合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述针对语音合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音合成方法和一种语音合成装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips