一种基于RNN和PAD情感模型的情感语音合成方法与流程

2021-01-28 12:01:46|

358|

起点商标网

本发明涉及，尤其是一种基于rnn和pad情感模型的情感语音合成方法。

背景技术：

近年来，语音合成技术从最初的物理机理语音合成，波形单位选择语音合成，韵律转换语音合成到统计参数语音合成和深度学习语音合成，合成语音的自然度有了较大的提升。然而，这些方法只是单纯的将文本信息输出为中性语音信息，使收听人长时间听后感到单调乏味，而且并没有携带应有的情感内容，使人听后容易产生偏差。

随着智能语音合成在人类语言上的应用，增加语音自然度的需求变得更加明显，语音合成自然度方面最明显的不足是情感表现力缺失，虽然情感语音合成在最近十年获得较大的发展，但在情感度上仍存在较大不足。主要有以下问题：

一、波形单位选择方法需要庞大的情感语音数据库，该数据库建立不易；

二、韵律特征修改方法通过修改韵律特征来实现情感语音合成，这会降低语音合成的质量；

三、基于hmm的统计参数方法生成的合成语音的质量已经得到了极大的提高，但是它的自然性仍然与实际人类语音相差甚远。

技术实现要素：

本发明所要解决的技术问题是：针对上述存在的问题，提供一种基于rnn和pad情感模型的情感语音合成方法。

本发明采用的技术方案如下：

一种基于rnn和pad情感模型的情感语音合成方法，包括：

步骤1，获取情感语音库，并基于情感语音库获取训练数据：

(1)利用pad情感量表对情感语音库进行pad量化标注得到pad值；

(2)对情感语音库进行文本分析得到上下文相关标注；

(3)对情感语音库提取声学特征，得到特征参数mgc、bap和f0；

步骤2，将所述训练数据输入基于lstm的rnn模型进行训练，得到训练后的特征参数mgc、bap和f0；

步骤3，基于pad情感模型，利用欧几里得距离计算用于修正所述训练后的特征参数mgc、bap和f0的权重，然后利用权重对训练后的特征参数mgc、bap和f0进行修正；

步骤4，将待合成的文本经过文本分析得到上下文相关标注，然后利用声码器将其与修正后的特征参数mgc、bap和f0合成为情感语音。

进一步地，步骤3中计算pad情感模型中某一维度的欧几里得距离的方法为：

其中，计算得到的所述欧几里得距离s(p1-p2)是指训练时的pad值与pad情感模型中的典型情感的pad值之间的欧几里得距离；p1和p2分别是训练时的pad值与pad情感模型中的典型情感的pad值；σ1和σ2分别是训练时的pad值与pad情感模型中的典型情感的pad值的方差。

进一步地，步骤3中基于pad情感模型计算某一情感与典型情感的欧几里得距离的方法为：

其中，sp、sa和sd均采用公式(1)计算。

进一步地，步骤3中计算用于修正所述训练后的特征参数mgc、bap和f0的权重的方法为：

其中，mi是要修正的情感语音的第i个典型情感的权重，si是要修正的情感语音与第i个典型情感之间的欧几里得距离，n为情感种类数，smax为要修正的情感语音与第i个典型情感之间的欧几里得距离最大值。

进一步地，步骤3中利用权重对训练后的特征参数mgc、bap和f0进行修正的方法为：

首先采用公式(4)计算修正量l′；

其中，li为第i个典型情感的特征参数，l为步骤4合成后的情感语音的特征参数；

然后利用修正量l′修正对训练后的特征参数mgc、bap和f0进行修正。

进一步地，所述的上下文相关标注是指包含音素信息及其上下文信息的上下文相关标注。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明将基于lstm的rnn和pad情感模型加入到语音合成中，解决传统语音合成带来的问题以及语音合成中情感不足的问题，提高了语音合成的自然度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明基于rnn和pad情感模型的情感语音合成方法的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，本实施例提供的一种基于rnn和pad情感模型的情感语音合成方法，包括：

步骤1，获取情感语音库，并基于情感语音库获取训练数据：

(1)利用pad情感量表对情感语音库进行pad量化标注得到pad值；

本实施例使用中国科学院心理学研究所简化的pad情感量表，这是情感差异量表的9个部分。每个情感量表都由一对形容词表示。每对单词之间的间隔分为9段。每对单词表达的情感在维度上是相反的，在其他两个维度上是相同的。通过简化的pad情感量表对待训练情感语音数据进行量化标注，得到pad值。

(2)对情感语音库进行文本分析得到上下文相关标注；

文本分析方法为现有技术，在此不再赘述。需要说明的是，本实施例所述的上下文相关标注是指包含音素信息及其上下文信息的上下文相关标注。

(3)对情感语音库提取声学特征，得到特征参数mgc、bap和f0；

本实施例采用straight声码器对情感语音库提取声学特征，得到特征参数mgc(由mfcc特征降维得到，mfcc即梅尔倒谱系数)、bap(bandaperiodicity的缩写，非周期性)和f0(语音的基频特征)。

步骤2，将所述训练数据输入基于lstm的rnn模型进行训练，得到训练后的特征参数mgc、bap和f0；

对于基于dnn模型的训练，未考虑语音连续的不自然，所以本实施例采用基于lstm的rnn模型来进行训练。长短时记忆(lstm)单元是实现rnn的流行方式，本实施例使用的lstm是一个混合结构，包括：4个每层1024个双曲线正切单元的隐层，随后是单个512单元的lstm层。将所述训练数据，即pad值、上下文相关标注、特征参数mgc、bap和f0输入基于lstm的rnn模型，基于rnn模型相关训练获得训练后相应的特征参数mgc、bap和f0。

通常，情感语音的pad值不等于典型情感的pad值，而是出现在典型情感附近。因此，有必要对训练语音的pad值进行聚类以确定其属于哪种情绪状态，并且通过对合成的情绪语音的pad值进行聚类来修改所用于合成的情感语音的特征参数，也就是训练后的特征参数。

训练语音(情感语音库中的情感语音)的情绪状态取决于训练语音的pad值与pad空间中典型情绪之间的欧几里得距离。而情绪状态与pad值的均值和方差密切相关。因此，在计算欧几里得距离时应考虑pad值的方差，则步骤3中计算pad情感模型中某一维度(p、a、d)的欧几里得距离的方法为：

那么得到某一情感与典型情感的欧几里得距离为：

其中，sp、sa和sd均采用公式(1)计算。

再者，由pad情感模型可以看出，两种情感在pad空间中的欧几里得距离越小，情感状态越接近。所以，由此进行特征参数修正，而特征参数的修正通过对要修正的情感权重组成与典型情感的权重组成比较得到。要修正的情感与典型情感的权重与距离成反比，则计算用于修正所述训练后的特征参数mgc、bap和f0的权重的方法为：

然后采用公式(4)计算修正量l′；

其中，li为第i个典型情感的特征参数，l为步骤4合成后的情感语音的特征参数；

即可利用修正量l′修正对训练后的特征参数mgc、bap和f0进行修正。

步骤4，将待合成的文本经过文本分析得到上下文相关标注，然后利用声码器将其与修正后的特征参数mgc、bap和f0合成为情感语音。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。