一种基于深度学习的小尺度单元拼接语音合成算法及系统的制作方法

2021-01-28 16:01:16|

374|

起点商标网

本发明涉及语音合成的技术领域，尤其涉及一种基于深度学习的小尺度单元拼接语音合成算法及系统。

背景技术：

近年来，随着移动互联网的兴起和智能手机等移动终端的普日益及，基于语音识别、自然语言理解和语音合成的人机语音交互技术受到广泛关注并发展迅速。语音交互方式被认为是最自然、最具前景的人机交互方式，语音合成技术作为核心之一，也取得了显著的进步。合成的语音在自然度、可懂度和音质上都有明显改善，在日常生活中应用也比较多，如地图导航、新闻朗读和手机语音助手等。

传统的语音合成技术有两种比较主流的实现方法，一种是基于hmm的统计参数合成方法，该方法具有系统尺寸小，计算复杂度低等优势。但合成的语音和自然语音相比有较大的差距，一般在离线系统中使用。另一种是基于大语料库的单元挑选与波形拼接合成方法，该方法使用自然语音拼接而成，合成的语音自然度较好。这类方法因为音库尺寸大，往往部署在云端，移动设备通过互联网发送请求并接收合成语音，所以需要花费数据流量。

同时随着计算机存储能力的增加，音库尺寸不断增加，基于大语料库的单元挑选与波形拼接合成方法的使用也越来越广泛。该方法的优势在于保留了原始语音的音质，在自然度上相对于参数合成方法有了极大的提高。但是该方法也存在一些缺点和不足，比如合成效果不稳定，单元拼接处存在不连续现象。为了保证合成效果，需要满足一定的单元覆盖率，传统的基于音素或者更长尺度单元的拼接合成系统，要求音库的尺寸很大。这导致音库制作需要花费很大的工作量，增加系统设计的时间和成本。如果音库的尺寸较小，则无法保证单元的覆盖率，合成效果很不稳定，合成语音的音质大大下降。

鉴于此，如何提升合成语音的自然度，成为本领域技术人员亟待解决的问题。

技术实现要素：

本发明提供一种基于深度学习的小尺度单元拼接语音合成算法，利用自适应加权谱模型提取训练集中语音信号的特征，并利用基于波形内插的方法，提取语音信号特征中的特征波形，根据所提取的特征波形，利用预训练的dnn模型接收用于语音合成的文本信息，并结合目标代价和连接代价选取对应文本信息的特征波形，同时将所述特征波形与straight合成器依据预测的基频特征生成的激励波形进行了频域拼接处理，实现了语音的合成。

为实现上述目的，本发明提供的一种基于深度学习的小尺度单元拼接语音合成算法，包括：

获取语音合成训练集，并利用自适应加权谱模型提取训练集中语音信号的特征；

利用基于波形内插的方法，提取语音信号特征中的特征波形；

利用预训练的dnn模型接收用于语音合成的文本信息，并结合目标代价和连接代价选取对应文本信息的特征波形；

将所述特征波形与straight合成器依据预测的基频特征生成的激励波形进行频域拼接处理，得到合成的语音结果。

可选地，所述利用自适应加权谱模型提取训练集中语音信号的特征，包括：

1)利用下式对训练集中语音信号进行短时傅里叶变换处理：

f(ω，t)＝fft[x(t)w(t)]

x(t)＝v(t)*e(t)

其中：

t为时间；

x(t)为训练集语音信号；

v(t)为训练集中语音信号的声道信号；

e(t)为训练集中语音信号的周期性声源信号；

ω为角频率；

w(t)为窗函数；

f0和ω0分别为窗函数的中心频率和中心角频率；

2)采用卷积二维三角窗的平滑内插方法对f(ω，t)进行谱包络系数提取，所述进行谱包络系数提取的公式为：

s(ω，t)＝([g^-1(∫∫ht(λ，τ)g(|f(ω-λ，t-τ)|)²dλdτ)])^1/2

其中：

ht(λ，τ)是由2个交叉三角窗组成的内插函数，-ω0(t)≤λ≤ω0(t)为频域中的三角窗，-τ0(t)≤τ≤τ0(t)为时域中的三角窗；

f0和ω0分别为窗函数中心频率和中心角频率；

g(x)＝x^1/3为插值时保留的声音响度特性；

s(ω，t)为提取出的语音信号谱包络；

3)对语音信号谱包络进行分帧，然后利用dtw将其对齐，将对齐后的语音以n帧作为1个“块”，以相同的块对语音进行滑动截取，相邻2个块之间的重叠率为50％，对于语音末端不足n帧的部分填零；对于每一个块提取m维谱特征参数并生成语音声纹图，其横坐标代表帧数，纵坐标代表特征维度，颜色深浅代表幅值大小。

可选地，所述利用基于波形内插的方法提取特征波形，包括：

1)将语音信号特征平均分为8个子帧，子帧的长度为40个采样点，以子帧的最后一个采样点作为提取点；

2)利用straight分析得到语音信号特征的线谱频率和基频；

3)将语音信号特征通过由相应的线谱频率确定的滤波器后得到激励信号，以提取点为中心通过窗函数截取激励信号，窗的长度为该点对应的基频确定的基音周期的长度，截取的激励信号就是想要得到的特征波形；

4)将特征波形记为s(m)，基音周期长度记为p，m＝0，1，...p-1，特征波形s(m)的dtfs表示为：

其中：

m为特征波形的总数；

p为基音周期长度；

ak和bk为dtfs系数。

可选地，所述利用预训练的dnn模型接收用于语音合成的文本信息，包括：

利用预训练的dnn模型接收用于语音合成的文本信息，相较于传统的dnn模型，本发明所述dnn模型在隐层中包含了瓶颈层以及备选单元层，其中瓶颈层的节点数相对于其他隐层的节点数要少；因此将用于语音合成的文本信息输入到dnn模型中，瓶颈层的输出值即为瓶颈特征。

可选地，所述结合目标代价和连接代价选取对应文本信息的特征波形，包括：

待合成句共有n帧，u＝{u1，u2，...，un}为特征波形，w＝{w1，...，wn}为每一帧的文本信息，最优的备选特征波形通过如下规则得到：

u*＝argminc(u，w)

ctarg(un，wn)＝||f(un)-ft(wn)||²

ccon(un-t，...，un，wn)＝||f(un)-fc(wn，un-t，...，un-1)||²

其中：

u*为所求最优的备选特征波形；

c(u，w)为特征波形的总代价；

ctarg为特征波形的目标代价；

t为特征波形的周期；

ccon为特征波形的连接代价；

ft为用于目标代价计算的深度神经网络；

fc为用于连接代价计算的深度神经网络；

f为隐藏层。

可选地，所述将特征波形与straight合成器依据预测的基频特征生成的激励波形进行频域拼接处理，包括：

在频率门限fc以下使用straight生成的激励波形以保证连续性，在fc以上使用挑选得到的特征波形波形以保留自然语音的激励细节信息；

通过传统的基于hmm的参数合成方法进行生成线谱频率，根据生成的线谱频率得到lpc逆滤波器，将特征波形通过逆滤波器即可得到合成的语音。

此外，为实现上述目的，本发明还提供一种基于深度学习的小尺度单元拼接语音合成系统，所述系统包括：

文本信息接收装置，用于接收用于语音合成的文本信息；

语音处理器，用于利用自适应加权谱模型提取训练集中语音信号的特征，以及利用基于波形内插的方法提取语音信号特征中的特征波形；

语音合成装置，用于利用预训练的dnn模型，结合目标代价和连接代价选取对应文本信息的特征波形，将所述特征波形与straight合成器依据预测的基频特征生成的激励波形进行频域拼接处理，得到合成的语音结果。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音合成指令，所述语音合成指令可被一个或者多个处理器执行，以实现如上所述的基于深度学习的小尺度单元拼接语音合成的实现方法的步骤。

相对于现有技术，本发明提出一种基于深度学习的小尺度单元拼接语音合成算法，该技术具有以下优势：

首先，传统的通过加窗计算得到的语音信号的短时谱会在时间轴和频率轴上出现与基音有关的周期性，为了正确估计语音信号的谱包络，使其不受基频的影响，必须将此二维空间上的周期性去除。因此本发明提出了一种卷积二维三角窗的平滑内插方法进行谱包络系数提取，利用内插函数ht(λ，τ)去除了语音信号在频域和时域中的周期性，使得所提取的语音信号的谱包络不受基频周期的影响，所述ht(λ，τ)是由2个交叉三角窗组成的内插函数，-ω0(t)≤λ≤ω0(t)为频域中的三角窗，-τ0(t)≤τ≤τ0(t)为时域中的三角窗。

同时本发明提出了基于目标代价和连接代价的特征波形选择方法，连接代价的目的是为了测量备选序列在时间上的连续性，因此本发明在dnn模型中考虑相邻的声学参数的关系，也就是模型中的输出值需要考虑前面的几帧声学参数的影响；因此本发明将提取的瓶颈特征作为降维后的文本信息，结合训练数据中前面t帧的声学参数作为神经网络的输入，输出仍为声学参数，最终的模型输出值不仅和当前时刻的文本信息有关，还和前面t帧的声学参数有关，当前帧的输出考虑了前面己经挑选得到的备选帧的影响，使用预测得到声学参数作为目标参数与当前帧的备选单元进行距离计算，挑选得到的备选帧和己经挑选得到的备选帧具有比较好的契合度，可以认为，本发明所构建模型能够对特征波形之间的连续性进行衡量，使得所合成的语音帧之间具有较好的连续性，提高了合成语音的自然度。

附图说明

图1为本发明一实施例提供的一种基于深度学习的小尺度单元拼接语音合成算法的流程示意图；

图2为本发明一实施例提供的一种基于深度学习的小尺度单元拼接语音合成系统的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

利用自适应加权谱模型提取训练集中语音信号的特征，并利用基于波形内插的方法，提取语音信号特征中的特征波形，根据所提取的特征波形，利用预训练的dnn模型接收用于语音合成的文本信息，并结合目标代价和连接代价选取对应文本信息的特征波形，同时将所述特征波形与straight合成器依据预测的基频特征生成的激励波形进行了频域拼接处理，实现了语音的合成。参照图1所示，为本发明一实施例提供的基于深度学习的小尺度单元拼接语音合成算法示意图。

在本实施例中，基于深度学习的小尺度单元拼接语音合成算法包括：

s1、获取语音合成训练集，并利用自适应加权谱模型提取训练集中语音信号的特征。

首先，本发明获取语音合成训练集，并利用自适应加权谱模型提取训练集中语音信号的特征，所述训练集中语音信号特征的提取过程为：

1)利用下式对语音信号进行短时傅里叶变换处理：

f(ω，t)＝fft[x(t)w(t)]

x(t)＝v(t)*e(t)

其中：

t为时间；

x(t)为训练集语音信号；

v(t)为训练集中语音信号的声道信号；

e(t)为训练集中语音信号的周期性声源信号；

ω为角频率；

w(t)为窗函数；

f0和ω0分别为窗函数的中心频率和中心角频率；

2)采用卷积二维三角窗的平滑内插方法对f(ω，t)进行谱包络系数提取，所述进行谱包络系数提取的公式为：

s(ω，t)＝([g^-1(∫∫ht(λ，τ)g(|f(ω-λ，t-τ)|)²dλdτ)])^1/2

其中：

ht(λ，τ)是由2个交叉三角窗组成的内插函数，-ω0(t)≤λ≤ω0(t)为频域中的三角窗，-τ0(t)≤τ≤τ0(t)为时域中的三角窗；

f0和ω0分别为窗函数中心频率和中心角频率；

g(x)＝x^1/3为插值时保留的声音响度特性；

s(ω，t)为提取出的语音信号谱包络；

s2、利用基于波形内插的方法，提取语音信号特征中的特征波形。

进一步地，根据上述所得训练集中语音信号的特征和语音声纹图，本发明基于波形内插的方法提取语音信号特征中的特征波形，所述特征波形的提取过程为：

1)将语音信号特征平均分为8个子帧，子帧的长度为40个采样点，以子帧的最后一个采样点作为提取点；

2)利用straight分析得到语音信号特征的线谱频率和基频；

4)将特征波形记为s(m)，基音周期长度记为p，m＝0，1，...p-1，特征波形s(m)的dtfs表示为：

其中：

m为特征波形的总数；

p为基音周期长度；

ak和bk为dtfs系数。

s3、利用预训练的dnn模型接收用于语音合成的文本信息，并结合目标代价和连接代价选取对应文本信息的特征波形。

进一步地，本发明利用预训练的dnn模型接收用于语音合成的文本信息，相较于传统的dnn模型，本发明所述dnn模型在隐层中包含了瓶颈层以及备选单元层，其中瓶颈层的节点数相对于其他隐层的节点数要少；因此将用于语音合成的文本信息输入到dnn模型中，瓶颈层的输出值即为瓶颈特征，相较于原始文本信息，由于瓶颈层的节点数较少，瓶颈特征的维数也较低。

进一步地，根据所述文本信息的瓶颈特征，本发明将瓶颈特征与所述特征波形进行拼帧处理，得到当前符合文本信息的特征波形，详细地，本发明利用搜索算法从备选特征波形空间中搜索得到一条目标代价和连接代价最小的备选特征波形；若待合成句共有n帧，u＝{u1，u2，...，un}为特征波形，w＝{w1，...，wn}为每一帧的文本信息，最优的备选特征波形通过如下规则得到：

u*＝argminc(u，w)

ctarg(un，wn)＝||f(un)-ft(wn)||²

ccon(un-t，...，un，wn)＝||f(un)-fc(wn，un-t，...，un-1)||²

其中：

u*为所求最优的备选特征波形；

c(u，w)为特征波形的总代价；

ctarg为特征波形的目标代价；

t为特征波形的周期；

ccon为特征波形的连接代价；

ft为用于目标代价计算的深度神经网络；

fc为用于连接代价计算的深度神经网络；

f为隐藏层。

s4、将所述特征波形与straight合成器依据预测的基频特征生成的激励波形进行了频域拼接处理，得到合成的语音结果。

为了进一步改善帧挑选可能带来的不连续问题，本发明对于生成的整句话对应的特征波形与straight合成器依据预测的基频特征生成的激励波形进行了频域拼合处理，即在频率门限fc以下使用straight生成的激励波形以保证连续性，在fc以上使用挑选得到的特征波形波形以保留自然语音的激励细节信息。

进一步地，对于所述特征波形，本发明通过拼接的方式得到特征波形的重构语音，即通过传统的基于hmm的参数合成方法进行生成线谱频率，根据生成的线谱频率得到lpc逆滤波器，将特征波形通过逆滤波器即可得到合成的语音。

下面通过一个仿真实验来说明本发明的具体实施方式，并对发明的处理方法进行测试。本发明算法的硬件测试环境部署在caffe深度学习框架中，处理器为intel(r)core(tm)i7-7700cpu，8核8g内存，操作系统为64位的ubuntu16.04，显卡位geforcegtx1070，显存8g，开发环境为python2.7，开发工具为anaconda科学计算库；对比算法为hmm-lsf算法，dnn算法以及lstm算法。

根据实验结果，hmm-lsf算法的合成语音自然度主观倾听结果为6.67％，准确率为72.3％，dnn算法的合成语音自然度主观倾听结果为38.3％，准确率为78.8％，lstm算法的合成语音自然度主观倾听结果为14.17％，准确率为75.2％，本发明所述算法的合成语音自然度主观倾听结果为60.83％，准确率为82.8％，相较于对比算法，本发明所提出的基于深度学习的小尺度单元拼接语音合成算法所合成的语音具有更高的自然度以及准确率。

发明还提供一种基于深度学习的小尺度单元拼接语音合成系统。参照图2所示，为本发明一实施例提供的基于深度学习的小尺度单元拼接语音合成系统的内部结构示意图。

在本实施例中，所述基于深度学习的小尺度单元拼接语音合成系统1至少包括文本信息接收装置11、语音处理器12、语音合成装置13，通信总线14，以及网络接口15。

其中，文本信息接收装置11可以是pc(personalcomputer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。

语音处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、磁性存储器、磁盘、光盘等。语音处理器12在一些实施例中可以是基于深度学习的小尺度单元拼接语音合成系统1的内部存储单元，例如该基于深度学习的小尺度单元拼接语音合成系统1的硬盘。语音处理器12在另一些实施例中也可以是基于深度学习的小尺度单元拼接语音合成系统1的外部存储设备，例如基于深度学习的小尺度单元拼接语音合成系统1上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，语音处理器12还可以既包括基于深度学习的小尺度单元拼接语音合成系统1的内部存储单元也包括外部存储设备。语音处理器12不仅可以用于存储安装于基于深度学习的小尺度单元拼接语音合成系统1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

语音合成装置13在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行语音处理器12中存储的程序代码或处理数据，例如语音合成程序指令等。

通信总线14用于实现这些组件之间的连接通信。

网络接口15可选的可以包括标准的有线接口、无线接口(如wi-fi接口)，通常用于在该系统1与其他电子设备之间建立通信连接。

可选地，该系统1还可以包括用户接口，用户接口可以包括显示器(display)、输入单元比如键盘(keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于深度学习的小尺度单元拼接语音合成系统1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-15以及基于深度学习的小尺度单元拼接语音合成系统1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于深度学习的小尺度单元拼接语音合成系统1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，语音处理器12中存储有语音合成程序指令；语音合成装置13执行语音处理器12中存储的语音合成程序指令的步骤，与基于深度学习的小尺度单元拼接语音合成算法的实现方法相同，在此不作类述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音合成程序指令，所述语音合成程序指令可被一个或多个处理器执行，以实现如下操作：

获取语音合成训练集，并利用自适应加权谱模型提取训练集中语音信号的特征；

利用基于波形内插的方法，提取语音信号特征中的特征波形；

利用预训练的dnn模型接收用于语音合成的文本信息，并结合目标代价和连接代价选取对应文本信息的特征波形；

将所述特征波形与straight合成器依据预测的基频特征生成的激励波形进行频域拼接处理，得到合成的语音结果。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。