基于生成对抗网络的短语音样本补偿方法及存储介质与流程

2021-01-28 13:01:48|

337|

起点商标网

本发明属于说话人识别领域，特别是一种基于生成对抗网络的短语音样本补偿方法。

背景技术：

高斯混合-通用背景模型(gmm-ubm)作为一种关键方法，在说话人识别系统中只有在说话人语音较长时才能达到较好的识别效果。而在短语音环境中，识别率性能会急剧下降，事实上，一个简短的话语意味着该话语含有不充分的声学特征。在这种情况下，基于统计属性的说话人模型不能很好地描述说话人，说话人模型虽然具有明显的特征特异性，但由于特征数量太少，仍然容易受到噪声的干扰。在过去的几年中，深度学习在说话人识别领域已经非常流行，许多方法使用深度学习来解决短语音样本不足问题。从直观上看，深度学习模型具有较强的特征学习能力，有助于解决这一问题。然而，训练深层神经网络需要大量的数据，短语音含有较少的说话人身份信息，这是构建使用深度学习的说话人识别系统的最大障碍之一。因此，本发明提出一种基于生成对抗网络的短语音样本补偿方法及存储介质，使补偿后的短语音字说话人识别系统中具有更高的识别率和更好的鲁棒性。

技术实现要素：

本发明旨在解决以上现有技术的问题，提出了一种基于生成对抗网络的短语音样本补偿方法及存储介质，可以有效地解决在说话人识别中，由于短语音情况造成的语料数据不充分，进而导致识别率严重降低的问题。同时克服模型训练过程中模型崩溃和梯度不稳定等问题。本发明的技术方案如下：

一种基于生成对抗网络的短语音样本补偿方法，其包括以下步骤：

s1，采用麦克风获取语音信号；

s2，对步骤s1获取的所有语音数据依次进行包括预加重、分帧、加窗、快速傅里叶变换、mel滤波及离散余弦变换在内的预处理，提取说话人语音信号的个性身份特征——梅尔频率倒谱系数mfcc，分割语音信号获取短语音；

s3，构建生成对抗网络模型，它由生成器模型g和判别器模型d两个模型构成，随机噪声矢量z通过生成模型g生成尽量服从真实数据分布pdata的样本g(z)，判别模型d可以判断出输入样本是真实数据x还是生成数据g(z)。

s4，构建生成对抗网络模型的优化目标函数v(d,g)，进行模型训练；

s5，构建面向模型的学习任务——生成器补偿性能衡量训练任务及判别器特征标签训练任务，生成器补偿性能衡量训练任务用于减小补偿语音分布与真实语音分布的偏差，判别器特征标签训练任务用于提高补偿语音说话人区分能力；

进一步的，所述步骤s2具体步骤包括：

s21：对所有语音信号依次进行预加重、分帧、加窗、快速傅里叶变换。再计算功率谱，将得到的功率谱通过三角带通滤波器，滤波输出的结果利用mel域与线性频率的关系式转为对数形式：

最后经离散余弦变换得到mfcc特征参数的第i维特征分量ci的表达式为：

m表示滤波器的数量，通常为20～28。将得到的说话人语音信号的mfcc作为身份个性特征。

s22：分割语音信号获取短语音，构成长语音和短语音对。

进一步的，所述步骤s3中构建的生成对抗网络模型具体为：

s31：生成对抗网络模型的生成器g是一个深度神经网络，使用短语音z作为生成器g的输入，短语音样本经过生成器g得到补偿语音样本g(z)，判别器d是一个充当二元分类器的深度神经网络，相同条件下，把经过生成器g补偿后的短语音样本g(z)和真实长语音样本x交替作为鉴别器d的输入，判别器d判断所给语音是真实长语音样本或是由生成器补偿得到；

s32：在模型中使用生成对抗网络的条件版本，即条件生成对抗网络cgan，它是在gan的基础上加上了条件扩展为条件模型，所以，生成器g和判别器d的隐藏层都引入了说话人身份个性特征条件c——梅尔频率倒谱系数mfcc，更好地引导短语音到补偿语音的映射过程。

进一步的，所述步骤s4构建生成对抗网络模型的目标优化函数v(d,g)，同时进行模型训练，具体包括：

s41：生成对抗网络条件版本，它对于目标函数v(d,g)的优化过程如下式所示：

其中，ex～pdata(x)[logd(x|c)]表示在条件c的引导下判别器d判断真实长语音数据x为是否为真实的概率，ez～pdata(z)[log(1-d(g(z|c)|c))]表示短语音z在同样条件信息输入下生成器产生的补偿样本，然后判别器d判断其是否为真实数据的概率；

s42：在训练过程中，生成器g的目标是在条件c的引导下把短语音尽量补偿成满足真实长语音分布的语音，而判别器d尽量把生成器g补偿语音和真实长语音区分开，这样生成器g和判别器d构成一个动态“博弈”过程，使用梯度下降法对判别器d和生成器g交替做优化。

进一步的，所述使用梯度下降法对判别器d和生成器g交替做优化的详细步骤如下：

第1步：从已知的短语音分布pz(z)中选出一些样本{z⁽¹⁾,z⁽²⁾……,z^(m)}；

第2步：从训练数据中选出对应的真实长语音数据{x⁽¹⁾,x⁽²⁾……,x^(m)}；

第3步：从真实长语音中提取出条件信息{c⁽¹⁾,c⁽²⁾……,c^(m)}；

第4步：设判别器d的参数为θd，求出下式目标函数关于参数的梯度，对θd更新时加上该梯度；

第5步：设生成器g的参数为θg，求出下式目标函数关于参数的梯度，对θg更新时减去该梯度；

每当对判别器d的参数更新一次，便接着更新一次生成器g的参数。

进一步的，所述步骤s5在模型训练过程中为生成器g和判别器d分别设计了学习任务来引导数据的补偿过程，具体过程如下：

s51：生成器补偿性能衡量训练任务。衡量生成器g补偿性能最直接的方法就是计算补偿语音与真实语音的数值差，假设把n个数据分为i组，第i组补偿语音和真实长语音的差异程度用均方误差来衡量：

其中，observedreal,i表示真实语音样本的第i组数据，predictedgan,i表示基于生成对抗网络多任务框架补偿的语音样本的第i组数据，目标是最小化mse值，生成器g学习补偿语音与真实长语音之间差异的目标函数如下：

e(·)为期望值的计算，g(z|c)表示生成器在条件c的引导下生成的补偿样本。衡量生成器补偿性能的数值差异函数lossg，目标是在训练过程中最小化该数值差异函数，让生成器的补偿性能达到最优状态；

s52：判别器特征标签训练任务：使用鉴别器的特征标签训练任务来提高补偿语音说话人区分能力，把每一个从真实长语音中提取的mfcc特征代表不同的说话人标签，补偿语音和真实长语音输入鉴别器后，通过特征距离测量预测该语音是否属于所属类特征标签，并最小化预测特征标签结果与真实特征标签之间的交叉熵。

进一步的，所述最小化鉴别器预测特征标签结果与真实特征标签之间的交叉熵目标函数为：

其中其中ni表示第i段语音信号截取的短语音数量，为鉴别器根据事实观测到真实长语音属于的第k类特征标签的经验概率，为鉴别器根据特征距离计算得到补偿语音属于的第k类特征标签的预测概率，在训练过程中，通过不断最小化真实语音和补偿语音所属的特征标签的交叉熵损失来稳定鉴别器的训练，让补偿语音携带更多说话人身份特征。

一种存储介质，该存储介质内部存储计算机程序，其所述计算机程序被处理器读取时，执行上述任一项的方法。

本发明的优点及有益效果如下：

本发明针对在说话人识别系统中短语音识别率严重降低的问题，提出一种基于生成对抗网络的短语音样本补偿方法。使用生成对抗网络的条件版本，假设长语音分布中含有充分的区分说话人身份信息的特征，本文从长语音中提取能区分说话人身份的特征作为生成器g和判别器d的条件输入。把短语音作为生成器g的输入，生成器g试图在条件信息的辅助下把短语音补偿成接近真实长语音分布的样本，而判别器d试图确定给定的语音是真实的长语音样本还是由生成器补偿的伪语音。该方法完成了短语音样本到补偿语音样本的映射，在使补偿后的语音含有充分声学特征的同时还增加了训练样本的通用性和多样性，从而提高系统鲁棒性，降低说话人识别等错误率。

该方法通过构建生成对抗网络模型，完成模型训练过程，将缺乏身份个性特征的短语音成功映射为具有较强说话人区分能力的补偿语音，补偿语音含有充分声学特征的同时还增加了训练样本的通用性和多样性，可以有效地解决在说话人识别中，由于短语音情况造成的语料数据不充分，进而导致识别率严重降低的问题。为了防止生成对抗网络模型训练过程中模型崩溃和梯度不稳定等问题，构建的面向模型的学习任务——生成器补偿性能衡量训练任务和鉴别器的特征标签训练任务，有效稳定了训练过程，减小补偿语音分布与真实语音分布的偏差，进一步提高补偿语音说话人区分能力。

附图说明

图1是本发明提供优选实施例提供优选实施例基于生成对抗网络短语音补偿的说话人识别流程图；

图2为本发明提出的改进型生成对抗补偿模型结构；

图3为本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1-3所示，本发明解决上述技术问题的技术方案是：

s1，采用麦克风获取语音信号；

s2，对所有语音数据进行预处理，提取说话人语音信号的个性身份特征——梅尔频率倒谱系数mfcc，分割语音信号获取短语音；

预加重部分可以看成是一个高通滤波器，相当于下式，其中a为预加重系数(通常在区间[0.95,0.97])。

h(z)＝1-az^-1.

如下所示的汉明窗ω用于平滑边缘信号,k＝0,1.....,m-1,m为帧的大小。

在语音处理中，梅尔频率倒谱对语音的短时功率谱有一定的影响，该影响是建立在非线性mel频率尺度上的余弦变换的基础上的。mel频率与线性频率的关系式为下式：

mel滤波器组是一组三角带通滤波器，带通滤波器的传递函数为下式，m表示滤波器的数量，通常为20～28，满足0≤m≤m，f(·)函数为mel带通滤波器组的中心频率。

经离散余弦变换得到mfcc特征参数的第i维特征分量ci的表达式为：

s3，构建生成对抗网络模型，包括生成器网络和判别器网络；

s4，构建模型的优化目标函数v(d,g)，优化过程如下：

其中，ex～pdata(x)[logd(x|c)]表示在条件c的引导下判别器d判断真实长语音数据x为是否为真实的概率，ez～pdata(z)[log(1-d(g(z|c)|c))]表示短语音z在同样条件信息输入下生成器产生的补偿样本，然后判别器d判断其是否为真实数据的概率。

s5，模型训练。在实际训练中，使用梯度下降法对判别器d和生成器g交替做优化，详细步骤如下：

第1步：从已知的短语音分布pz(z)中选出一些样本{z⁽¹⁾,z⁽²⁾……,z^(m)}。

第2步：从训练数据中选出对应的真实长语音数据{x⁽¹⁾,x⁽²⁾……,x^(m)}。

第3步：从真实长语音中提取出条件信息{c⁽¹⁾,c⁽²⁾……,c^(m)}。

第4步：设判别器d的参数为θd，求出下式目标函数关于参数的梯度，对θd更新时加上该梯度。

第5步：设生成器g的参数为θg，求出下式目标函数关于参数的梯度，对θg更新时减去该梯度。

每当对判别器d的参数更新一次，便接着更新一次生成器g的参数。

s6，构建生成器补偿性能衡量训练任务。针对训练过程中有时出现梯度消失问题，提出让生成对抗网络来学习补偿语音和真实语音之间的差异更为合适，生成器g学习补偿语音与真实长语音之间差异的目标函数如下：

衡量生成器补偿性能的数值差异函数lossg，目标是在训练过程中最小化该数值差异函数，让生成器的补偿性能达到最优状态。

s7，构建判别器特征标签训练任务，把每一个从真实长语音中提取的mfcc特征代表不同的说话人标签，补偿语音和真实长语音输入鉴别器后，通过特征距离测量预测该语音是否属于所属类特征标签，并最小化了预测特征标签结果与真实特征标签之间的交叉熵。最小化鉴别器预测特征标签结果与真实特征标签之间的交叉熵目标函数为：

其中为鉴别器根据事实观测到真实长语音属于的第k类特征标签的经验概率，为鉴别器根据特征距离计算得到补偿语音属于的第k类特征标签的预测概率。在训练过程中，通过不断最小化真实语音和补偿语音所属的特征标签的交叉熵损失来稳定鉴别器的训练，让补偿语音携带更多说话人身份特征，降低短语音在说话人识别系统的等错误率。

s8，在基于高斯混合模型-通用背景模型的说话人识别系统上评估基于生成对抗网络的短语音样本补偿方法，实验结果表明，该方法有效降低了短语音环境下说话人识别系统的等错误率。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。