一种基于门控循环单元的声学建模方法与流程

2021-01-28 15:01:16|

303|

起点商标网

本发明属于语音识别技术领域，涉及声学建模方法，具体涉及一种基于门控循环单元的声学建模方法。

背景技术：

近年来，随着人工智能和计算机技术的不断发展，使得深度学习技术被广泛应用于图像、语音等领域。而语音作为机器与人最自然的交互接口之一，更是成为学术界和产业界的研究热点方向。

声学模型作为语音识别系统最为核心的模块之一，其性能的优劣直接影响到整个语音系统。2009年前，声学模型的基本结构是混合高斯模型-隐含马尔可夫模型(gaussianmixturemodel-hiddenmarkovmodel，gmm-hmm)，然而随着神经网络在语音识别领域的成功运用，传统的gmm-hmm逐渐被dnn-hmm（deepneuralnetwork-deepneuralnetwork，dnn-hmm）取代。但是，由于语音本质上是一个连续的信号，dnn对输入信号的感受视野相对固定，无法有效的利用上下文信息进行建模。循环神经网络（recurrentneuralnetwork，rnn）通过隐藏层节点周期性的连接，可以很好捕捉到序列化数据中的动态信息，使得其对语音信息的建模能力更好。

然而，标准的rnn在训练过程中会出现梯度消失和梯度爆炸的问题。为了解决上述问题，学者们提出了门控机制的长短期记忆网络（longshort-termmemory，lstm），其通过引入输入、遗忘和输出门来控制信息的流动，既可以很好地缓解梯度消失问题，也可以学习到更长的历史信息。尽管lstm这种结构很有效，但是其复杂的门控结构也使得实现更为困难。因此，为了简化网络结构，cho等人在其基础上提出了门控循环单元（gatedrecurrentunit，gru），并在随后的语音研究中证明了gru有着和lstm相当的效果。

但在实际应用中，这类方法距离大规模商业化的要求还有一定的距离，原因在于gru仍然存在模型参数过多，训练时间过长，对噪音数据不够鲁棒等问题，这将会极大限制语音识别系统的性能。

技术实现要素：

为克服现有技术存在的缺陷，本发明公开了一种基于门控循环单元的声学建模方法。

本发明所述基于门控循环单元的声学建模方法，包括如下步骤:

步骤1.对原始音频数据提取对应的声学特征,下标t＝1,2,…,t，t是语音信号的帧数；

步骤2.利用层归一化改进门控循环单元,将传统门控循环单元中的tanh激活函数替换为elu激活函数；利用改进的门控循环单元函数计算神经网络的前向输出，所述前向输出包括当前时刻的状态向量；

步骤3.根据步骤2计算出的当前时刻的状态向量，对模型进行训练；

步骤4.对训练好的模型进行解码，即找到概率最大的输出序列。

优选的，所述步骤3中对状态向量正规化得到每个神经元的输出概率，然后结合ctc算法构建相应的ctc损失函数，并通过反向时间传播算法bptt对模型进行训练。

优选的，所述步骤2中还包括对前向输出的正规化，正规化方程为：

其中，是对应的第个元素，为当前时刻t的输出状态向量，为t时刻网络输出标签为的概率,x表示当前帧输入。

优选的，所述步骤2中，更新门和重置门的激活向量和的计算公式分别为：

为t时刻的输入特征数据,为t时刻上一时刻的状态向量,是逻辑sigmoid函数，br和bz分别表示重置门和更新门的偏置向量；wz、wr分别表示更新门和重置门的前馈权重，uz、ur分别表示更新门和重置门的递归权重;ln为归一化函数。

采用本发明所述基于门控循环单元的声学建模方法，具备如下优越性：

一、本发明将层归一化技术应用到门控循环神经单元，其能够规范化神经元的激活值，并提高网络收敛速度，从而降低网络训练时间。

二、本发明将传统门控循环单元中的tanh激活函数替换为elu激活函数；提高了对数据的鲁棒性。

三、为了减少gru的模型参数，本发明提出将传统门控循环单元中更新门和重置门中与输入相关的矩阵乘法替换为元素之间的乘法，降低传统门控循环单元的模型参数，并且提高模型的识别性能。

附图说明

图1为本发明的一种具体实施方式流程示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述基于门控循环单元的声学建模方法，可以用于连续语音识别的场景,也可以用于其他与语音识别有关的情境下的建模，具体如图1所示。

步骤1.对原始音频数据提取对应的声学特征,下标t＝1,2,…,t，t是语音信号的帧数。

步骤2.利用层归一化改进门控循环单元,利用改进的门控循环单元函数计算神经网络的前向输出，并对其正规化得到每个神经元的输出概率;

正规化可以使用softmax函数;

正规化的具体方式为:

(1.0)

其中，是对应的第个元素，为t时刻网络输出标签为的概率，k和k’表示不同的求和标签定义，为当前时刻t的输出状态向量，x表示当前帧输入。

所述改进的门控循环单元函数ln-sgru为:

其中，为t时刻的输入特征数据，分别对应重置门，更新门，候选状态的激活向量，为当前时刻的状态向量即输出向量，为上一时刻的状态向量。是逻辑sigmoid函数，这约束着和的取值范围为0到1。表示元素之间的乘法。和分别表示前馈权重和递归权重，是对应的偏置向量；

下标z,r,h分别表示更新门、重置门和候选状态与输入相关的权重；

步骤3.根据步骤2计算出的当前时刻的状态向量，结合ctc算法构建相应的ctc损失函数，并通过反向时间传播算法bptt对模型进行训练；

构建ctc损失函数的方式可以参照现有文献如《labellingunsegmentedsequencedatawithrecurrentneuralnetworks》（gravesa,fernándezs,gomezf,etal.connectionisttemporalclassification:[c]//proceedingsofthe23rdinternationalconferenceonmachinelearning.2006:369-376）进行。

步骤4.对训练好的模型进行解码，即可以找到概率最大的输出序列。

所述改进的门控循环单元函数中，根据传统的门控循环神经单元方程进行，采用层归一化方法的门控循环神经单元方程为

其中层归一化函数ln的定义如下，可参考对应的文献，如：bajl,kirosjr,hintonge.layernormalization[j].arxivpreprintarxiv:1607.06450,2016。

和分别对应每层输入总和的均值和标准差，d为当前层神经元数目；和分别是神经元的自适应偏置和增益，其初始化值分别为0,1；表示向量的第个元素，z为每层神经元的输入向量。

将公式（1.3）中的tanh激活函数替换为elu激活函数，使得网络对噪音数据更加鲁棒,并能充分利用层归一化技术带来的好处，使得网络的收敛速度更快，因此公式（1.3）变为：

（2.6）

其中，elu激活函数的定义如公式（2.3），本发明使用的可以设置为1；

（2.3）

由于门控循环单元的门结构计算公式中的和的信息存在一定冗余，因此，可以通过适当减少模型参数来充分利用两者携带的信息，从而使得模型的识别效果更好。对此，本发明改变了更新门和重置门的计算公式，即将公式（1.1）和（1.2）中，变为，，将矩阵相乘改为元素对应相乘，显而易见，元素之间的乘法会大大降低模型参数数量，进而简化计算。

综合以上改进，改进后的门控循环单元函数为：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、cd-rom、光学存储器等）上实施的计算机程序产品的形式。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除