一种基于注意力机制的语音识别方法、系统及装置与流程

2021-01-28 14:01:57|

242|

起点商标网

本发明涉及语音识别领域，尤其涉及一种基于注意力机制的语音识别方法、系统及装置。

背景技术：

目前，经典语音识别技术主要步骤为语音预处理，特征提取，建立声学模型，建立音素模型，建立语言模型，最终输出对应文字。

传统的基于统计的hmm声学模型，n元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。2000年左右，gmm-hmm模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。现有的经典语音识别结束主要依靠隐马尔可夫模型进行声学模型和语言模型的建立，对于各自的模型，工程师需提供不同类型的已标注数据集，同时模型解码速度较慢，而且模型间的信息无法共享，准确率较低。具体来说，在训练这一类的模型时，训练样本的标注不仅仅是原本的文本，还需要对文本进一步的拆解成为音素投入训练，这对于标注部分的工作就会造成极大的挑战。

技术实现要素：

为了解决上述技术问题，本发明的目的是提供一种基于注意力机制的语音识别方法、系统及装置，解决语音识别准确率较低的问题。

本发明所采用的第一技术方案是：一种基于注意力机制的语音识别方法，包括以下步骤：

获取音频信息并对音频信息进行预处理，得到预处理后的音频；

对预处理后的音频进行特征提取，得到特征向量；

采用循环神经网络并结合ctc算法和注意力机制对声学模型和语言模型进行端对端建模，得到语音识别模型；

将特征向量输入到识别模型，输出语音识别结果。

进一步，所述预处理包括于预加重处理、分帧处理、加窗处理、过滤音频噪音点处理和增强人声处理。

进一步，所述特征提取的特征类型为梅尔频率倒谱系数，所述对预处理后的音频进行特征提取，得到特征向量这一步骤，其具体包括：

将预处理后的音频通过一组滤波器组，得到梅尔频率倒谱系数；

通过离散余弦变换将梅尔频率倒谱系数相关并降维，得到多个独立固定维度的特征向量。

进一步，所述滤波器组为40个三角形滤波器，每个滤波在中心频率的响应为1。

进一步，所述循环神经网络采用双向的残差长短时记忆层。

进一步，所述将特征向量输入到识别模型，输出语音识别结果这一步骤，其具体还包括：

通过循环神经网络输出对应帧的第一语音结果；

通过注意力机制解码第一语音结果，得到最终语音结果。

通过ctc算法将最终语音结果与对应帧对齐后得到文字，最终得到语音识别结果。

本发明所采用的第二技术方案是：一种基于注意力机制的语音识别系统，包括以下模块：

音频接收与预处理模块，用于获取音频信息并对音频信息进行预处理，得到预处理后的音频；

音频特征提取模块，用于对预处理后的音频进行特征提取，得到特征向量；

深度学习建模模块，用于采用循环神经网络并结合ctc算法和注意力机制对声学模型和语言模型进行端对端建模，得到语音识别模型；

结果输出模块，用于将特征向量输入到识别模型，输出语音识别结果。

本发明所采用的第三技术方案是：一种基于注意力机制的语音识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一一种基于注意力机制的语音识别方法。

本发明方法及系统的有益效果是：ctc解码通过预测每个帧的输出来识别语音，注意力机制解码通过前一单元的解码结果与整体语音特征来生成当前的结果，本方案通过结合ctc解码算法和注意力机制解码共同输出识别结果，解决语音识别准确率较低的问题。

附图说明

图1是本发明一种基于注意力机制的语音识别方法的步骤流程图；

图2是本发明一种基于注意力机制的语音识别系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明提供了一种基于注意力机制的语音识别方法，该方法包括以下步骤：

s101、获取音频信息并对音频信息进行预处理，得到预处理后的音频；

s102、对预处理后的音频进行特征提取，得到特征向量；

具体地，通过特征提取后，一段连续的语音信号被表示成为多个独立的固定维度的特征向量。这些特征向量能够准确描述这段语音每一帧的特征和信息。

s103、采用循环神经网络并结合ctc算法和注意力机制对声学模型和语言模型进行端对端建模，得到语音识别模型；

具体地，循环神经网络每个输出点都为对应帧的语音识别结果，有可能多个对应帧对应单个结果，也有可能对应帧对应结果为空。通过ctc将其对齐后可得连续文字即语音识别结果。

s104、将特征向量输入到识别模型，输出语音识别结果；

进一步作为本方法的优选实施例，所述预处理包括于预加重处理、分帧处理、加窗处理、过滤音频噪音点处理和增强人声处理。

具体地，预处理过程中，首先进行预加重处理，为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分，并且能突显高频的共振峰，具体操作是将频域上面都乘以一个系数，这个系数跟频率成正相关，所以高频的幅值会有所提升。接着进行分帧处理，根据指定的长度(时间段或者采样数)进行分段，结构化为编程的数据结构。接着进行加窗处理，将得到的信号与一个窗函数相乘,使原本没有周期性的语音信号呈现出周期函数的部分特征。

进一步作为本方法的优选实施例，所述特征提取的特征类型为梅尔频率倒谱系数，所述对预处理后的音频进行特征提取，得到特征向量这一步骤，其具体包括：

将预处理后的音频通过一组滤波器组，得到梅尔频率倒谱系数；

通过离散余弦变换将梅尔频率倒谱系数相关并降维，得到多个独立固定维度的特征向量。

具体地，特征类型为mfcc，即梅尔频率倒谱系数。将预处理后的音频能量谱通过一组mel尺度的三角形滤波器组，定义一个有m个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，一般用40个滤波器，每个滤波在中心频率的响应都是1，然后线性下降，一直到相邻三角滤波的中心频率处为0。由于滤波器组得到的系数是相关性很高，我们用离散余弦变换来去相关并且降维。一般来说，在自动语音识别领域，保留得到的倒频谱系数的第2-13个，剩余的抛弃。

进一步作为本方法优选实施例，所述滤波器组为40个三角形滤波器，每个滤波在中心频率的响应为1。

进一步作为本方法优选实施例，所述循环神经网络采用双向的残差长短时记忆层。

具体地，循环神经网络采用双向的残差长短时记忆层，可以更好地保留提取出的音素信息和之后每一个双向的残差长短时记忆层进行结合。因为循环神经网络中的每一层主要是负责提取句子中的语义信息，但语义信息的理解也和音素信息紧密相关，随着循环神经网络的深入，原本更底层的层很难接收到卷积神经网络所给出的信息，对于复杂的长句子中音素和语义信息的结合较差，新提出的残差网络可以较好地修正这一问题。

进一步作为本方法优选实施例，所述将特征向量输入到识别模型，输出语音识别结果这一步骤，其具体还包括：

通过循环神经网络输出对应帧的第一语音结果；

通过注意力机制解码第一语音结果，得到最终语音结果；

通过ctc算法将最终语音结果与对应帧对齐后得到文字，最终得到语音识别结果。

具体地，纯ctc解码通过预测每个帧的输出来识别语音，算法的实现基于假设每帧的解码保持彼此独立，因而缺乏解码过程中前后语音特征之间的联系，比较依赖语言模型的修正。纯注意力机制(attention)解码过程则与输入语音的帧的顺序无关，每个解码单元是通过前一单元的解码结果与整体语音特征来生成当前的结果，解码过程忽略了语音的单调时序性。本方案采用混合解码的框架模型，得到由两种解码器共同输出识别结果。

如图2所示，一种基于注意力机制的语音识别系统，包括以下模块：

音频接收与预处理模块，用于获取音频信息并对音频信息进行预处理，得到预处理后的音频；

音频特征提取模块，用于对预处理后的音频进行特征提取，得到特征向量；

深度学习建模模块，用于采用循环神经网络并结合ctc算法和注意力机制对声学模型和语言模型进行端对端建模，得到语音识别模型；

结果输出模块，用于将特征向量输入到识别模型，输出语音识别结果。

进一步作为本系统的优选实施例，所述音频接收与预处理模块模块还包括：

接收子模块，用于获取音频信息；

预加重子模块，用于对音频信息进行预加重处理；

分帧子模块，用于对音频信息进行分帧处理；

加窗子模块，用于对音频信息进行加窗处理；

过滤音频噪音点子模块，用于过滤音频信息的噪音点；

增强人声子模块，用于增强音频的人声部分。