HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音识别模型训练方法、语音识别方法及相关装置与流程

2021-01-28 13:01:27|274|起点商标网
语音识别模型训练方法、语音识别方法及相关装置与流程

本发明实施例涉及计算机领域,尤其涉及一种语音识别模型训练方法、语音识别方法及相关装置。



背景技术:

随着计算机技术和深度学习技术的发展,语音识别技术成为一个重要的研究方向,并得到广泛以用。

然而,在一些场景下会出现至少两种类型的语言同时存在的情况,为了实现对多种类型的语言同时存在的语音音频进行识别,可以采用语音识别算法,对发音词典进行构建,比如对于中英文混合音频,首先建立英文映射到中文的发音,并根据中文的发音音素构建发音词表,这种方法能解决部分中英文混合识别的情况,性能主要取决于英文单词映射到中文发音的词表大小,但这个过程不仅需要人工标注,而且有很多英文单词与中文词发音类似或者不能映射到中文发音,因此这种方法的泛化性很差,难以得到很好的语音识别效果;还可以采用基于深度神经网络模型的方法,但是模型的训练需要大量经过的标注的数据,而多种类型语言混合的数据量较少,模型不能得到很好的训练,语音识别的效果也较差。

为此,如何提高语音识别的准确性,就成为亟需解决的技术问题。



技术实现要素:

本发明实施例提供一种语音识别模型训练方法、语音识别方法及相关装置,以提高语音识别的准确性。

为解决上述问题,本发明实施例提供一种语音识别模型训练方法,包括:

确定训练混合语种音频集的训练当前混合语种音频和训练前一混合语种音频,获取训练当前混合语种音频的训练初始声学特征,利用待训练的语音识别模型的第一语种模块获取所述训练初始声学特征的训练第一时序位置声学特征,利用待训练的所述语音识别模型的第二语种模块获取所述训练初始声学特征的训练第二时序位置声学特征,其中,所述训练当前混合语种音频和所述训练前一混合语种音频均包括第一语种的音频和第二语种的音频,所述第一语种模块适于获取第一语种的音频的训练第一时序位置声学特征,所述第二语种模块适于获取第二语种的音频的第二时序位置特征;

对所述训练第一时序位置声学特征和所述训练第二时序位置声学特征进行融合,得到训练当前融合声学特征,并对所述训练当前融合声学特征进行文本编码,得到训练当前融合文本特征;

根据所述训练当前融合文本特征和所述训练前一混合语种音频的前一基准文本特征进行当前文本预测,得到第一训练当前预测文本特征,并将所述训练当前混合语种音频后的混合语种音频作为新的训练当前混合语种音频,直至得到预定数量的所述第一训练当前预测文本特征,根据所述第一训练当前预测文本特征和所述训练当前混合语种音频的当前基准文本特征获取第一损失,根据各个所述第一损失获取模型损失,根据所述模型损失调整所述语音识别模型的参数,直至所述模型损失满足语音识别损失阈值,得到训练完成的所述语音识别模型。

为解决上述问题,本发明实施例还提供一种语音识别方法,包括:

利用如前述的语音识别模型训练方法训练得到的语音识别模型,确定待语音识别混合语种音频的当前混合语种音频和前一混合语种音频,获取所述当前混合语种音频的初始声学特征,利用所述语音识别模型的第一语种模块获取所述初始声学特征的第一时序位置声学特征,利用所述语音识别模型的第二语种模块获取所述初始声学特征的第二时序位置声学特征;

对所述第一时序位置声学特征和所述第二时序位置声学特征进行融合,得到当前融合声学特征,并对所述当前融合声学特征进行文本编码,得到当前融合文本特征;

根据所述当前融合文本特征和所述前一混合语种音频的预测文本特征进行当前文本预测,得到当前预测文本特征。

为解决上述问题,本发明实施例还提供一种语音识别模型训练装置,包括:

训练时序位置声学特征获取单元,适于确定训练混合语种音频集的训练当前混合语种音频和训练前一混合语种音频,获取训练当前混合语种音频的训练初始声学特征,利用待训练的语音识别模型的第一语种模块获取所述训练初始声学特征的训练第一时序位置声学特征,利用待训练的所述语音识别模型的第二语种模块获取所述训练初始声学特征的训练第二时序位置声学特征,其中,所述训练当前混合语种音频和所述训练前一混合语种音频均包括第一语种的音频和第二语种的音频,所述第一语种模块适于获取第一语种的音频的训练第一时序位置声学特征,所述第二语种模块适于获取第二语种的音频的第二时序位置特征;

训练当前融合文本特征获取单元,适于对所述训练第一时序位置声学特征和所述训练第二时序位置声学特征进行融合,得到训练当前融合声学特征,并对所述训练当前融合声学特征进行文本编码,得到训练当前融合文本特征;

参数调整单元,适于根据所述训练当前融合文本特征和所述训练前一混合语种音频的前一基准文本特征进行当前文本预测,得到第一训练当前预测文本特征,并将所述训练当前混合语种音频后的混合语种音频作为新的训练当前混合语种音频,直至得到预定数量的所述第一训练当前预测文本特征,根据所述第一训练当前预测文本特征和所述训练当前混合语种音频的当前基准文本特征获取第一损失,根据各个所述第一损失获取模型损失,根据所述模型损失调整所述语音识别模型的参数,直至所述模型损失满足语音识别损失阈值,得到训练完成的所述语音识别模型。

为解决上述问题,本发明实施例还提供一种语音识别装置,包括:

时序位置声学特征获取单元,适于利用如前述的语音识别模型训练方法训练得到的语音识别模型,确定待语音识别混合语种音频的当前混合语种音频和前一混合语种音频,获取所述当前混合语种音频的初始声学特征,利用所述语音识别模型的第一语种模块获取所述初始声学特征的第一时序位置声学特征,利用所述语音识别模型的第二语种模块获取所述初始声学特征的第二时序位置声学特征;

当前融合文本特征获取单元,适于对所述第一时序位置声学特征和所述第二时序位置声学特征进行融合,得到当前融合声学特征,并对所述当前融合声学特征进行文本编码,得到当前融合文本特征;

当前预测文本特征获取单元,适于根据所述当前融合文本特征和所述前一混合语种音频的预测文本特征进行当前文本预测,得到当前预测文本特征。

为解决上述问题,本发明实施例提供一种存储介质,所述存储介质存储有适于语音识别模型训练的程序,以实现如前述的语音识别模型训练方法,或者所述存储介质存储有适于语音识别的程序,以实现如前述的语音识别方法。

为解决上述问题,本发明实施例提供一种电子设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述的语音识别模型训练方法或者如前述的语音识别方法。

与现有技术相比,本发明的技术方案具有以下优点:

本发明实施例所提供的语音识别模型训练方法、语音识别方法及相关装置,其中,语音识别模型训练方法,在进行语音识别模型训练时,首先确定要进行语音识别的训练混合语种音频集的训练当前混合语种音频和为训练当前混合语种音频提供关联信息的训练前一混合语种音频,并获取训练当前混合语种音频的训练初始声学特征,然后利用语音识别模型的第一语种模块获取训练初始声学特征的训练第一时序位置声学特征,利用第二语种模块获取训练初始声学特征的训练第二时序位置声学特征,将训练第一时序位置声学特征和训练第二时序位置声学特征进行融合,再对融合后的训练当前融合声学特征进行文本编码,得到训练当前融合文本特征,根据训练当前融合文本特征和训练前一混合语种音频的前一基准文本特征获取第一当前训练预测文本特征,根据第一当前训练预测文本特征和当前基准文本特征获取第一损失,进而根据各个第一损失获取模型损失,根据模型损失调整语音识别模型的参数,得到训练完成的语音识别模型。可以看出,本发明实施例所提供的语音识别模型训练方法,在对待训练的语音识别模型进行训练时,对训练混合语种音频集的混合语种音频进行语音识别,一方面,既利用适于获取第一语种的音频的训练第一时序位置声学特征的第一语种模块进行训练第一时序位置声学特征的获取,又利用适于获取第二语种的音频的训练第二时序位置声学特征的第二语种模块进行训练第二时序位置声学特征的获取,从而可以同时保证训练当前混合语种音频中第一语种的音频的时序位置声学特征获取的准确性,以及训练当前混合语种音频中第二语种的音频的时序位置声学特征获取的准确性,进一步通过对二者的融合使得得到的训练当前融合声学特征可以兼顾混合语种音频中第一语种的音频和第二语种的音频的准确性;另一方面,同时结合训练当前融合文本特征和前一基准文本特征共同进行训练当前混合语种音频的第一训练当前预测文本特征的预测,同时考虑了训练当前混合语种音频和训练前一混合语种音频的文本信息,提高对训练当前混合语种音频的识别的准确性。从而,本发明实施例所提供的语音识别模型训练方法,利用包括第一语种的音频和第二语种的音频的混合语种音频进行语音识别模型的训练,不仅可以使得训练得到的语音识别模型实现对第一语种的音频和第二语种的音频的混合语种音频的语音识别,而且可以提高训练所得的语音识别模型语音识别的准确性。

可选方案中,本发明实施例所提供的语音识别模型训练方法,还包括根据所述训练当前融合文本特征进行当前文本预测,得到第二当前训练预测文本特征,并根据所述第二当前训练预测文本特征和所述当前基准文本特征获取第二损失,直至得到预定数量的所述第一损失和所述第二损失,根据各个所述第一损失和各个所述第二损失获取模型损失,进而根据模型损失调整语音识别模型的参数,得到训练完成的语音识别模型。可以看出,本发明实施例所提供的语音识别模型训练方法,在模型预测时还利用训练当前融合文本特征进行第二当前训练预测文本特征的预测,并分别基于第一当前训练预测文本特征和第二当前训练预测文本特征获取第一损失和第二损失,利用结合了第一损失和第二损失的各个当前语音识别损失进行模型参数的调整,实现多任务的共同训练,从而可以进一步提高训练所得的语音识别模型进行语音识别的准确性,并提高语音识别的准确性。

附图说明

图1是本发明实施例所提供的语音识别模型训练方法的一流程示意图;

图2为本发明实施例所提供的语音识别模型训练方法的获取训练初始声学特征的流程示意图;

图3为本发明实施例所提供的语音识别模型训练方法的获取训练第一时序位置声学特征的流程示意图;

图4为本发明实施例所提供的语音识别模型训练方法的第一语种模块的获取步骤的流程示意图;

图5为本发明实施例所提供的训练当前融合声学特征的获取的流程示意图;

图6为本发明实施例所提供的语音识别方法的一流程示意图;

图7是本发明实施例所提供的语音识别模型训练装置的一框图;

图8为本发明实施例所提供的语音识别装置的一框图;

图9是本发明实施例提供的电子设备一种可选硬件设备架构。

具体实施方式

现有技术中,在对文本进行语音识别时,准确性较低。

为了提高文本语音识别的准确性,本发明实施例提供了一种语音识别模型训练方法,包括:

确定训练混合语种音频集的训练当前混合语种音频和训练前一混合语种音频,获取训练当前混合语种音频的训练初始声学特征,利用待训练的语音识别模型的第一语种模块获取所述训练初始声学特征的训练第一时序位置声学特征,利用待训练的所述语音识别模型的第二语种模块获取所述训练初始声学特征的训练第二时序位置声学特征,其中,所述训练当前混合语种音频和所述训练前一混合语种音频均包括第一语种的音频和第二语种的音频,所述第一语种模块适于获取第一语种的音频的训练第一时序位置声学特征,所述第二语种模块适于获取第二语种的音频的第二时序位置特征;

对所述训练第一时序位置声学特征和所述训练第二时序位置声学特征进行融合,得到训练当前融合声学特征,并对所述训练当前融合声学特征进行文本编码,得到训练当前融合文本特征;

根据所述训练当前融合文本特征和所述训练前一混合语种音频的前一基准文本特征进行当前文本预测,得到第一训练当前预测文本特征;

根据所述第一训练当前预测文本特征和所述训练当前混合语种音频的当前基准文本特征获取第一损失,并将所述训练当前混合语种音频的混合语种音频作为新的训练当前混合语种音频,直至得到预定数量的所述第一损失,根据各个所述第一损失获取模型损失,根据所述模型损失调整所述语音识别模型的参数,直至所述模型损失满足语音识别损失阈值,得到训练完成的所述语音识别模型。

可见,本发明实施例所提供的语音识别模型训练方法,在进行语音识别模型训练时,首先确定要进行语音识别的训练混合语种音频集的训练当前混合语种音频和为训练当前混合语种音频提供关联信息的训练前一混合语种音频,并获取训练当前混合语种音频的训练初始声学特征,然后利用语音识别模型的第一语种模块获取训练初始声学特征的训练第一时序位置声学特征,利用第二语种模块获取训练初始声学特征的训练第二时序位置声学特征,将训练第一时序位置声学特征和训练第二时序位置声学特征进行融合,再对融合后的训练当前融合声学特征进行文本编码,得到训练当前融合文本特征,根据训练当前融合文本特征和训练前一混合语种音频的前一基准文本特征获取第一当前训练预测文本特征,根据第一当前训练预测文本特征和当前基准文本特征获取第一损失,进而根据各个第一损失获取模型损失,根据模型损失调整语音识别模型的参数,得到训练完成的语音识别模型。

这样,本发明实施例所提供的语音识别模型训练方法,在对待训练的语音识别模型进行训练时,对训练混合语种音频集的混合语种音频进行语音识别,一方面,既利用适于获取第一语种的音频的训练第一时序位置声学特征的第一语种模块进行训练第一时序位置声学特征的获取,又利用适于获取第二语种的音频的训练第二时序位置声学特征的第二语种模块进行训练第二时序位置声学特征的获取,从而可以同时保证训练当前混合语种音频中第一语种的音频的时序位置声学特征获取的准确性,以及训练当前混合语种音频中第二语种的音频的时序位置声学特征获取的准确性,进一步通过对二者的融合使得得到的训练当前融合声学特征可以兼顾混合语种音频中第一语种的音频和第二语种的音频的准确性;另一方面,同时结合训练当前融合文本特征和前一基准文本特征共同进行训练当前混合语种音频的第一训练当前预测文本特征的预测,同时考虑了训练当前混合语种音频和训练前一混合语种音频的文本信息,提高对训练当前混合语种音频的识别的准确性。从而,本发明实施例所提供的语音识别模型训练方法,利用包括第一语种的音频和第二语种的音频的混合语种音频进行语音识别模型的训练,不仅可以使得训练得到的语音识别模型实现对第一语种的音频和第二语种的音频的混合语种音频的语音识别,而且可以提高训练所得的语音识别模型语音识别的准确性。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图1是本发明实施例所提供的语音识别模型训练方法的一流程示意图。

如图中所示,本发明实施例所提供的语音识别模型训练方法,包括以下步骤:

步骤s10:确定训练混合语种音频集的训练当前混合语种音频和训练前一混合语种音频。

本发明所提供的语音识别模型训练方法,实现对待训练语音识别模型的训练,且训练时以一段混合语种音频作为语音识别的基本单位,因此可以首先确定进行语音识别的训练当前混合语种音频。

在一具体实施例中,混合语种音频可以为混合语种音频集中的通过停顿隔开的各段混合语种音频,时间长度通常为几秒的音频,即在本发明实施例所提供的语音识别模型训练方法和语音识别方法中,以每段混合语种音频为单位进行语音识别和语音识别模型的训练,通过混合语种音频集获取混合语种音频的方法简单而且技术成熟,从而可以降低语音识别和语音识别模型训练的难度。在其他实施例中,混合语种音频还可以通过其他方式获取,具体确定单元也可以为其他方式,即不以停顿进行音频的分隔。

由于当前混合语种音频的文本的确定不仅需要基于训练当前混合语种音频的具体内容,还可以参考位于训练当前混合语种音频之前且与其相邻的混合语种音频的内容,因此,为了提高语音识别的准确性,本发明实施例所提供的语音识别模型训练方法还确定训练前一混合语种音频。

容易理解的是,训练前一混合语种音频即为按照混合语种音频集的各个混合语种音频的时序,相邻且位于训练当前混合语种音频前的混合语种音频,由于训练混合语种音频集中的各段混合语种音频并非通过仅对一个包含有停顿信息的混合语种音频的隔断获取,并且训练当前混合语种音频也可能为包含有停顿信息的混合语种音频的第一段混合语种音频,尽管其前面没有训练前一混合语种音频,但仍需要有相应的信息输入,因此训练前一混合语种音频还可以为初始混合语种音频(bos,beginofsentence),以表示混合语种音频开始,从而辅助进行训练当前混合语种音频的语音识别。

容易理解的是,初始混合语种音频并非为真实的音频,而是表示音频开始的信息。

需要说明的是,混合语种音频是指其中既包括第一语种音频也包括第二语种音频的音频,比如:我的名字是erick,即为中文和英文的混合音频,这样,对应的用于进行语音识别的语音识别模型的语种模块也为2种;当然,混合语种音频中还可以包括第三语种音频,对应的用于进行语音识别的语音识别模型的语种模块也也要有三种。

另外,为了实现对语音识别模型的训练,除了需要用于训练的混合语种音频,还需要与混合语种音频对应的基准文本,以实现对于损失的获取。

步骤s11:获取训练当前混合语种音频的训练初始声学特征。

确定训练当前混合语种音频后,还需进一步获取训练当前混合语种音频的训练初始声学特征,以将训练当前混合语种音频转换为特征表示,为后续的进一步的特征提取和模型训练做准备。

在一种具体实施方式中,为了保证基于不同的混合语种音频所得到的训练初始声学特征的结构的一致性,降低语音识别模型训练以及语音识别的复杂度和难度,请参考图2,图2为本发明实施例所提供的语音识别模型训练方法的获取训练初始声学特征的流程示意图。

如图中所示,本发明实施例所提供的语音识别模型训练方法的获取训练初始声学特征的步骤包括:

步骤s110:获取所述训练当前混合语种音频的频域声学特征。

根据训练当前混合语种音频,进行fbank声学特征提取,得到频域声学特征。具体声学特征提取的方法可以采用现有方法,在此不再赘述。

步骤s111:根据预定最长音频时间长度对所述频域声学特征进行时域调整,得到满足所述预定最长音频时间长度的所述训练初始声学特征。

由于各个训练当前混合语种音频的时间长度各有不同,为了保证所得到的训练初始声学特征的矩阵表达方式相同,在得到频域声学特征后,进一步根据预定最长音频时间长度对频域声学特征进行时域调整,从而得到训练初始声学特征。

具体地,预定最长音频时间长度可以根据大量训练混合语种音频统计获取,比如根据训练混合语种音频集中的各个训练混合语种音频,确定时间长度最长的音频以及具体的时间长度,并将其作为预定最长音频时间长度。

对于不满足预定最长音频时间长度的音频,可以通过对频域声学特征补零的方式,实现时域调整,从而能够很方便地得到满足要求的训练初始声学特征。

这样,可以在充分考虑到实际音频的时间长度不同的情况下,实现训练初始声学特征的结构一致性目标,可以简化后续流程的处理,降低语音识别模型训练以及语音识别的复杂度和难度。

步骤s12:利用待训练的语音识别模型的第一语种模块获取所述训练初始声学特征的训练第一时序位置声学特征,利用待训练的所述语音识别模型的第二语种模块获取所述训练初始声学特征的训练第二时序位置声学特征。

获取训练当前混合语种音频的训练初始声学特征后,进一步进行特征提取,获取训练当前混合语种音频的时序位置声学特征,实现对于语音的识别和模型训练。

由于训练当前混合语种音频为中既包括第一语种的音频,也包括第二语种的音频,因此,在获取时序位置声学特征时,首先利用第一语种模块获取训练当前混合语种音频的训练第一时序位置声学特征,然后利用第二语种模块获取训练当前混合语种音频的训练第二时序位置声学特征。

当然,训练当前混合语种音频中可能只包括第一语种的音频或者第二语种的音频,也可能同时包括第一语种的音频和第二语种的音频,为了保证语音识别的准确性,不论训练当前混合语种音频中的音频的种类是几种,均分别利用第一语种模块获取训练第一时序位置声学特征,利用第二语种模块获取训练第二时序位置声学特征。

容易理解的是,第一语种模块为适于获取第一语种音频的训练第一时序位置声学特征的模块,第二语种模块为适于获取第二语种音频的训练第二时序位置声学特征的模块。

结合前述案例:对于混合语种音频“我的名字是erick”,第一语种为中文,第二语种为英文,对应的语音识别模型的第一语种模块为适于获取中文的时序位置声学特征的模块,第二语种模块为适于获取英文的时序位置声学特征的模块。

容易理解的是,如果混合语种音频中还包括第三语种,比如法语,那么语音识别模型中还包括第三语种模块,适于获取法语的时序位置声学特征。

因此,训练混合语种音频的语种的种类数量以及后续进行语音识别的混合语种音频的种类数量均与待训练的语音识别模型的语种模块数量相同,并且混合语种音频的语种分别对应各个语种模块适于获取时序位置声学特征的语种。

当然,训练第一时序位置声学特征和训练第二时序位置声学特征的获取步骤可以相同,只不过由于模块不同,所得到的训练第一时序位置声学特征和训练第二时序位置声学特征有所不同,因此,在此主要说明训练第一时序位置声学特征的获取。

请参考图3,图3为本发明实施例所提供的语音识别模型训练方法的获取训练第一时序位置声学特征的流程示意图。

如图中所示,在一种具体实施方式中,获取训练第一时序位置声学特征的步骤可以包括:

步骤s120:利用所述语音识别模型的所述第一语种模块对所述训练初始声学特征进行卷积运算,得到第一位置声学特征。

得到训练初始声学特征后,利用待训练的语音识别模型的第一语种模块对训练初始声学特征进行卷积运算,获取位置信息。

具体地,可以利用cnn(convolutionalneuralnetworks,卷积神经网络)进行位置等信息的学习,使用移动滑窗在训练初始声学特征上进行局部区域的卷积运算。为了同时兼顾处理速度和准确性的要求,可以使用具有两层卷积运算的卷积神经网络获取第一位置声学特征。当然第一位置声学特征的维度收到卷积神经网络的卷积核、滑动步长等信息的影响。

在一种具体实施方式中,由于带洞二维卷积神经网络具有音频数据性能好,计算速度快的特点,因此可以采用带洞二维卷积神经网络获取第一位置声学特征。

步骤s121:利用待所述语音识别模型的所述第一语种模块获取所述第一位置声学特征的时序信息,得到所述训练第一时序位置声学特征。

得到第一位置声学特征后,进一步利用第一语种模块获取时序信息。

在一种具体实施方式中,可以利用双向长短期记忆人工神经网络(bi-directionallong-shorttermmemory,bilstm)获取时序信息的获取,将得到的第一位置声学特征的输入到bilstm中,bilstm的输出即为包含时序信息的训练第一时序位置声学特征。

具体地,可以采用具有5层运算的bilstm的神经网络,以满足所获取的信息的准确性要求。

在一种具体实施方式中,训练第二时序位置声学特征的获取可以与训练第一时序位置声学特征的获取步骤类似,可以包括:

利用所述语音识别模型的所述第二语种模块对所述训练初始声学特征进行卷积运算,得到第二位置声学特征;

利用所述语音识别模型的所述第二语种模块获取所述第二位置声学特征的时序信息,得到所述训练第二时序位置声学特征。

在其他实施方式中,训练第二时序位置声学特征的获取步骤还可以为其他步骤。

当然,为了保证利用第一语种模块获取的训练第一时序位置声学特征的准确性,需提前获取第一语种模块,请参考图4,图4为本发明实施例所提供的语音识别模型训练方法的第一语种模块的获取步骤的流程示意图。

如图4所示,第一语种模块的获取步骤包括:

步骤s120’:获取训练第一语种音频的第一语种训练初始声学特征。

容易理解的是,用于进行第一语种模块训练的训练第一语种音频中只包括第一语种的音频,并非混合语种的音频。并且,为满足训练要求训练第一语种音频均标注有第一语种基准文本。

为了进行第一语种模块的训练,首先获取第一语种训练初始声学特征,第一语种训练初始声学特征的获取方法可以与前述图2所述的声学特征的获取方法相同,在此不再赘述。

步骤s121’:利用待训练的所述第一语种模块获取所述第一语种训练初始声学特征的第一语种时序位置声学特征。

得到第一语种训练初始声学特征后,利用待训练的第一语种模块获取第一语种时序位置声学特征,第一语种时序位置声学特征的获取方法可以与前述图3所述的时序位置声学特征的获取方法相同,在此不再赘述。

步骤s122’:获取所述第一语种时序位置声学特征的第一语种预测文本特征。

进行第一语种时序位置声学特征的文本预测,得到第一语种预测文本特征,具体地,可以利用ctc模型获取,ctc(connectionisttemporalclassification)模型是一种适合不知道输入输出是否对齐的情况下使用的算法,以满足本发明实施例的预测文本特征的获取需要。

在进行ctc模块的训练时,以最大化以下公式的取值,进行ctc模块参数的调整:

其中,--输入为x的条件下的输出为y的概率

x--ctc模块训练过程中输入的训练第一语种时序位置声学特征;

y--ctc模块训练过程中输出的各个第一语种预测文本特征;

t--训练第一语种时序位置声学特征的总数;

t--第t个训练第一语种时序位置声学特征;

--t时刻对应的第一语种预测文本特征所表示的文本;

--输入为x的条件下,t时刻的输出为的概率。

从而基于已经训练完成的ctc进行文本特征预测,得到第一语种预测文本特征。

步骤s123’:根据所述第一语种预测文本特征和所述训练第一语种音频的第一语种基准文本特征获取第一语种损失。

得到第一语种预测文本特征后,根据第一语种预测文本特征和同一训练第一语种音频的第一语种基准文本特征,获取第一语种损失,为判断第一语种预测文本特征是否满足要求做准备。

当然,第一语种基准文本特征基于第一语种基准文本获取,所使用的模型可以为常用的文本特征获取模型。

步骤s124’:判断所述第一语种损失是否满足第一语种损失阈值,若是,执行步骤s126’,若否,执行步骤s125’。

得到第一语种损失后,将第一语种损失与第一语种损失阈值进行比较,其中第一语种损失阈值可以根据需要进行设定,如果满足第一语种损失阈值,那么表明第一语种模型已经满足准确性要求,执行步骤s126’,否则,则表明第一语种模型所获取的第一语种时序位置声学特征和第一语种预测文本特征还不满足准确性的要求,执行步骤s125’。

步骤s125’:根据所述第一语种损失调整所述第一语种模块的参数,转向执行步骤s120’。

如果第一语种损失不满足第一语种损失阈值,那么需要对第一语种模型的参数进行调整,并利用参数调整后的第一语种模块,再次执行步骤s121’。

步骤s126’:得到训练完成的所述第一语种模块。

从而,通过利用训练第一语种音频对第一语种模块的训练,可以保证第一语种模块获取第一语种时序位置声学特征的准确性,进而保证对于语音识别模型训练的准确性。

容易理解的是,第一语种模块的训练是在语音识别模型训练之前已经完成的,在本发明实施例所提供的语音识别模型训练方法中,直接利用已经训练完成的第一语种模块获取第一当前声学特征。并且步骤s122’,获取所述第一语种时序位置声学特征的第一语种预测文本特征,只是为了辅助模型训练的进行。

对应地,在一具体实施方式中,第二语种模块的获取可以与第一语种模块的获取步骤相同,只是所使用的训练音频为第二语种的音频,具体内容请参考图4的相关描述,在此不再赘述。

步骤s13:对所述训练第一时序位置声学特征和所述训练第二时序位置声学特征进行融合,得到训练当前融合声学特征,并对所述训练当前融合声学特征进行文本编码,得到训练当前融合文本特征。

得到训练第一时序位置声学特征和训练第二时序位置声学特征后,将二者进行融合,获取训练当前融合声学特征,具体融合的方式有多种,比如:进行当前第一声学特征和当前第二声学特征的相加,实现二者的融合。

在一种具体实施方式中,为了提高所得到的训练当前融合声学特征的准确性,请参考图5,图5为本发明实施例所提供的训练当前融合声学特征的获取的流程示意图。

如图中所示,为了获取训练当前融合声学特征,可以包括以下步骤:

步骤s130:根据所述训练混合语种音频集的第一语种的文本数量、第二语种的文本数量和所述训练混合语种音频集的整体文本数量中的至少两者,获取文本数量比例。

由于训练混合语种音频集具有提前标注的基准文本,因此可以根据基准文本获取第一语种的文本数量、第二语种的文本数量和所述训练混合语种音频集的整体文本数量中的至少两者。

如前述案例:“我的名字是erick”,其中,中文的文本数量是5,英文的文本数量是1,整体文本数量为6,从而可以获取到文本数量比例,中文文本数量比例为5/6。

步骤s131:根据所述文本数量比例对所述训练第一时序位置声学特征和所述训练第二时序位置声学特征进行融合,得到训练当前融合声学特征。

得到文本数量比例后,根据文本数量比例进行特征融合,获取训练当前融合声学特征。

具体地,融合声学特征通过以下公式获取:

其中:为训练当前融合声学特征;

为文本数量比例中的第一语种文本数量比例;

为训练第一时序位置声学特征;

为训练第二时序位置声学特征。

这样,利用文本数量比例进行训练第一时序位置声学特征和训练第二时序位置声学特征的融合,可以使得融合过程更符合中英文混合语音识别任务,提高特征融合的合理性和准确性。

得到训练当前融合声学特征后,进一步对训练当前融合文本特征进行文本编码,以获取训练当前融合文本特征。

在一种具体实施方式中,可以利用transformer的encoder模块进行训练当前融合文本特征的获取,以保证所获取的当前融合特征的准确性。

具体地,transformerencoder可以包括6层相同的编码层layer,每层编码层layer均包括两个sub-layer,分别为multi-headself-attentionmechanism(多头自注意力机制)和fullyconnectedfeed-forwardnetwork(全连接前向网络)。其中每个sub-layer都加了residualconnection(残差连接)和normalisation(标准化)。

步骤s14:根据所述训练当前融合文本特征和所述训练前一混合语种音频的前一基准文本特征进行当前文本预测,得到第一训练当前预测文本特征。

得到训练当前融合文本特征后,同时结合已确定的训练前一混合语种音频的前一基准文本特征,进行当前文本预测,获取第一训练当前预测文本。

具体地,可以利用利用transformer的decoder模块进行第一训练当前预测文本的获取。将经过transformerencoder获取的训练当前融合文本特征和基于前一基准文本获取的前一基准文本特征,输入transformerdecoder进行当前文本预测,得到第一训练当前预测文本。

transformerdecoder模块的基本架构可以与transformerencoder的相同,在此不再赘述。

步骤s15:判断是否得到预定数量的第一训练当前预测文本,若是,执行步骤s16,若否,执行步骤s17。

可以理解的是,由于训练混合语种音频集中包括大量的训练混合语种音频,因此,每当进行一个训练混合语种音频的第一训练当前预测文本特征获取都可以进行一次第一损失的获取,以及模型损失和语音识别损失阈值的比较判断,进而进行参数的调整,而如果每次都执行这一步骤,一方面会造成运算量的增加,降低训练效率,另一方面还会造成训练过程受到各个单个的训练混合语种音频的影响,影响训练效果,为此,可以设定预定数量,当所得到第一训练当前预测文本达到预定数量时,进行后续的操作。

需要说明的是,对于预定数量的判断,除了可以通过是否得到预定数量的第一训练当前预测文本的判断实现,还可以通过是否得到预定数量的第一损失的判断实现。

在一种具体实施方式,为了提高训练效率,可以使得所述预定数量包括所述训练混合语种音频集的全部训练混合语种音频的数量,从而每得到训练混合语种音频集的各个训练混合语种音频的第一训练当前预测文本特征后,进行第一损失的获取、模型损失的获取和参数的调整。

在其他实施方式中,还可以根据需要设定预定数量,比如训练混合语种音频集的全部训练混合语种音频的数量的一半等等。

步骤s16:根据所述第一训练当前预测文本特征和所述训练当前混合语种音频的当前基准文本特征获取第一损失。

如果得到预定数量的第一训练当前预测文本,那么将第一训练当前预测文本特征与当前基准文本进行损失获取,得到第一损失。

当然,也可以得到一个第一训练当前预测文本特征后,就进行第一损失的获取,然后在执行预定数量的判断。

步骤s17:将所述训练当前混合语种音频后的混合语种音频作为新的训练当前混合语种音频,执行步骤s11。

如果未得到预定数量的第一训练当前预测文本,那么将所述训练当前混合语种音频后的混合语种音频作为新的训练当前混合语种音频,进一步转向执行步骤s11,获取新的第一训练当前预测文本。

步骤s18:根据各个所述第一损失获取模型损失,并执行步骤s19。

得到各个第一损失后,根据各个第一损失获取模型损失,具体地,模型损失可以为各个第一损失的平均值,或者各个第一损失之和等。

步骤s19:判断所述模型损失是否满足语音识别损失阈值,若是,执行步骤s21,若否,执行步骤s20。

得到模型损失后,将模型损失与预定的语音识别损失阈值进行比较,容易理解的是,根据模型损失的获取方式的不同,预定的语音识别损失阈值也会有不同。

如果模型损失满足语音识别损失阈值,则说明语音识别模型的准确度已经满足要求,执行步骤s21;否则,语音识别模型的准确度还没有达到要求,需要对语音识别模型进行参数调整,执行步骤s20。

步骤s20:根据所述模型损失调整所述语音识别模型的参数,转向执行步骤s10。

如果模型损失不满足语音识别损失阈值,根据模型损失,对语音识别模型的参数进行调整,并利用参数调整后的语音识别模型再次进行训练当前混合语种音频和训练前一混合语种音频的确定,以及后续的处理,即执行步骤s10.

步骤s21:得到训练完成的所述语音识别模型。

可以看出,本发明实施例所提供的语音识别模型训练方法,在对待训练的语音识别模型进行训练时,对训练混合语种音频集的混合语种音频进行语音识别,一方面,既利用适于获取第一语种的音频的训练第一时序位置声学特征的第一语种模块进行训练第一时序位置声学特征的获取,又利用适于获取第二语种的音频的训练第二时序位置声学特征的第二语种模块进行训练第二时序位置声学特征的获取,从而可以同时保证训练当前混合语种音频中第一语种的音频的时序位置声学特征获取的准确性,以及训练当前混合语种音频中第二语种的音频的时序位置声学特征获取的准确性,进一步通过对二者的融合使得得到的训练当前融合声学特征可以兼顾混合语种音频中第一语种的音频和第二语种的音频的准确性;另一方面,同时结合训练当前融合文本特征和前一基准文本特征共同进行训练当前混合语种音频的第一训练当前预测文本特征的预测,同时考虑了训练当前混合语种音频和训练前一混合语种音频的文本信息,提高对训练当前混合语种音频的识别的准确性。从而,本发明实施例所提供的语音识别模型训练方法,利用包括第一语种的音频和第二语种的音频的混合语种音频进行语音识别模型的训练,不仅可以使得训练得到的语音识别模型实现对第一语种的音频和第二语种的音频的混合语种音频的语音识别,而且可以提高训练所得的语音识别模型语音识别的准确性。

在另一种具体实施方式中,为了提高语音识别模型训练方法对语音识别模型训练的准确性,本发明实施例所提供的语音识别模型训练方法还包括:

根据所述训练当前融合文本特征进行当前文本预测,得到第二当前训练预测文本特征;

直至得到所述预定数量的所述第二训练当前预测文本特征,根据所述第二当前训练预测文本特征和所述当前基准文本特征获取第二损失;

根据各个所述第一损失和各个所述第二损失获取模型损失。

除了根据训练当前融合文本特征和前一基准文本特征获取第一当前训练预测文本特征外,还根据训练当前融合文本特征进行当前文本预测,获取第二当前训练预测文本特征,第二当前训练预测文本特征可以利用前述的ctc模型获取,在此不再赘述。

得到第二当前训练预测文本特征后,可以进一步根据第二当前训练预测文本特征和当前基准文本特征获取第二损失,当然,第二损失的获取,与第一损失的获取过程类似,可以在每得到一个第二训练当前预测文本特征后就获取,也可以在得到预定数量的第二训练当前预测文本特征后再获取。

另外,容易理解的是,第二训练当前预测文本特征的预定数量与第一训练当前预测文本特征的数量相同,也可以只进行第一训练当前预测文本特征的数量的判断。

得到预定数量的第一损失和预定数量的第二损失后,在获取模型损失时,不仅根据第一损失和结合第二损失,从而提高训练的准确性。

在一种具体实施方式中,所述根据各个所述第一损失和各个所述第二损失获取模型损失的步骤,可以包括:

根据对应于同一所述训练当前混合语种音频的所述第一损失和所述第二损失获取当前语音识别损失;

根据各个所述当前语音识别损失获取所述模型损失。

为了获取模型损失,首先根据第一损失和第二损失获取当前语音识别损失,即将当前语音识别损失作为训练当前混合语种音频的损失,使得当前语音识别损失更为全面,更能体现在语音识别模型训练过程中语音识别的准确性的判断,然后进一步根据各个当前语音识别损失获取模型损失,进而提高所得到的模型损失的准确性。

在一种具体实施方式中,所述当前语音识别损失可以通过以下公式获取:

其中:--当前文本单元预测损失;

--第一损失;

--第二损失;

--平衡因子。

其中平衡因子可以根据需要进行调整。

可以看出,本发明实施例所提供的语音识别模型训练方法,在模型预测时还利用训练当前融合文本特征进行第二当前训练预测文本特征的预测,并分别基于第一当前训练预测文本特征和第二当前训练预测文本特征获取第一损失和第二损失,利用结合了第一损失和第二损失的各个当前语音识别损失进行模型参数的调整,实现多任务的共同训练,从而可以进一步提高训练所得的语音识别模型进行语音识别的准确性,并提高语音识别的准确性。

为了提高文本语音识别的准确性,本发明实施例还提供一种语音识别方法,请参考图6,图6为本发明实施例所提供的语音识别方法的一流程示意图。

如图中所示,本发明实施例所提供的语音识别方法,包括:

步骤s30:利用如前述的语音识别模型训练方法所获取的语音识别模型,确定待语音识别混合语种音频的当前混合语种音频和前一混合语种音频。

在利用前述的语音识别模型训练方法对语音识别模型训练完成后,利用训练完成的语音识别模型进行待语音识别混合语种音频的语音识别预测,即对各段混合语种音频进行语音识别,获取预测文本特征。

根据前述的语音识别模型训练方法可知,对于待语音识别混合语种音频,通过停顿隔开的各段混合语种音频,然后根据各段混合语种音频在待语音识别混合语种音频中的时序,确定当前混合语种音频和前一混合语种音频。

当然,为了保证语音识别的准确性,并保证前一混合语种音频的前一预测文本特征已经获取,需要按照待语音识别混合语种音频中的时序依次确定各个混合语种音频为当前混合语种音频。并且前一混合语种音频也包括表示待语音识别混合语种音频开始的初始混合语种音频。

步骤s31:获取所述当前混合语种音频的初始声学特征。

确定当前混合语种音频后,获取其初始声学特征,为后续的语音识别做好准备。

初始声学特征的获取方法可以参考前述图1步骤s11的描述,在此不再赘述。

步骤s32:利用所述语音识别模型的第一语种模块获取所述初始声学特征的第一时序位置声学特征,利用所述语音识别模型的第二语种模块获取所述初始声学特征的第二时序位置声学特征。

得到初始声学特征后,利用第一语种模块和第二语种模块分别获取第一时序位置声学特征和第二时序位置声学特征。

步骤s32的具体内容可以参考步骤s12的相关描述,在此不再赘述。

步骤s33:对所述第一时序位置声学特征和所述第二时序位置声学特征进行融合,得到当前融合声学特征,并对所述当前融合声学特征进行文本编码,得到当前融合文本特征。

步骤s33的部分内容可以参考步骤s13的相关描述,需要说明的是,为了获取当前融合声学特征,并且使融合后的结果更符合中英文混合语音识别任务,提高融合的合理性,可以根据预定的文本数量比例对所述第一时序位置声学特征和所述第二时序位置声学特征进行融合,得到当前融合声学特征。

其中预定的文本数量比例可以为进行语音识别模型训练时,所使用的训练混合语种音频集的文本数量比例,从而在提高合理性的情况下,降低文本数量比例获取的难度。

步骤s34:根据所述当前融合文本特征和所述前一混合语种音频的预测文本特征进行当前文本预测,得到当前预测文本特征。

步骤s34的部分内容可以参考步骤s14的相关描述,在此不再赘述。

容易理解的是,得到当前预测文本特征后,还可以进一步获取当前预测文本特征对应的文本,或者更换位于当前混合语种音频后的混合语种音频作为新的当前混合语种音频,进一步进行新的当前混合语种音频的当前预测文本特征的获取,直至得到待语音识别混合语种音频的各段混合语种音频,从而得到识别后的文本。

可以看出,本发明实施例所提供的语音识别方法,对待识别混合语种音频的当前混合语种音频进行语音识别时,一方面,既利用适于获取第一语种的音频的第一时序位置声学特征的第一语种模块进行第一时序位置声学特征的获取,又利用适于获取第二语种的音频的第二时序位置声学特征的第二语种模块进行第二时序位置声学特征的获取,从而可以同时保证当前混合语种音频中第一语种的音频的时序位置声学特征获取的准确性,以及当前混合语种音频中第二语种的音频的时序位置声学特征获取的准确性,进一步通过对二者的融合使得得到的训练当前融合声学特征可以兼顾混合语种音频中第一语种的音频和第二语种的音频的准确性;另一方面,同时结合当前融合文本特征和前一预测文本特征共同进行当前混合语种音频的当前预测文本特征的预测,同时考虑了当前混合语种音频和前一混合语种音频的信息,提高对当前混合语种音频的识别的准确性,不仅可以实现对第一语种的音频和第二语种的音频的混合语种音频的语音识别,而且可以提高语音识别的准确性。

下面对本发明实施例提供的语音识别模型训练装置和语音识别装置进行介绍,下文描述的语音识别模型训练装置和语音识别装置可以认为是,电子设备(如:pc)为分别实现本发明实施例提供的语音识别模型训练方法和语音识别方法所需设置的功能模块架构。下文描述的语音识别模型训练装置和语音识别装置的内容,可分别与上文描述的语音识别模型训练方法和语音识别方法的内容相互对应参照。

图7是本发明实施例所提供的语音识别模型训练装置的一框图,该语音识别模型训练装置即可应用于客户端,也可应用于服务器端,参考图7,该语音识别模型训练装置包括:

训练时序位置声学特征获取单元100,适于确定训练混合语种音频集的训练当前混合语种音频和训练前一混合语种音频,获取训练当前混合语种音频的训练初始声学特征,利用待训练的语音识别模型的第一语种模块获取所述训练初始声学特征的训练第一时序位置声学特征,利用待训练的所述语音识别模型的第二语种模块获取所述训练初始声学特征的训练第二时序位置声学特征,其中,所述训练当前混合语种音频和所述训练前一混合语种音频均包括第一语种的音频和第二语种的音频,所述第一语种模块适于获取第一语种的音频的训练第一时序位置声学特征,所述第二语种模块适于获取第二语种的音频的第二时序位置特征;

训练当前融合文本特征获取单元110,适于对所述训练第一时序位置声学特征和所述训练第二时序位置声学特征进行融合,得到训练当前融合声学特征,并对所述训练当前融合声学特征进行文本编码,得到训练当前融合文本特征;

参数调整单元120,适于根据所述训练当前融合文本特征和所述训练前一混合语种音频的前一基准文本特征进行当前文本预测,得到第一训练当前预测文本特征,并将所述训练当前混合语种音频后的混合语种音频作为新的训练当前混合语种音频,直至得到预定数量的所述第一训练当前预测文本特征,根据所述第一训练当前预测文本特征和所述训练当前混合语种音频的当前基准文本特征获取第一损失,根据各个所述第一损失获取模型损失,根据所述模型损失调整所述语音识别模型的参数,直至所述模型损失满足语音识别损失阈值,得到训练完成的所述语音识别模型。

本发明所提供的语音识别模型训练装置,以一段混合语种音频作为语音识别的基本单位,因此训练时序位置声学特征获取单元100首先确定进行语音识别的训练当前混合语种音频。

在一具体实施例中,混合语种音频可以为混合语种音频集中的通过停顿隔开的各段混合语种音频,时间长度通常为几秒的音频,即在本发明实施例所提供的语音识别模型训练方法和语音识别方法中,以每段混合语种音频为单位进行语音识别和语音识别模型的训练,通过混合语种音频集获取混合语种音频的方法简单而且技术成熟,从而可以降低语音识别和语音识别模型训练的难度。

由于当前混合语种音频的文本的确定不仅需要基于训练当前混合语种音频的具体内容,还可以参考位于训练当前混合语种音频之前且与其相邻的混合语种音频的内容,因此,为了提高语音识别的准确性,还需确定训练前一混合语种音频。

训练前一混合语种音频即为按照混合语种音频集的各个混合语种音频的时序,相邻且位于训练当前混合语种音频前的混合语种音频,由于训练混合语种音频集中的各段混合语种音频并非通过仅对一个包含有停顿信息的混合语种音频的隔断获取,并且训练当前混合语种音频也可能为包含有停顿信息的混合语种音频的第一段混合语种音频,尽管其前面没有训练前一混合语种音频,但仍需要有相应的信息输入,因此训练前一混合语种音频还可以为初始混合语种音频(bos,beginofsentence),以表示混合语种音频开始,从而辅助进行训练当前混合语种音频的语音识别。

容易理解的是,初始混合语种音频并非为真实的音频,而是表示音频开始的信息。

确定训练当前混合语种音频后,还需进一步获取训练当前混合语种音频的训练初始声学特征,以将训练当前混合语种音频转换为特征表示,为后续的进一步的特征提取和模型训练做准备。

在一种具体实施方式中,为了保证基于不同的混合语种音频所得到的训练初始声学特征的结构的一致性,降低语音识别模型训练以及语音识别的复杂度和难度,本发明实施例所提供的语音识别模型训练装置的训练时序位置声学特征获取单元100,适于获取训练当前混合语种音频的训练初始声学特征,包括:

获取所述训练当前混合语种音频的频域声学特征;

根据预定最长音频时间长度对所述频域声学特征进行时域调整,得到满足所述预定最长音频时间长度的所述训练初始声学特征。

首先,根据训练当前混合语种音频,进行fbank声学特征提取,得到频域声学特征;然而由于各个训练当前混合语种音频的时间长度各有不同,为了保证所得到的训练初始声学特征的矩阵表达方式相同,在得到频域声学特征后,进一步根据预定最长音频时间长度对频域声学特征进行时域调整,从而得到训练初始声学特征。

具体地,预定最长音频时间长度可以根据大量训练混合语种音频统计获取,比如根据训练混合语种音频集中的各个训练混合语种音频,确定时间长度最长的音频以及具体的时间长度,并将其作为预定最长音频时间长度。

对于不满足预定最长音频时间长度的音频,可以通过对频域声学特征补零的方式,实现时域调整,从而能够很方便地得到满足要求的训练初始声学特征。

这样,可以在充分考虑到实际音频的时间长度不同的情况下,实现训练初始声学特征的结构一致性目标,可以简化后续流程的处理,降低语音识别模型训练以及语音识别的复杂度和难度。

获取训练当前混合语种音频的训练初始声学特征后,进一步进行特征提取,获取训练当前混合语种音频的训练时序位置声学特征,实现对于语音的识别和模型训练。

由于训练当前混合语种音频为中既包括第一语种的音频,也包括第二语种的音频,因此,在获取时序位置声学特征时,首先利用第一语种模块获取训练当前混合语种音频的训练第一时序位置声学特征,然后利用第二语种模块获取训练当前混合语种音频的训练第二时序位置声学特征。

当然,训练当前混合语种音频中可能只包括第一语种的音频或者第二语种的音频,也可能同时包括第一语种的音频和第二语种的音频,为了保证语音识别的准确性,不论训练当前混合语种音频中的音频的种类是几种,均分别利用第一语种模块获取训练第一时序位置声学特征,利用第二语种模块获取训练第二时序位置声学特征。

容易理解的是,第一语种模块为适于获取第一语种音频的训练第一时序位置声学特征的模块,第二语种模块为适于获取第二语种音频的训练第二时序位置声学特征的模块。

如果混合语种音频中还包括第三语种,比如法语,那么语音识别模型中还包括第三语种模块,适于获取法语的时序位置声学特征。

因此,训练混合语种音频的语种的种类数量以及后续进行语音识别的混合语种音频的种类数量均与待训练的语音识别模型的语种模块数量相同,并且混合语种音频的语种分别对应各个语种模块适于获取时序位置声学特征的语种。

当然,训练第一时序位置声学特征和训练第二时序位置声学特征的获取步骤可以相同,只不过由于模块不同,所得到的训练第一时序位置声学特征和训练第二时序位置声学特征有所不同。

在一种具体实施方式中,训练时序位置声学特征获取单元100,适于利用待训练的语音识别模型的第一语种模块获取所述训练初始声学特征的训练第一时序位置声学特征,包括:

利用所述语音识别模型的所述第一语种模块对所述训练初始声学特征进行卷积运算,得到第一位置声学特征;

利用待所述语音识别模型的所述第一语种模块获取所述第一位置声学特征的时序信息,得到所述训练第一时序位置声学特征。

得到训练初始声学特征后,利用待训练的语音识别模型的第一语种模块对训练初始声学特征进行卷积运算,获取位置信息。

具体地,可以利用cnn(convolutionalneuralnetworks,卷积神经网络)进行位置等信息的学习,使用移动滑窗在训练初始声学特征上进行局部区域的卷积运算。为了同时兼顾处理速度和准确性的要求,可以使用具有两层卷积运算的卷积神经网络获取第一位置声学特征。当然第一位置声学特征的维度收到卷积神经网络的卷积核、滑动步长等信息的影响。

在一种具体实施方式中,由于带洞二维卷积神经网络具有音频数据性能好,计算速度快的特点,因此可以采用带洞二维卷积神经网络获取第一位置声学特征。

在一种具体实施方式中,可以利用双向长短期记忆人工神经网络(bi-directionallong-shorttermmemory,bilstm)获取时序信息的获取,将得到的第一位置声学特征的输入到bilstm中,bilstm的输出即为包含时序信息的训练第一时序位置声学特征。

具体地,可以采用具有5层运算的bilstm的神经网络,以满足所获取的信息的准确性要求。

在一种具体实施方式中,训练时序位置声学特征获取单元100,适于利用待训练的所述语音识别模型的第二语种模块获取所述训练初始声学特征的训练第二时序位置声学特征,可以包括:

利用所述语音识别模型的所述第二语种模块对所述训练初始声学特征进行卷积运算,得到第二位置声学特征;

利用所述语音识别模型的所述第二语种模块获取所述第二位置声学特征的时序信息,得到所述训练第二时序位置声学特征。

当然,为了保证利用第一语种模块获取的训练第一时序位置声学特征的准确性,需提前获取第一语种模块,可选地,第一语种模块可以通过以下步骤获取:

获取训练第一语种音频的第一语种训练初始声学特征;

利用待训练的所述第一语种模块获取所述第一语种训练初始声学特征的第一语种时序位置声学特征;

获取所述第一语种时序位置声学特征的第一语种预测文本特征;

根据所述第一语种预测文本特征和所述训练第一语种音频的第一语种基准文本特征获取第一语种损失,根据所述第一语种损失调整所述第一语种模块的参数,直至所述第一语种损失满足第一语种损失阈值,得到训练完成的所述第一语种模块。

容易理解的是,用于进行第一语种模块训练的训练第一语种音频中只包括第一语种的音频,并非混合语种的音频。并且,为满足训练要求训练第一语种音频均标注有第一语种基准文本。

得到第一语种训练初始声学特征后,利用待训练的第一语种模块获取第一语种时序位置声学特征。

进行第一语种时序位置声学特征的文本预测,得到第一语种预测文本特征,具体地,可以利用ctc模型获取,ctc(connectionisttemporalclassification)模型是一种适合不知道输入输出是否对齐的情况下使用的算法,以满足本发明实施例的预测文本特征的获取需要。

得到第一语种预测文本特征后,根据第一语种预测文本特征和同一训练第一语种音频的第一语种基准文本特征,获取第一语种损失,为判断第一语种预测文本特征是否满足要求做准备。

当然,第一语种基准文本特征基于第一语种基准文本获取,所使用的模型可以为常用的文本特征获取模型。

得到第一语种损失后,将第一语种损失与第一语种损失阈值进行比较,其中第一语种损失阈值可以根据需要进行设定,如果满足第一语种损失阈值,那么表明第一语种模型已经满足准确性要求,得到训练完成的所述第一语种模块,否则,则表明第一语种模型所获取的第一语种时序位置声学特征和第一语种预测文本特征还不满足准确性的要求,根据所述第一语种损失调整所述第一语种模块的参数,再次进行训练。

从而,通过利用训练第一语种音频对第一语种模块的训练,可以保证第一语种模块获取第一语种时序位置声学特征的准确性,进而保证对于语音识别模型训练的准确性。

容易理解的是,第一语种模块的训练是在语音识别模型训练之前已经完成的。

对应地,在一具体实施方式中,第二语种模块的获取可以与第一语种模块的获取步骤相同,只是所使用的训练音频为第二语种的音频,在此不再赘述。

得到训练第一时序位置声学特征和训练第二时序位置声学特征后,训练当前融合文本特征获取单元110,将二者进行融合,获取训练当前融合声学特征,具体融合的方式有多种,比如:进行当前第一声学特征和当前第二声学特征的相加,实现二者的融合。

在一种具体实施方式中,为了提高所得到的训练当前融合声学特征的准确性,可以包括:

根据所述训练混合语种音频集的第一语种的文本数量、第二语种的文本数量和所述训练混合语种音频集的整体文本数量中的至少两者,获取文本数量比例;

根据所述文本数量比例对所述训练第一时序位置声学特征和所述训练第二时序位置声学特征进行融合,得到训练当前融合声学特征。

由于训练混合语种音频集具有提前标注的基准文本,因此可以根据基准文本获取第一语种的文本数量、第二语种的文本数量和所述训练混合语种音频集的整体文本数量中的至少两者。

得到文本数量比例后,根据文本数量比例进行特征融合,获取训练当前融合声学特征。

具体地,融合声学特征通过以下公式获取:

其中:为训练当前融合声学特征;

为文本数量比例中的第一语种文本数量比例;

为训练第一时序位置声学特征;

为训练第二时序位置声学特征。

这样,利用文本数量比例进行训练第一时序位置声学特征和训练第二时序位置声学特征的融合,可以使得融合过程更符合中英文混合语音识别任务,提高特征融合的合理性和准确性。

得到训练当前融合声学特征后,进一步对训练当前融合文本特征进行文本编码,以获取训练当前融合文本特征。

在一种具体实施方式中,可以利用transformer的encoder模块进行训练当前融合文本特征的获取,以保证所获取的当前融合特征的准确性。

具体地,transformerencoder可以包括6层相同的编码层layer,每层编码层layer均包括两个sub-layer,分别为multi-headself-attentionmechanism(多头自注意力机制)和fullyconnectedfeed-forwardnetwork(全连接前向网络)。其中每个sub-layer都加了residualconnection(残差连接)和normalisation(标准化)。

得到训练当前融合文本特征后,参数调整单元120,同时结合已确定的训练前一混合语种音频的前一基准文本特征,进行当前文本预测,获取第一训练当前预测文本。

具体地,可以利用利用transformer的decoder模块进行第一训练当前预测文本的获取。将经过transformerencoder获取的训练当前融合文本特征和基于前一基准文本获取的前一基准文本特征,输入transformerdecoder进行当前文本预测,得到第一训练当前预测文本。

transformerdecoder模块的基本架构可以与transformerencoder的相同,在此不再赘述。

可以理解的是,由于训练混合语种音频集中包括大量的训练混合语种音频,因此,每当进行一个训练混合语种音频的第一训练当前预测文本特征获取都可以进行一次第一损失的获取,以及模型损失和语音识别损失阈值的比较判断,进而进行参数的调整,而如果每次都执行这一步骤,一方面会造成运算量的增加,降低训练效率,另一方面还会造成训练过程受到各个单个的训练混合语种音频的影响,影响训练效果,为此,可以设定预定数量,当所得到第一训练当前预测文本达到预定数量时,进行后续的操作。

需要说明的是,对于预定数量的判断,除了可以通过是否得到预定数量的第一训练当前预测文本的判断实现,还可以通过是否得到预定数量的第一损失的判断实现。

在一种具体实施方式,为了提高训练效率,可以使得所述预定数量包括所述训练混合语种音频集的全部训练混合语种音频的数量,从而每得到训练混合语种音频集的各个训练混合语种音频的第一训练当前预测文本特征后,进行第一损失的获取、模型损失的获取和参数的调整。

在其他实施方式中,还可以根据需要设定预定数量,比如训练混合语种音频集的全部训练混合语种音频的数量的一半等等。

如果得到预定数量的第一训练当前预测文本,那么将第一训练当前预测文本特征与当前基准文本进行损失获取,得到第一损失。

当然,也可以得到一个第一训练当前预测文本特征后,就进行第一损失的获取,然后在执行预定数量的判断。

如果未得到预定数量的第一训练当前预测文本,那么将所述训练当前混合语种音频后的混合语种音频作为新的训练当前混合语种音频,进一步获取新的第一训练当前预测文本。

得到各个第一损失后,根据各个第一损失获取模型损失,具体地,模型损失可以为各个第一损失的平均值,或者各个第一损失之和等。

得到模型损失后,将模型损失与预定的语音识别损失阈值进行比较,容易理解的是,根据模型损失的获取方式的不同,预定的语音识别损失阈值也会有不同。

如果模型损失满足语音识别损失阈值,则说明语音识别模型的准确度已经满足要求,得到训练完成的所述语音识别模型;否则,语音识别模型的准确度还没有达到要求,需要对语音识别模型进行参数调整,并利用参数调整后的语音识别模型再次进行训练当前混合语种音频和训练前一混合语种音频的确定,以及后续的处理。

可以看出,本发明实施例所提供的语音识别模型训练装置,在对待训练的语音识别模型进行训练时,对训练混合语种音频集的混合语种音频进行语音识别,一方面,既利用适于获取第一语种的音频的训练第一时序位置声学特征的第一语种模块进行训练第一时序位置声学特征的获取,又利用适于获取第二语种的音频的训练第二时序位置声学特征的第二语种模块进行训练第二时序位置声学特征的获取,从而可以同时保证训练当前混合语种音频中第一语种的音频的时序位置声学特征获取的准确性,以及训练当前混合语种音频中第二语种的音频的时序位置声学特征获取的准确性,进一步通过对二者的融合使得得到的训练当前融合声学特征可以兼顾混合语种音频中第一语种的音频和第二语种的音频的准确性;另一方面,同时结合训练当前融合文本特征和前一基准文本特征共同进行训练当前混合语种音频的第一训练当前预测文本特征的预测,同时考虑了训练当前混合语种音频和训练前一混合语种音频的文本信息,提高对训练当前混合语种音频的识别的准确性。从而,本发明实施例所提供的语音识别模型训练方法,利用包括第一语种的音频和第二语种的音频的混合语种音频进行语音识别模型的训练,不仅可以使得训练得到的语音识别模型实现对第一语种的音频和第二语种的音频的混合语种音频的语音识别,而且可以提高训练所得的语音识别模型语音识别的准确性。

在另一种具体实施方式中,为了提高训练效率,本发明实施例还提供一种语音识别模型训练装置,所述参数调整单元120,还适于根据所述训练当前融合文本特征进行当前文本预测,得到第二当前训练预测文本特征;

直至得到所述预定数量的所述第二训练当前预测文本特征,根据所述第二当前训练预测文本特征和所述当前基准文本特征获取第二损失;

根据各个所述第一损失和各个所述第二损失获取模型损失。

不仅根据训练当前融合文本特征和前一基准文本特征获取第一当前训练预测文本特征外,还根据训练当前融合文本特征进行当前文本预测,获取第二当前训练预测文本特征,进一步根据第二当前训练预测文本特征和当前基准文本特征获取第二损失,进而获取模型损失。

具体地,所述参数调整单元120,适于根据各个所述第一损失和各个所述第二损失获取模型损失,包括:

根据对应于同一所述训练当前混合语种音频的所述第一损失和所述第二损失获取当前语音识别损失;

根据各个所述当前语音识别损失获取所述模型损失。

为了获取模型损失,首先根据第一损失和第二损失获取当前语音识别损失,即将当前语音识别损失作为训练当前混合语种音频的损失,使得当前语音识别损失更为全面,更能体现在语音识别模型训练过程中语音识别的准确性的判断,然后进一步根据各个当前语音识别损失获取模型损失,进而提高所得到的模型损失的准确性。

在一种具体实施方式中,所述当前语音识别损失可以通过以下公式获取:

其中:--当前文本单元预测损失;

--第一损失;

--第二损失;

--平衡因子。

可以看出,本发明实施例所提供的语音识别模型训练装置,在模型预测时还利用训练当前融合文本特征进行第二当前训练预测文本特征的预测,并分别基于第一当前训练预测文本特征和第二当前训练预测文本特征获取第一损失和第二损失,利用结合了第一损失和第二损失的各个当前语音识别损失进行模型参数的调整,实现多任务的共同训练,从而可以进一步提高训练所得的语音识别模型进行语音识别的准确性,并提高语音识别的准确性。

为了提高文本语音识别的准确性,本发明实施例还提供一种语音识别装置,请参考图8,图8为本发明实施例所提供的语音识别装置的一框图。

如图中所示,本发明实施例所提供的语音识别装置,包括:

时序位置声学特征获取单元200,适于利用如前述的语音识别模型训练方法训练得到的语音识别模型,确定待语音识别混合语种音频的当前混合语种音频和前一混合语种音频,获取所述当前混合语种音频的初始声学特征,利用所述语音识别模型的第一语种模块获取所述初始声学特征的第一时序位置声学特征,利用所述语音识别模型的第二语种模块获取所述初始声学特征的第二时序位置声学特征;

当前融合文本特征获取单元210,适于对所述第一时序位置声学特征和所述第二时序位置声学特征进行融合,得到当前融合声学特征,并对所述当前融合声学特征进行文本编码,得到当前融合文本特征;

当前预测文本特征获取单元220,适于根据所述当前融合文本特征和所述前一混合语种音频的预测文本特征进行当前文本预测,得到当前预测文本特征。

这样,本发明实施例所提供的语音识别装置,对待识别混合语种音频的当前混合语种音频进行语音识别时,一方面,既利用适于获取第一语种的音频的第一时序位置声学特征的第一语种模块进行第一时序位置声学特征的获取,又利用适于获取第二语种的音频的第二时序位置声学特征的第二语种模块进行第二时序位置声学特征的获取,从而可以同时保证当前混合语种音频中第一语种的音频的时序位置声学特征获取的准确性,以及当前混合语种音频中第二语种的音频的时序位置声学特征获取的准确性,进一步通过对二者的融合使得得到的训练当前融合声学特征可以兼顾混合语种音频中第一语种的音频和第二语种的音频的准确性;另一方面,同时结合当前融合文本特征和前一预测文本特征共同进行当前混合语种音频的当前预测文本特征的预测,同时考虑了当前混合语种音频和前一混合语种音频的信息,提高对当前混合语种音频的识别的准确性,不仅可以实现对第一语种的音频和第二语种的音频的混合语种音频的语音识别,而且可以提高语音识别的准确性。

当然,本发明实施例还提供一种电子设备,本发明实施例提供的电子设备可以通过程序形式装载上述所述的程序模块架构,以实现本发明实施例提供的语音识别模型训练方法或语音识别方法;该硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或者服务器设备。

可选的,图9示出了本发明实施例提供的电子设备一种可选硬件设备架构,可以包括:至少一个存储器3和至少一个处理器1;所述存储器存储有程序,所述处理器调用所述程序,以执行前述的语音识别模型训练方法或语音识别方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设备;处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现,存储器3可以存储程序,处理器1可调用所述程序,以执行本发明上述实施例提供的语音识别模型训练方法。或语音识别方法

本发明实施例中,电子设备可以是能够进行语音识别模型训练或语音识别的平板电脑、笔记本电脑等电子设备。

在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;显然,图9所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;

可选的,通信接口2可以为通信模块的接口,如gsm模块的接口;

处理器1可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

需要说明的是,上述的电子设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上所述语音识别模型训练方法或语音识别方法。

本发明实施例所提供的存储介质所存储的计算机可执行指令,在对待训练的语音识别模型进行训练时,对训练混合语种音频集的混合语种音频进行语音识别,一方面,既利用适于获取第一语种的音频的训练第一时序位置声学特征的第一语种模块进行训练第一时序位置声学特征的获取,又利用适于获取第二语种的音频的训练第二时序位置声学特征的第二语种模块进行训练第二时序位置声学特征的获取,从而可以同时保证训练当前混合语种音频中第一语种的音频的时序位置声学特征获取的准确性,以及训练当前混合语种音频中第二语种的音频的时序位置声学特征获取的准确性,进一步通过对二者的融合使得得到的训练当前融合声学特征可以兼顾混合语种音频中第一语种的音频和第二语种的音频的准确性;另一方面,同时结合训练当前融合文本特征和前一基准文本特征共同进行训练当前混合语种音频的第一训练当前预测文本特征的预测,同时考虑了训练当前混合语种音频和训练前一混合语种音频的文本信息,提高对训练当前混合语种音频的识别的准确性。从而,本发明实施例所提供的语音识别模型训练方法,利用包括第一语种的音频和第二语种的音频的混合语种音频进行语音识别模型的训练,不仅可以使得训练得到的语音识别模型实现对第一语种的音频和第二语种的音频的混合语种音频的语音识别,而且可以提高训练所得的语音识别模型语音识别的准确性。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理器件(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种变动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips