语音识别模型训练方法、系统、移动终端及存储介质与流程

2021-01-28 15:01:58|

264|

起点商标网

本发明语音识别技术领域，尤其涉及一种语音识别模型训练方法、系统、移动终端及存储介质。

背景技术：

语音识别研究已有几十年的历史，语音识别技术主要包括声学模型建模、语言模型建模、发音词典构建以及解码四个部分，每一部分都可以成为一个单独的研究方向，并且相对于图像和文本，语音数据的采集和标注难度也大大提升，因此搭建一个完整的语音识别模型训练系统是个耗时极长、难度极高的工作，这极大阻碍了语音识别技术的发展。

现有语音识别模型训练过程中，根据输入的样本语料和语料文本对应进行语言模型和声学模型的训练，样本语料和语料文本的大小影响着语音识别模型的训练效果，但针对小语种的语音识别模型训练过程中，样本语料和语料文本的数据较少，进而导致训练后的语音识别模型的识别效率低下。

技术实现要素：

本发明实施例的目的在于提供一种语音识别模型训练方法、系统、移动终端及存储介质，旨在解决现有的小语种语音识别模型训练，由于样本语料和语料文本的数据较少，所导致的语音识别模型训练效果差的问题。

本发明实施例是这样实现的，一种语音识别模型训练方法，所述方法包括：

获取样本语料和所述样本语料对应的语料文本，并对所述样本语料和所述语料文本进行语料扩增，得到扩增语料和扩增文本；

根据所述语料文本对语音识别模型中的语言模型进行训练，并根据指定音素对所述扩增语料进行语句对齐，得到语句对齐位置；

获取所述语句对齐位置对应音频的共振峰起始位置，并将所述扩增语料中音频在所述共振峰起始位置的数据进行删除；

对完成数据删除后的所述扩增语料进行特征提取，得到声学特征，并根据所述声学特征对所述语音识别模型中的声学模型进行训练。

更进一步的，所述对所述样本语料和所述语料文本进行语料扩增，得到扩增语料和扩增文本的步骤包括：

提取所述样本语料中的单字发音，并提取所述语料文本中的单字文本；

将所述单字发音中的同音字音频映射为特定字音频，得到所述扩增语料；

根据所述扩增语料将所述单字文本中的同音字文本映射为特定字文本，得到所述扩增文本，并对所述扩增语料和所述扩增文本进行数据对应。

更进一步的，所述将所述单字发音中的同音字音频映射为特定字音频，得到所述扩增语料的步骤包括：

根据预设同音字列表中的同音字音频与所述单字发音中的发音音频进行发音匹配；

若所述发音音频与所述预设同音字列表中的任一所述同音字音频相匹配，则将所述发音音频设置为所述同音字音频；

获取匹配到的所述同音字音频的发音编号，并根据所述发音编号对所述同音字音频进行映射标记，以得到所述扩增语料。

更进一步的，所述根据所述扩增语料将所述单字文本中的同音字文本映射为特定字文本，得到所述扩增文本的步骤包括：

查询所述同音字音频在所述单字文本中对应的文本，并将查询到的文本设置为所述同音字文本；

根据所述发音编号查询所述特定字文本，并将所述特定字文本对所述发音编号对应的所述同音字文本进行替换，以得到所述扩增文本。

更进一步的，所述根据指定音素对所述扩增语料进行语句对齐，得到语句对齐位置的步骤包括：

根据所述指定音素分别对所述扩增语料中的语料进行音素识别；

根据音素识别结果获取所述指定音素在对应语料中的起始位置和结束位置，以得到所述语句对齐位置。

更进一步的，获取所述语句对齐位置对应音频的共振峰起始位置所采用的方法包括谱包络提取法、倒谱法、lpc法或求根法。

本发明实施例的另一目的在于提供一种语音识别模型训练系统，所述系统包括：

语料扩增模块，用于获取样本语料和所述样本语料对应的语料文本，并对所述样本语料和所述语料文本进行语料扩增，得到扩增语料和扩增文本；

语言模型训练模块，用于根据所述语料文本对语音识别模型中的语言模型进行训练，并根据指定音素对所述扩增语料进行语句对齐，得到语句对齐位置；

共振峰获取模块，用于获取所述语句对齐位置对应音频的共振峰起始位置，并将所述扩增语料中音频在所述共振峰起始位置的数据进行删除；

声学模型训练模块，用于对完成数据删除后的所述扩增语料进行特征提取，得到声学特征，并根据所述声学特征对所述语音识别模型中的声学模型进行训练。

更进一步的，所述语料扩增模块还用于：

提取所述样本语料中的单字发音，并提取所述语料文本中的单字文本；

将所述单字发音中的同音字音频映射为特定字音频，得到所述扩增语料；

根据所述扩增语料将所述单字文本中的同音字文本映射为特定字文本，得到所述扩增文本，并对所述扩增语料和所述扩增文本进行数据对应。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的语音识别模型训练方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的语音识别模型训练方法的步骤。

本发明实施例，通过对样本语料和语料文本进行语料扩增的设计，有效的增加了样本语料和语料文本的数据，进而提高了语音识别模型的训练效果，基于较少的训练数据也可以达到较好的模型训练效果，通过将扩增语料中音频在共振峰起始位置的数据进行删除的设计，有效的避免了不同字之间过渡特征对语音识别模型训练的影响，进一步提高了语音识别模型的训练效果。

附图说明

图1是本发明第一实施例提供的语音分离方法的流程图；

图2是本发明第二实施例提供的语音分离方法的流程图；

图3是本发明第三实施例提供的语音分离方法的流程图；

图4是本发明第四实施例提供的语音分离系统的结构示意图；

图5是本发明第五实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的语音识别模型训练方法的流程图，包括步骤：

步骤s10，获取样本语料和所述样本语料对应的语料文本，并对所述样本语料和所述语料文本进行语料扩增，得到扩增语料和扩增文本；

其中，该样本语料为语音识别模型待识别的语种，例如粤语或闽南语等语种，该语料文本中采用普通话的表达方式，且该样本语料与语料文本之间采用一一对应的关系进行存储；

进一步的，该样本语料中包含所有的元音、辅音和混合音，该步骤中，采用同音字映射的方式进行该样本语料和语料文本的语料扩增操作，即将该样本语料中的同音字音频映射为特定字音频，以达到对样本语料扩增的效果，并将该语料文本中的同音字文本映射为特定字文本，以达到对语料文本扩增的效果；

该步骤中，通过并样本语料和语料文本进行语料扩增得到扩增语料和扩增文本的设计，有效的提高了语音识别模型的训练数据，防止了小语种的语音识别模型由于训练数据较少所导致的训练效果差的现象，使得训练后的语音识别模型识别准确性高。

步骤s20，根据所述语料文本对语音识别模型中的语言模型进行训练，并根据指定音素对所述扩增语料进行语句对齐，得到语句对齐位置；

其中，该指定音素可以根据需求进行设置，例如，该指定音素可以为任一的辅音，通过根据指定音素对扩增语料进行语句对齐的设计，以获取该指定音素在扩增语料中音频的起始位置和结束位置，并将该起始位置和结束位置之间形成的范围设置为该语句对齐位置；

具体的，所述根据所述语料文本对语音识别模型中的语言模型进行训练的步骤包括：对该语料文本进行预处理，并对预处理后的语料文本进行分词，得到分词文本；对分词文本进行词汇统计，并根据词汇统计结果去除低频词汇；根据分词文本构建词典，计算分词文本中的3gram词频，并根据词典和3gram词频训练语言模型；

其中，该预处理用于去除该语料文本中的标点符号、将英文转换为小写、对数字归一化，通过对分词文本进行词汇统计的设计，以计算每个词汇在该分词文本中的词频，若任一词汇对应的词频小于词频阈值，则将该词频对应的词汇设置为低频词汇。

步骤s30，获取所述语句对齐位置对应音频的共振峰起始位置，并将所述扩增语料中音频在所述共振峰起始位置的数据进行删除；

其中，共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道(共振腔)的物理特征，获取所述语句对齐位置对应音频的共振峰起始位置所采用的方法包括谱包络提取法、倒谱法、lpc法或求根法；

具体的，该步骤中，通过倒谱滤波器对该语句对齐位置对应的音频进行倒谱分离，对分离出来的倒谱做逆傅里叶变换，并基于逆傅里叶变换的变换结果以获取该共振峰起始位置，该步骤中，通过将扩增语料中音频在共振峰起始位置的数据进行删除的设计，以有效的避免了不同字之间过渡特征对语音识别模型训练的影响，提高了语音识别模型的训练效果。

步骤s40，对完成数据删除后的所述扩增语料进行特征提取，得到声学特征，并根据所述声学特征对所述语音识别模型中的声学模型进行训练；

其中，提取该扩增语料中的mfcc特征和ivector特征，并将mfcc特征和ivector特征进行特征合并，以得到该声学特征；

具体的，该步骤中，根据该声学特征对声学模型进行单音素训练，对声学特征进行差分处理，以得到差分特征，并根据差分特征对声学模型进行三音素训练，得到三音素模型，根据三音素模型对音素进行对齐，对声学特征进行向量变换，得到特征向量，并根据特征向量训练声学模型。

本实施例，通过对样本语料和语料文本进行语料扩增的设计，有效的增加了样本语料和语料文本的数据，进而提高了语音识别模型的训练效果，基于较少的训练数据也可以达到较好的模型训练效果，通过将扩增语料中音频在共振峰起始位置的数据进行删除的设计，有效的避免了不同字之间过渡特征对语音识别模型训练的影响，进一步提高了语音识别模型的训练效果。

实施例二

请参阅图2，是本申请第二实施例提供的语音识别模型训练方法的流程图，该第二实施例用于对第一实施例中步骤s10进行细化，以细化描述如何对样本语料和语料文本进行语料扩增，得到扩增语料和扩增文本的步骤，包括步骤：

步骤s11，提取所述样本语料中的单字发音，并提取所述语料文本中的单字文本；

其中，该单字发音是只有一个发音的音频，该单字文本是只有一个发音的文字，例如，该单字发音为hao、lai或lao等，该单字文本为号、皓、镐、浩、灏、耗、秏、哠、暤、藃、颢；

步骤s12，将所述单字发音中的同音字音频映射为特定字音频，得到所述扩增语料；

具体的，该步骤中，所述将所述单字发音中的同音字音频映射为特定字音频，得到所述扩增语料的步骤包括：

根据预设同音字列表中的同音字音频与所述单字发音中的发音音频进行发音匹配；

若所述发音音频与所述预设同音字列表中的任一所述同音字音频相匹配，则将所述发音音频设置为所述同音字音频；

获取匹配到的所述同音字音频的发音编号，并根据所述发音编号对所述同音字音频进行映射标记，以得到所述扩增语料；

例如，将郝的同音字，号、皓、镐、浩、灏、耗、秏、哠、暤、藃和颢对应的音频均映射为郝发音对应的同音字音频；

步骤s13，根据所述扩增语料将所述单字文本中的同音字文本映射为特定字文本，得到所述扩增文本，并对所述扩增语料和所述扩增文本进行数据对应；

具体的，该步骤中，所述根据所述扩增语料将所述单字文本中的同音字文本映射为特定字文本，得到所述扩增文本的步骤包括：

查询所述同音字音频在所述单字文本中对应的文本，并将查询到的文本设置为所述同音字文本；

根据所述发音编号查询所述特定字文本，并将所述特定字文本对所述发音编号对应的所述同音字文本进行替换，以得到所述所述扩增文本；

例如，将单字文本为号、皓、镐、浩、灏、耗、秏、哠、暤、藃、颢均映射到对应的同音字文本郝。

本实施例，通过对样本语料和语料文本进行语料扩增的设计，有效的增加了样本语料和语料文本的数据，进而提高了语音识别模型的训练效果，基于较少的训练数据也可以达到较好的模型训练效果。

实施例三

请参阅图3，是本申请第三实施例提供的语音识别模型训练方法的流程图，该第三实施例用于对第一实施例中步骤s20进行细化，以细化描述如何根据指定音素对扩增语料进行语句对齐，得到语句对齐位置的步骤，包括步骤：

步骤s21，根据所述指定音素分别对所述扩增语料中的语料进行音素识别；

其中，通过根据指定音素分别对扩增语料中的语料进行音素识别的设计，以查询扩增语料中不同语料内指定音素对应的音素音频，并对查询到的音素音频进行提取，且该指定音素可以为任一的辅音；

步骤s22，根据音素识别结果获取所述指定音素在对应语料中的起始位置和结束位置，以得到所述语句对齐位置；

其中，分别获取每个音素音频的开始时间和停止时间，以得到该起始位置和结束位置，并根据该起始位置和结束位置对该音素音频进行提取，以得到该语句对齐位置。

本实施例中，通过获取该语句对齐位置的设计，有效的方便了音频共振峰起始位置的获取，进而提高了语音识别模型训练的训练效率。

实施例四

请参阅图4，是本发明第四实施例提供的语音识别模型训练系统100的结构示意图，包括：语料扩增模块10、语言模型训练模块11、共振峰获取模块12和声学模型训练模块13，其中：

语料扩增模块10，用于获取样本语料和所述样本语料对应的语料文本，并对所述样本语料和所述语料文本进行语料扩增，得到扩增语料和扩增文本。

其中，所述语料扩增模块10还用于：提取所述样本语料中的单字发音，并提取所述语料文本中的单字文本；

将所述单字发音中的同音字音频映射为特定字音频，得到所述扩增语料；

根据所述扩增语料将所述单字文本中的同音字文本映射为特定字文本，得到所述扩增文本，并对所述扩增语料和所述扩增文本进行数据对应。

优选的，所述语料扩增模块10还用于：根据预设同音字列表中的同音字音频与所述单字发音中的发音音频进行发音匹配；

若所述发音音频与所述预设同音字列表中的任一所述同音字音频相匹配，则将所述发音音频设置为所述同音字音频；

获取匹配到的所述同音字音频的发音编号，并根据所述发音编号对所述同音字音频进行映射标记，以得到所述扩增语料。

进一步的，所述语料扩增模块10还用于：查询所述同音字音频在所述单字文本中对应的文本，并将查询到的文本设置为所述同音字文本；

根据所述发音编号查询所述特定字文本，并将所述特定字文本对所述发音编号对应的所述同音字文本进行替换，以得到所述所述扩增文本。

语言模型训练模块11，用于根据所述语料文本对语音识别模型中的语言模型进行训练，并根据指定音素对所述扩增语料进行语句对齐，得到语句对齐位置。

其中，所述语言模型训练模块11还用于：根据所述指定音素分别对所述扩增语料中的语料进行音素识别；

根据音素识别结果获取所述指定音素在对应语料中的起始位置和结束位置，以得到所述语句对齐位置。

共振峰获取模块12，用于获取所述语句对齐位置对应音频的共振峰起始位置，并将所述扩增语料中音频在所述共振峰起始位置的数据进行删除，其中，获取所述语句对齐位置对应音频的共振峰起始位置所采用的方法包括谱包络提取法、倒谱法、lpc法或求根法。

声学模型训练模块13，用于对完成数据删除后的所述扩增语料进行特征提取，得到声学特征，并根据所述声学特征对所述语音识别模型中的声学模型进行训练。

实施例五

请参阅图5，是本发明第五实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音识别模型训练方法，该移动终端101可以为机器人。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

获取样本语料和所述样本语料对应的语料文本，并对所述样本语料和所述语料文本进行语料扩增，得到扩增语料和扩增文本；

根据所述语料文本对语音识别模型中的语言模型进行训练，并根据指定音素对所述扩增语料进行语句对齐，得到语句对齐位置；

获取所述语句对齐位置对应音频的共振峰起始位置，并将所述扩增语料中音频在所述共振峰起始位置的数据进行删除；

对完成数据删除后的所述扩增语料进行特征提取，得到声学特征，并根据所述声学特征对所述语音识别模型中的声学模型进行训练。所述的存储介质，如：rom/ram、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图4中示出的组成结构并不构成对本发明的语音识别模型训练系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-3中的语音识别模型训练方法亦采用图4中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述当前语音识别模型训练系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述当前语音识别模型训练系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。