一种目标声学模型获取方法及装置与流程

2021-01-28 17:01:12|

307|

起点商标网

本发明涉及语音识别领域，特别是涉及一种目标声学模型获取方法及装置。

背景技术：

语音识别(automaticspeechrecognition，asr)是一项研究如何将人类说话的声音识别转换为文本的技术，其广泛应用于语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等服务中。

为了实现语音识别，经常需要获取声学模型。因此，亟需一种获取声学模型的方法。

技术实现要素：

本发明实施例提供一种目标声学模型获取方法及装置，以解决现有技术中语音识别准确率低的问题。

为了解决上述问题，本发明实施例是这样实现的：

第一方面，本发明实施例公开了一种目标声学模型获取方法，包括：

从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；所述发音词典中至少包括预设词语及预设词语的基础读音；

将所述目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；

根据所述目标发音词典，训练预设的声学模型，得到目标声学模型。

第二方面，本发明实施例公开了一种目标声学模型获取装置，包括：

筛选模块，用于从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；所述发音词典中至少包括预设词语及预设词语的基础读音；

添加模块，用于将所述目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；

训练模块，用于根据所述目标发音词典，训练预设的声学模型，得到目标声学模型。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述的声学模型获取的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现第一方面所述的声学模型获取的步骤。

在本发明实施例中，从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；再将目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；然后根据目标发音词典，训练预设的声学模型，得到目标声学模型。本发明实施例能够对发音词典中词语之间搭配时的变调进行处理，将词间变调后的词语读音补充到发音词典中，使得发音词典中词语的读音更加全面、更贴合用户的实际发音；之后再利用该优化后的发音词典训练声学模型，能够提高得到的目标声学模型的语音识别的准确度。

附图说明

图1示出了本发明的一种目标声学模型获取方法的步骤流程图；

图2示出了本发明的另一种目标声学模型获取方法的步骤流程图；

图3示出了本发明的一种目标声学模型获取装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明的一种目标声学模型获取方法的步骤流程图，该方法具体可以包括：

步骤101、从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；所述发音词典中至少包括预设词语及预设词语的基础读音。

本发明实施例中，预设的发音词典(lexicon)可以是词语与音素之间的对应关系，该音素可以用于表示其对应的词语的读音，具体可以是拼音或音标。该词语可以是由一个字或多个字组成的词语。例如可以是声母和韵母与字或词之间的对应关系，也可以是英文音标与单词之间的映射关系。

基础读音可以是指词语的原始读音和/或词内变调后的读音。发音词典中保存有多个预设词语及其基础读音，例如发音词典中存储有词语“总理”及其对应的基础读音“zong2li3”、词语“枸杞”及其对应的基础读音“gou2qi3”。基础读音中的数字2表示当前音节如“zong”、“gou”的音调为阳平(二声)，基础读音中的数字3标识当前音节如“li”、“qi”的音调为上声(三声)。

变调可以是指在实际人的发音中，音节在连续发出时会发生音调变化现象，即一些音节的调值会受到后面的音调声调的影响而发生改变，例如，“总理”的原始读音为“zong3li3”，在实际人的发音中，一般会发生音调变化，即将“总理”读作“zong2li3”，这是词语内的变调。需要注意的是，发音词典中对于词内变调通常会直接标注变调后的读音，本发明实施例中也是将预设发音词典中标注的该词内变调后的读音作为预设词语的基础读音。

进一步地，变调的情形不仅会发生在单独的一个词语内，有时也会和词语后搭配的连接词有关，例如，在“总理好”这一词语中，“总理”的读音变为“zong2li2”，即“总理”的“理”字在基础读音中为上声(三声)，在与“好”搭配组成“总理好”时，实际发音时末尾字符的音调变为阳平(二声)，此时的变调为词语与其他特定词语搭配时发生的词间变调，同样的还有“展览馆”、“选举法”、“跑马场”、“表演奖”等。

目标预设词语可以是预设发音词典中与特定词语搭配时发生变调的预设词语的集合。具体在筛选时，可以通过人工筛选，即通过人工逐个判断筛选，也可以利用编程语言筛选出目标预设词语，本发明实施例对于具体的筛选方式不作限定。

步骤102、将所述目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典。

本发明实施例中，所述目标预设词语与特定词语搭配时的读音可以是指词语搭配时发生变调后的读音。例如，“总理”发生变调后的读音“zong2li2”、“枸杞”发生变调后的读音“gou2qi2”。将该变调后的读音添加至预设发音词典中，这样，目标发音词典中既包括了预设词语的基础读音，也包括了预设词语发生词间变调后的读音，这样，实现了对预设发音词典的标音扩展；在后续训练声学模型时，使用的标注声调能够与实际发音相匹配，能够提高声学模型的准确率，进而可以提高语音识别的准确度。

步骤103、根据所述目标发音词典，训练预设的声学模型，得到目标声学模型。

本发明实施例中，声学模型(acousticmodel，am)可以用于接收语音信号输出该语音信号对应的音素信息，能够用于表示声学、语音学、环境的变量、说话人性别、口音等的差异。

具体的，本步骤中在训练声学模型时，可以先获取待识别的预设文本语料以及采集到的预设文本语料对应的训练音频，之后根据训练音频与目标发音词典训练单音素模型，该单音素模型为不使用当前音素的之前或之后的上下文信息，仅利用单个词语与音素训练得到的模型。在具体的训练过程中，可以以混合高斯模型-隐马尔科夫模型(gmm-hmm)为基本框架，将训练音频根据声学模型进行对齐，通过将训练音频和文字对齐，可以使用额外的训练算法提升和精细化参数模型。之后在单因素模型的基础上训练三音素模型，该三音素模型使用上下文的前后音素，能够展现音素的变化。再根据声学模型重新对齐训练音频以及重新训练三音素模型，即使用训练和对齐的循环对声学模型进行优化，该过程也称之为维特比(viterbi)训练。这样，基于包含预设词语的基础读音与词间变调后读音的目标发音词典，对声学模型进行训练，能够提高语音信号与音素对应的准确度，进而能够提高语音识别的准确度。

当然，也可以采用其他方式例如基于人工神经网络识别法(ann)等根据发音词典对声学模型进行训练，本发明实施例对此不作限定。

综上所述，本发明实施例提供的一种目标声学模型获取方法，从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；再将目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；然后根据目标发音词典，训练预设的声学模型，得到目标声学模型。本发明实施例能够对发音词典中词语之间搭配时的变调进行处理，将词间变调后的词语读音补充到发音词典中，使得发音词典中预设词语的读音更加全面、更贴合用户的实际发音；之后再利用该优化后的发音词典训练声学模型，能够提高得到的目标声学模型的语音识别的准确度。

参照图2，示出了本发明另一种目标声学模型获取方法的步骤流程图，该方法具体可以包括：

步骤201、从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；所述发音词典中至少包括预设词语及预设词语的基础读音。

具体的，本步骤的实现方式可以参照前述步骤101，本发明实施例在此不做赘述。

具体的，本步骤可以通过以下子步骤2011～子步骤2014实现：

子步骤2011：确定所述预设词语的末尾字符的原始音调。

本步骤中，原始音调可以是预设发音词典中预设词语的基础读音中包含的末尾字符的音调。例如，预设发音词典中存储的词语“总理”，对应的基础读音为“zong2li3”，该预设词语末尾字符为“理”，原始音调为上声。

需要注意的是，本发明实施例中的基础读音可以是词语的原始读音和/或词内变调后的读音，词语的原始读音中末尾字符的音调可以直接作为末尾字符的原始音调；而词内变调时末尾字符的音调一般也不会发生变化，本发明实施例中则直接将预设发音词典中预设词语的基础读音中末尾字符的音调作为原始音调。

子步骤2012：将末尾字符的原始音调为第一预设音调的预设词语，确定为第一词语。

本步骤中，第一预设音调可以是与其他词语搭配后可能发生变调的音调，示例的，该第一预设音调可以是上声(三声)。当然，如果在末尾字符的原始音调为阴平(一声)、阳平(二声)、去声(四声)时发生变调，也可以将上述三种音调分别作为第一预设音调，本发明实施例对此不作限定。

本步骤中，可以预先确定出发音词典中所有词语的末尾字符的原始音调，然后将末尾字符的原始音调为第一预设音调的词语，存入预设集合；相应地，可以直接从该词语集合中获取预设词语。这样，本发明实施例可以基于词语末尾字符的原始音调对预设词语进行归类，方便后续的对比查找。

子步骤2013：确定所述第一词语与其他词语搭配时的读音，得到所述第一词语的对比读音。

本步骤中，对比读音可以是第一词语与其他词语搭配时的读音，当第一词语与其他词语搭配时不发生变调，该对比读音与基础读音是相同的；当第一词语与其他词语搭配时发生变调，该对比读音与基础读音不相同。

可选的，所述其他词语为首位字符的原始音调为第二预设音调的词语；所述第一预设音调及所述第二预设音调为上声。

本步骤中，其他词语可以是预设发音词典中包含的词语，也可以是其他的训练文本语料，本发明实施例对此不作限定。

具体的，末尾字符的原始音调为上声的预设词语与上声词语搭配时，有可能会发生词间变调，例如，“总理”的基础读音为“zong2li3”，在“总理好”这一词语中，“总理”的读音变为“zong2li2”，即“总理”这一预设词语末尾字符的“理”字的原始读音为上声，在与上声的“好”搭配组成“总理好”时，实际发音时末尾字符的音调变为阳平(二声)；同样的，“枸杞”的基础读音为“gou2qi3”，在“枸杞子”这一词语中，“枸杞”的读音变为“gou2qi2”，即“枸杞”这一预设词语末尾字符的“杞”字的原始读音为上声，在与上声的“子”搭配组成“总理好”时，实际发音时末尾字符的音调变为阳平。

本步骤中通过确定出末尾字符的原始音调为上声的第一词语，并且与首位字符的原始音调为上声的其他词语进行搭配，缩小了对于发生词间变调的目标预设词语的查找范围，能够提高对于词间变调的目标预设词语的查找效率，节省查找时间。

子步骤2014：若所述第一词语的末尾字符的原始音调与目标音调不匹配，则将所述第一词语确定为所述目标预设词语；所述目标音调为所述第一词语的末尾字符在所述对比读音中的音调。

本步骤中，目标音调与原始音调不匹配时，此时可以确定第一词语在于其他词语搭配时发生了词间变调，该第一词语即可以确定为目标预设词语，例如前述实例中的“总理”、“枸杞”等。

步骤202、将所述目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典。

本步骤具体可以通过以下子步骤(1)组成的实现方式一或者子步骤(2)～(3)组成的实现方式(二)实现：

实现方式一：

子步骤(1)：获取所述目标预设词语对应的第一词语的对比读音；将所述对比读音添加至所述预设发音词典。

本步骤中，对比读音为目标预设词语与其他词语搭配后的读音。例如，发音词典中存储的“总理”的基础读音为“zong2li3”，该目标预设词语在“总理好”中的对比读音为“zong2li2”，此时可以将“总理”与“zong2li2”的映射关系增加到预设发音词典中，实现发音词典的标音扩展。

本步骤中，通过将目标预设词语的对比读音添加至预设发音词典中，扩展了预设发音词典中的读音，使得发音词典中的读音更加全面，更能贴合用户的实际发音，进而可以在后续的语音识别过程中提高准确率。

实现方式二：

子步骤(2)：获取所述目标预设词语的基础读音。

本步骤中，确定出目标预设词语后，在预设发音词典中获取目标预设词语的基础读音。例如，对于“展览”这一目标预设词语，获取其基础读音为“zhan2lan3”。

子步骤(3)：对所述目标预设词语的末尾字符在所述基础读音中对应的音调进行修改，得到目标读音；将所述目标读音添加到所述预设发音词典中；所述目标读音与所述目标预设词语对应的第一词语的对比读音相同。

本步骤中，确定出目标预设词语的基础读音后，将基础读音中末尾字符的音调进行修改，之后将该修改后得到的目标读音添加至预设发音词典中。例如，目标预设词语“展览”的基础读音为“zhan2lan3”，该目标预设词语与“馆”字搭配时会发生词间变调，即实际发音时目标预设词语“展览”在“展览馆”中的对比读音为“zhan2lan2”，本步骤中可以将基础读音中末尾字符的音调进行修改，即将“览”字的读音从上声修改为阳平，得到该目标预设词语“展览”的目标读音为“zhan2lan2”。这样，通过在预设发音词典中预设词语与基础读音的映射关系这一基础上修改音调，能够减少输入数据的处理量，更加灵活便捷。

步骤203、根据所述目标发音词典，训练预设的声学模型，得到目标声学模型。

具体的，本步骤的实现方式可以参照前述步骤103，本发明实施例在此不做赘述。

步骤204、将所述目标发音词典、所述目标声学模型以及预设的语言模型按照预设方式进行融合，得到解码器。

本步骤中，解码器可以用于通过目标声学模型、目标发音词典、语言模型对提取特征后的音频数据进行文字输出。预设的语言模型(languagemodel，lm)可以是通过对大量文本信息进行训练，得到的单个字或者词相互关联的概率，该语言模型可以用于表示词与词在排列结构上的内在联系。

具体的，解码器可以通过语音识别建网的方式获得，即hclg建网，也就是将语言模型(g)，词汇表(l)，上下文相关信息(c)，隐马尔可夫模型(h)四个部分分别构建为标准的有限状态转换器，再通过标准的有限状态转换器操作将它们组合起来，构建一个从上下文相关音素子状态到词的解码器。解码器对于输入的语音信号，在由语句或者单词序列构成的空间当中，可以按照一定的优化准则，并且根据目标声学模型、语言模型及目标发音词典，生成一个用于搜索的状态空间，在该状态空间中搜索到最优的状态序列，这样便实现了寻找能够以最大概率输出该语音信号的句子或者单词序列。

步骤205、将待识别的语音信号的声学特征输入所述解码器。

本步骤中，在使用解码器对语音信号进行语音识别之前，需要首先对语音信号进行特征提取。语音信号中通常包括非常丰富的特征参数，不同的特征向量表征着不同的声学意义。本步骤中待识别语音信号的声学特征的提取过程可以是从语音信号中选择有效的音频表征的过程。

具体的，在对语音信号进行特征提取时通常使用梅尔频率倒谱系数(mfcc)特征。该提取过程具体可以包括：首先对语音信号进行快速傅里叶变换(fft)，再进行梅尔频率尺度转换，然后配置三角形滤波器组并计算每一个三角滤波器对信号幅度谱滤波后的输出，最后对所有滤波器输出作对数运算，再进一步做离散余弦变换(dct)，即可得到语音信号的mfcc声学特征。

当然，本步骤中声学特征的提取过程也可以采用其他方式，本发明实施例对此不作限定。

本步骤中通过先对语音信号进行特征提取后再将待识别语音信号的声学特征输入解码器，可以减少语音信号中的噪声、静音片段等多余影响因素的干扰，提高语音信号的质量，进而可以提高语音信号识别的准确度。

步骤206、基于所述解码器，对所述声学特征进行语音识别，输出所述语音信号对应的文本。

本步骤中，将声学特征输入解码器后，之后解码器利用目标声学模型、语言模型以及目标发音词典组成的搜索状态空间从每一帧声学特征的特征向量中确定出当前的音素，再由多个音素组成单词，之后再由单词组成文本语句。这样，语音信号通过语音识别，最终转化为语音信号对应的文本。

综上所述，本发明实施例提供的一种目标声学模型获取方法，从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；再将目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；然后根据目标发音词典，训练预设的声学模型，得到目标声学模型；之后再利用目标发音词典、目标声学模型以及预设的语言模型进行语音识别建网，得到解码器；然后可以将待识别的语音信号的声学特征输入解码器，解码器经过语音识别后输出语音信号对应的文本。本发明实施例能够对发音词典中词语之间搭配时的变调进行处理，将词间变调后的词语读音补充到发音词典中，使得发音词典中预设词语的读音更加全面、更贴合用户的实际发音；之后再利用该优化后的发音词典训练声学模型，并根据目标声学模型以及扩展后的目标发音词典进行语音识别建网，能够解决语音识别建网过程中对词间变调的处理，提高语音识别的准确度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种目标声学模型获取装置的结构框图，具体，该装置30可以包括如下模块：

筛选模块301，用于从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；所述发音词典中至少包括预设词语及预设词语的基础读音。

添加模块302，用于将所述目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典。

训练模块303，用于根据所述目标发音词典，训练预设的声学模型，得到目标声学模型。

可选的，所述筛选模块301，具体用于：

确定所述预设词语的末尾字符的原始音调；将末尾字符的原始音调为第一预设音调的预设词语，确定为第一词语；确定所述第一词语与其他词语搭配时的读音，得到所述第一词语的对比读音；若所述第一词语的末尾字符的原始音调与目标音调不匹配，则将所述第一词语确定为所述目标预设词语；所述目标音调为所述第一词语的末尾字符在所述对比读音中的音调。

可选的，所述其他词语为首位字符的原始音调为第二预设音调的词语；所述第一预设音调及所述第二预设音调为上声。

可选的，所述添加模块302，用于：获取所述目标预设词语对应的第一词语的对比读音；将所述对比读音添加至所述预设发音词典；或者，获取所述目标预设词语的基础读音；对所述目标预设词语的末尾字符在所述基础读音中对应的音调进行修改，得到目标读音；将所述目标读音添加到所述预设发音词典中；所述目标读音与所述目标预设词语对应的第一词语的对比读音相同。

可选的，所述装置还包括：

融合模块，用于将所述目标发音词典、所述目标声学模型以及预设的语言模型按照预设方式进行融合，得到解码器；输入模块，用于将待识别的语音信号的声学特征输入所述解码器；输出模块，用于基于所述解码器，对所述声学特征进行语音识别，输出所述语音信号对应的文本。

综上所述，本发明实施例提供的装置，可以从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；再将目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；然后根据目标发音词典，训练预设的声学模型，得到目标声学模型。本发明实施例能够对发音词典中词语之间搭配时的变调进行处理，将词间变调后的词语读音补充到发音词典中，使得发音词典中预设词语的读音更加全面、更贴合用户的实际发音；之后再利用该优化后的发音词典训练声学模型，能够提高得到的目标声学模型的语音识别的准确度。

可选的，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述声学模型获取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述声学模型获取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。