语音评测及语音识别方法、装置、设备及存储介质与流程

2021-01-28 13:01:42|

243|

起点商标网

本公开涉及语音交互领域，特别是涉及一种语音评测及语音识别方法、装置、设备及存储介质。

背景技术：

教育作为永不过时的话题，越来越受到家长的重视，针对儿童的各种教育机构也层出不穷。一般来说，线下教育成本较高，需要家长接送孩子上课，占用家长很多时间，由于交通、天气等原因还会给家长带来诸多不便，同时线下教育的价格也较高。因此，线上教育势必会取代线下教育，成为一种主流的教育方式。

随着素质教育的全面推进，儿童的语言教育越来越被重视。如何对儿童的发音进行评测，是实现在线语言教育的关键。

一方面，儿童可能会同时接受多语种的语言教育(如汉语和英语)，因此如何对儿童发出的包含多语种的语音数据进行评测，是目前的一个难点。举例来说，在儿童发出的语音数据中同时含有英文单词和中文词语的情况下，现有的方案需要利用不同的语种识别器来识别儿童的语音数据，在识别过程中需要切换不同的语种识别器，实现起来较为复杂。

另一方面，由于不同年龄段儿童的发音特点和发音习惯不同，使得通用的asr(automaticspeechrecognition，自动语音识别)技术无法正常识别儿童发音，也就无法为其准确打分。并且，不同文本及教材的打分逻辑以及关注点不同，所以需要大量的教师资源及算法开发来进行打分逻辑梳理及算法建模工作。

因此，需要一种更为行之有效的语音评测方案，以为儿童的在线语言教育提供技术支持。

技术实现要素：

本公开的一个目的在于，提供一种语音评测方案，以为解决上述至少一种技术问题提供技术支持。

根据本公开的第一个方面，提出了一种语音评测方法，包括：输出提示信息，提示信息用于提示用户发出针对测试文本的语音，测试文本包括一个或多个字/词；接收语音；基于与测试文本中的字/词对应的字/词识别模型，对语音进行识别，字/词识别模型用于识别语音是否与所述字/词识别模型对应的字/词相匹配；基于识别结果，对语音进行评测。

可选地，测试文本包括多个字/词，该方法还包括：对语音进行切分，以得到多个音频片段，其中，基于与测试文本中的字/词对应的字/词识别模型对语音进行识别的步骤包括：基于多个字/词识别模型对每个音频片段进行识别，以确定每个音频片段对应的字/词，其中，每个字/词识别模型对应多个字/词中的一个字/词。

可选地，字/词识别模型为隐马尔可夫模型，其中，基于多个字/词识别模型对每个音频片段进行识别以确定每个音频片段对应的字/词的步骤包括：对每个音频片段进行特征提取，以得到音频片段的特征序列；将特征序列分别输入多个字/词识别模型，以得到每个字/词识别模型生成特征序列的概率值；在存在概率值大于第一阈值的字/词识别模型的情况下，将音频片段识别为生成的概率值最大的字/词识别模型所对应的字/词。

可选地，字/词识别模型为隐马尔可夫模型，测试文本包括单个字/词，基于与测试文本中的字/词对应的字/词识别模型对语音进行识别的步骤包括：对语音进行特征提取，以得到语音的特征序列；将特征序列输入与字/词对应的字/词识别模型，以得到字/词识别模型生成特征序列的概率值；在概率值大于第二阈值的情况下，将语音识别为字/词。

可选地，基于神经网络进行特征提取。

可选地，基于识别结果对语音进行评测的步骤包括：根据识别出的语音对应的字/词与测试文本中的字/词之间的差异，对语音进行评测；并且/或者根据字/词识别模型输出的语音和与其对应的字/词之间的相似度，对语音进行评测。

可选地，该方法还包括：基于特征分布模型计算语音和其表征的音频特征分布之间的相似度；根据特征分布模型计算得到的相似度，对评测结果进行调整，其中评测结果的高低与相似度的大小负相关。

可选地，特征分布模型为高斯混合模型。

可选地，该方法还包括：获取训练数据，训练数据包括多个字/词的语音数据；基于同一字/词的语音数据，训练该字/词的字/词识别模型。

可选地，该方法还包括：基于多个字/词的语音数据，训练特征分布模型，特征分布模型用于表征多个字/词的语音数据的音频特征分布。

可选地，该方法还包括：基于特征分布模型，对同一字/词的语音数据进行筛选，其中，基于同一字/词的语音数据训练该字/词的字/词识别模型的步骤包括：基于筛选后的语音数据，训练字/词识别模型。

可选地，多个字/词包括一个或多个语种中的字/词。

根据本公开的第二个方面，还提出了一种语音评测方法，包括：接收语音；基于字/词识别模型，对语音进行识别，字/词识别模型用于识别语音是否与所述字/词识别模型对应的字/词相匹配；基于识别结果，对语音进行评测。

根据本公开的第三个方面，还提出了一种语音识别方法，包括：接收语音；基于字/词识别模型，对语音进行识别，字/词识别模型用于识别语音是否与字/词识别模型对应的字/词相匹配。

根据本公开的第四个方面，还提出了一种语音评测装置，包括：输出模块，用于输出提示信息，提示信息用于提示用户发出针对测试文本的语音，测试文本包括一个或多个字/词；接收模块，用于接收语音；识别模块，用于基于与测试文本中的字/词对应的字/词识别模型，对语音进行识别，字/词识别模型用于识别语音是否与所述字/词识别模型对应的字/词相匹配；评测模块，用于基于识别结果，对语音进行评测。

根据本公开的第五个方面，还提出了一种语音评测装置，包括：接收模块，用于接收语音；识别模块，用于基于字/词识别模型，对语音进行识别，字/词识别模型用于识别语音是否与所述字/词识别模型对应的字/词相匹配；评测模块，用于基于识别结果，对语音进行评测。

根据本公开的第六个方面，还提出了一种语音交互设备，包括：第一输出模块，用于输出提示信息，提示信息用于提示用户发出针对测试文本的语音，测试文本包括一个或多个字/词；接收模块，用于接收语音；识别模块，用于基于与测试文本中的字/词对应的字/词识别模型，对语音进行识别，字/词识别模型用于识别语音是否与所述字/词识别模型对应的字/词相匹配；评测模块，用于基于识别结果，对语音进行评测。

可选地，该语音交互设备还包括：第二输出模块，用于输出语音教学数据。

可选地，语音交互设备为智能音箱或智能手表。

根据本公开的第七个方面，还提出了一种语音识别装置，包括：接收模块，用于接收语音；识别模块，用于基于字/词识别模型，对所述语音进行识别，所述字/词识别模型用于识别语音是否与所述字/词识别模型对应的字/词相匹配。

根据本公开的第八个方面，还提出了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本公开第一个方面或第二个方面述及的方法。

根据本公开的第九个方面，还提出了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本公开第一个方面或第二个方面述及的方法。

利用本公开的语音评测方案对多语种混合的待评测语音(例如英语和汉语混合的语音)进行评测时，可以直接选用字/词识别模型，而无需再考虑语种识别器的切换问题，并且通过对待评测语音进行字/词级别的识别，可以得到更为准确的识别结果。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开一实施例的语音评测方案的示意性流程图。

图2示出了根据本公开一实施例的语音交互设备的结构的示意性方框图。

图3示出了根据本公开一实施例的文本相关场景下的语音评测方法的示意性流程图。

图4示出了根据本公开一实施例的文本无关场景下的语音评测方法的示意性流程图。

图5示出了hmm模型、gmm模型的训练过程的示意性流程图。

图6示出了根据本公开一实施例的语音评测装置的结构的示意性方框图。

图7示出了根据本公开另一实施例的语音评测装置的结构的示意性方框图。

图8示出了根据本公开一实施例的语音识别装置的结构的示意性方框图。

图9示出了根据本发明一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本公开提出了一种无关语种的语音评测方案。基于本公开的语音评测方案，可以在没有相应语种识别器的条件下，根据发音相似性对用户(尤其是儿童用户)发出的语音的内容进行识别，并根据简易的打分标准进行评分，从而可以极大地降低语音评测方面的数据成本以及算法开发成本。

图1示出了根据本公开一实施例的语音评测方案的示意性流程图。

如图1所示，本公开可以预先训练一个字/词识别系统，字/词识别系统包括多个字/词识别模型。每个字/词识别模型对应一个字/词，字/词识别模型用于识别语音(即待评测语音)是否与该字/词识别模型对应的字/词相匹配。

可选地，字/识别系统还可以包括filler模型，filler模型也可以称为“补白模型”、“垃圾模型”。filler模型可以用来吸收字/词识别模型所对应的字/词之外的各种语言现象，包括集外词(outofvocabulary，oov)、常见的非语言现象(如背景噪声、咳嗽、喘气)等等。在本公开中，filler模型可以视为一个特殊的字/词识别模型，可以将集外词和各种非语言现象作为一个特殊的字/词，filler模型即用于识别这一特殊的字/词。

字/词识别系统中包括的多个字/词识别模型可以对应多个属于不同语种的字/词。例如，字/词识别模型1可以对应于英文单词“apple”，字/词识别模型2可以对应于中文词语“锄禾”。也就是说，本公开不区分语种，而是以字/词为单位，针对具体的字/词训练相应的字/词识别模型。

以应用于儿童教育场景为例，可以针对不同年龄段或不同年级的儿童训练对应不同规模词汇的字/词识别系统。例如，可以针对3至6岁的幼儿，构建一个由汉语、英语等多个语种中的常用字/词构成的词汇库，可以为词汇库中的各个字/词训练对应的字/词识别模型。再例如，也可以根据不同年级的词汇要求，为不同年级的儿童构建相应的词汇库，词汇库中可以包括汉语、英语等多个语种中的字/词，可以为词汇库中的各个字/词训练对应的字/词识别模型。关于字/词识别模型的训练过程将在下文说明，此处暂不赘述。

不同年龄段儿童的发音特点和发音习惯不同。例如，幼儿说话存在吐字不清的现象，且没有词序的概念，如对于“我想吃苹果”这一语句，常常会用类似“苹果，想吃”的语序表达出来。如果不考虑用户(特别是儿童用户)的发音特点，直接利用现有的asr技术对用户的语音进行识别，则很难得到正确的识别结果。

本公开通过以字/词为单位，训练与具体的字/词相对应的字/词识别模型，一方面可以利用训练出的字/词识别模型对待评测语音进行字/词级别的识别，以得到更为准确的识别结果，并且识别过程可以不考虑词序问题；另一方面，在对多语种混合的待评测语音(例如英语和汉语混合的语音)进行评测时，可以直接选用字/词识别模型，而无需再考虑语种识别器的切换问题。因此，本公开在提高语音识别准确性的同时，可以大大降低语音评测方面的数据成本以及算法开发成本。

本公开述及的字/词识别模型可以通过比较语音和与其对应的字/词的发音相似性，来确定语音是否与对应的字/词相匹配。也就是说，字/词识别模型可以用于确定语音和与其对应的字/词的发音的相似度，根据该相似度，可以确定语音是否是针对字/词识别模型所对应的字/词的发音数据。作为示例，字/词识别模型可以是隐马尔可夫模型(hiddenmarkovmodel，hmm)。可选地，字/词识别模型还可以是其他模型结构，如高斯混合模型(generalizedmethodofmoments，gmm)、机器学习模型等等。

在利用字/词识别模型对待评测语音进行识别后，可以基于识别结果对待评测语音进行评测，以得到评测结果。其中，评测结果可以以分值或其他形式输出给用户。关于评测流程可以参见下文描述，此处暂不赘述。

如图1所示，本公开还可以利用特征分布模型对评测结果进行调整。特征分布模型用于表征音频特征分布。其中，特征分布模型所表征的音频特征分布可以是指大量语音的音频特征分布，也即通用音频特征分布。也就是说，特征分布模型用于拟合大量语音的特征分布。作为示例，特征分布模型可以是高斯混合模型(gaussianmixturemodel，gmm)，可以针对大量语音数据训练一个高斯混合模型。

可以利用特征分布模型计算待评测语音和其表征的音频特征分布之间的相似度，根据特征分布模型计算得到的相似度，对评测结果进行调整，其中评测结果的高低与相似度的大小负相关。也就是说，特征分布模型计算得到的相似度越大，最终调整后的评测结果所对应的评测分值越低。作为示例，可以将字/词识别模型输出的相似度和特征分布模型输出的相似度相减，作为语音与识别出的字/词之间的相似度，并根据相减后的相似度计算最终的评测结果。

字/词识别模型用于识别语音和其对应的字/词之间的相似性，特征分布模型表征的是大量语音数据的特征分布。基于特征分布模型对待评测语音进行计算得到的相似度，对利用字/词识别模型对待评测语音进行计算得到的相似度进行负相关的调整(如相减)，可以减少乃至消除环境噪音、一般性语音特征的影响，使得调整后的相似度能够更加突出待评测语音和特定字/词的发音之间的差异，因此调整后的相似度能够更为准确地反映待评测语音与字/词之间的发音相似性。

至此，结合图1就本公开的语音评测方案的实现流程做了简要说明。下面就本公开涉及的各方面作进一步说明。

本公开的语音评测方案可以应用于各种语音交互设备，如可以适用智能音箱、智能手表(如儿童手表)、手机等支持语音交互功能的设备。

图2示出了根据本公开一实施例的语音交互设备的结构的示意性方框图。其中，语音交互设备的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图2所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

参见图2，语音交互设备200包括第一输出模块210、接收模块220、识别模块230以及评测模块240。可选地，语音交互设备200还可以包括第二输出模块。

语音交互设备200可以支持语音教学、语音评测两种工作模式，并且这两种工作模式可以由语音交互设备200自动切换，也可以根据用户的操作进行切换。

在语音教学模式下，语音交互设备200可以利用第二输出模块向用户输出语音教学数据，语音教学数据可以是生字/生词的发音数据，也可以是文章、诗词的发音数据。以英语单词教学场景为例，语音交互设备200可以输出类似“苹果apple”、“香蕉banana”的语音教学数据。

语音评测分为文本相关场景下的语音评测和文本无关场景下的语音评测。文本相关场景下的语音评测，是指针对指定的测试文本的语音评测，其中测试文本可以包括一个或多个字/词，并且在测试文本包括多个字/词的情况下，这多个字/词还可以属于不同的语种(如英语和汉语)。文本无关场景下的语音评测，也即不指定测试内容，而可以是对用户自由发出的语音进行评测。

图3示出了根据本公开一实施例的文本相关场景下的语音评测方法的示意性流程图。其中，图3所示的语音评测方法可以由图2所示的语音交互设备200执行。

参见图3，在步骤s310，例如可以由语音交互设备200中的第一输出模块210，输出提示信息。

提示信息用于提示用户发出针对测试文本的语音，其中测试文本包括一个或多个字/词。提示信息可以是多种形式的信息，如可以是文本信息，也可以是语音信息，还可以是图像信息。举例来说，在提示信息是“请背诵悯农”的语音消息的情况下，测试文本为《悯农》的诗词内容；在提示信息是“苹果用英语怎么读”的语音消息的情况下，测试文本为“apple”。

在步骤s320，例如可以由语音交互设备200中的接收模块220，接收语音。所接收到的语音为用户针对测试文本发出的语音，也即待评测语音。

在步骤s330，例如可以由语音交互设备200中的识别模块230，基于与测试文本中的字/词对应的字/词识别模型，对语音进行识别。

在测试文本包括多个字/词的情况下，可以对语音进行切分，以得到多个音频片段。其中每个音频片段可以视为针对一个字/词的发音数据。具体可以利用多种方式进行切分。作为示例，说话过程中不同字/词之间会存在一定的停顿，因此可以通过对接收到的语音中的静音部分进行分析，将语音切分为多个音频片段。例如，可以首先确定语音中各个静音部分，然后判断各个静音部分的持续时长是否超过预定阈值，在超过预定阈值的情况下，可以以该静音部分为切割点进行切分，由此可以将语音切分为多个音频片段。

在得到多个音频片段后，可以基于多个字/词识别模型对每个音频片段进行识别，以确定每个音频片段对应的字/词，其中每个字/词识别模型对应测试文本所包括的多个字/词中的一个字/词。也就是说，在测试文本包括多个字/词的情况下，可以选用与测试文本中的各个字/词对应的字/词识别模型，对待评测语音进行识别。

在测试文本包括单个字/词的情况下，可以直接基于与该字/词对应的字/词识别模型对接收到的语音进行识别，以确定该语音是否与该字/词对应。

以字/词识别模型为hmm模型，测试文本包括多个字/词为例，可以首先对语音进行切分，以得到多个音频片段。对每个音频片段可以进行特征提取，如可以基于神经网络对音频片段进行特征提取。提取后得到的每个音频片段的特征序列可以分别输入多个hmm模型，其中每个hmm模型对应多个字/词中的一个字/词。hmm模型可以输出一个概率值，该概率值用于表征hmm模型生成该特征序列的概率，概率值的大小可以用于表征音频片段与hmm模型对应的字/词之间的相似度。可以将这多个hmm模型输出的概率值(也即相似度)与一个预定阈值(为了便于区分，可以称为第一阈值)进行比较，如果所有的概率值都小于第一阈值，可以认为该音频片段不属于测试文本中任一字/词，如果存在大于第一阈值的概率值，则可以认为该音频片段属于测试文本中的某一字/词，即该音频片段是针对测试文本中的某一字/词的发音数据。作为示例，在存在概率值大于第一阈值的字/词识别模型的情况下，可以将音频片段识别为生成的概率值最大的字/词识别模型所对应的字/词。其中，第一阈值可以在训练hmm模型的过程中确定。

以字/词识别模型为hmm模型，测试文本包括单个字/词为例，可以对语音进行特征提取，如可以基于神经网络对语音进行特征提取。提取后得到的特征序列可以输入与测试文本包括的字/词对应的hmm模型，以得到hmm模型输出的识别结果。其中，hmm模型可以输出一个概率值，该概率值用于表征hmm模型生成该特征序列的概率，概率值的大小可以用于表征语音与hmm模型对应的字/词之间的相似度。可以将得到的概率值与一个预定阈值(为了便于区分，可以称为第二阈值)进行比较，在概率值大于第二阈值的情况下，认为语音的识别结果为hmm模型对应的字/词，即语音是针对测试文本中的字/词的发音数据，否则可以认为语音与hmm模型对应的字/词不匹配，即语音不是针对测试文本中的字/词的发音数据。其中，第二阈值可以在训练hmm模型的过程中确定。第二阈值可以与第一阈值相同，也可以不同。

可选地，在对语音进行识别的过程中，还可以选用垃圾(filler)模型，用于识别语音中与集外词和/或非语言现象对应的音频片段。也就是说，在识别过程中，可以将垃圾(filler)模型作为一个字/词识别模型，与选用的字/词识别模型一起，对语音进行识别。具体的识别过程可以参见上文相关描述，此处不再赘述。

在步骤s340，例如可以由语音交互设备200中的评测模块240，基于识别结果，对语音进行评测。

在得到语音的识别结果后，可以根据识别出的语音对应的字/词与测试文本中的字/词之间的差异，对语音进行评测。这里述及的差异可以是指数量上的差异，可选地还可以包括位置上的差异。也就是说，可以通过比较用户发出的语音中是否包含了测试文本中所有的字/词，来对语音进行评测。并且，在对语音进行评测时还可以考虑语音中的字/词顺序与测试文本中的字/词顺序之间的差异。

并且/或者还可以根据字/词识别模型输出的语音和与其对应的字/词之间的相似度(为了便于区分，可以称为第一相似度)，对语音进行评测。这里的字/词识别模型是指与识别出的语音所对应的字/词相对应的字/词识别模型。字/词识别模型输出的相似度，也即字/词识别模型输出的语音属于其对应的字/词的概率值。

为了减少周围环境噪声给语音评测造成的影响，进一步提升识别结果的准确性。本公开还可以利用特征分布模型对评测结果进行调整。关于特征分布模型及调整原理可以参见上文相关描述。

作为示例，在测试文本包括多个字/词的情况下，可以利用特征分布模型对切分后的每个音频片段计算其相似度(为了便于区分，可以称为第二相似度)，对于识别出具有对应字/词的音频片段，可以将识别出的字/词所对应的字/词识别模型输出的第一相似度减去特征分布模型输出的第二相似度，根据得到的差值，进行评测。其中，具体评测逻辑以及测试文本包括单个字/词的情况下的调整过程不再赘述。

图4示出了根据本公开一实施例的文本无关场景下的语音评测方法的示意性流程图。其中，图4所示的语音评测方法可以由图2所示的语音交互设备200执行。

参见图4，在步骤s410，例如可以由语音交互设备200中的接收模块220，接收语音。所接收到的语音为用户发出的待评测语音。

在步骤s420，例如可以由语音交互设备200中的识别模块230，基于字/词识别模型，对语音进行识别。

字/词识别模型用于识别语音是否与该字/词识别模型对应的字/词相匹配。关于字/词识别模型可以参见上文相关描述，此处不再赘述。

在文本无关场景下，可以将语音分别与字/词识别系统中的各个字/词识别模型进行比对，以确定与语音最相近的字/词识别模型，将该字/词识别模型对应的字/词作为语音的识别结果。例如，可以将输出概率最大的字/词识别模型所对应的字/词，作为语音的识别结果。

考虑到语音可能包括多个字/词，在接收到语音后，还可以对语音进行切分，以将语音切分为多个音频片段，每个音频片段可以视为针对一个字/词的发音数据，关于语音的切分过程可以参见上文相关描述，此处不再赘述。

对于得到的每个音频片段，可以对其进行特征提取，以得到该音频片段的特征序列，然后可以将其分别输入各个字/词识别模型，以得到每个音频片段的识别结果。作为示例，对于每个音频片段，可以选取输出的概率值(也即相似度)最大的字/词识别模型所对应的字/词，作为该音频片段的识别结果。

在步骤s430，基于识别结果，对语音进行评测。

作为示例，可以根据字/词识别模型输出的语音和与其对应的字/词之间的相似度，对语音进行评测。这里的字/词识别模型是指与识别出的语音所对应的字/词相对应的字/词识别模型。字/词识别模型输出的相似度，也即字/词识别模型输出的语音属于其对应的字/词的概率值。

另外还可以根据特征分布模型对评测结果进行调整。关于特征分布模型及调整原理可以参见上文相关描述，此处不再赘述。

模型的训练

下面以字/词识别模型为hmm模型，特征分布模型为gmm模型为例，就字/词识别模型、特征分布模型的训练过程进行示例性说明。

图5示出了hmm模型、gmm模型的训练过程的示意性流程图。

参见图5，在步骤s510，采集语音数据。

所采集的语音数据可以是由不同用户针对不同语种下的各个字/词的发音数据。根据具体应用场景不同，采集的语音数据的规模也不尽相同。例如，在训练用于对2-6岁的幼儿进行语音评测的模型的情况下，可以首先构建一个由汉语、英语等多个语种中的常用字/词构成的词汇库，然后针对词汇库中各个字/词采集相应的语音数据。作为示例，可以采集各个语种的预定时长(如100小时)的语音数据。

在采集得到原始的语音数据后，可以对语音数据进行预处理，以得到训练用数据。例如，可以对采集到的语音数据进行标记，以得到每个字/词对应的语音数据。其中，每个字/词可以对应多条语音数据。

可选地，所采集的语音数据还可以包括集外词和各种非语言现象的发音数据。

在步骤s520，训练gmm模型。

在采集得到语音数据后，可以首先训练gmm模型。例如，可以训练用于拟合所采集的语音数据的特征分布的gmm模型。关于gmm模型的结构及训练过程为本领域成熟技术，此处不再赘述。

在步骤s530，利用gmm模型筛选可用数据。

在训练hmm模型前，可以利用训练好的gmm模型对训练数据进行筛选，以剔除其中不太准确的训练数据。作为示例，对于对应同一字/词的语音数据，可以利用gmm模型将其中语音特征分布差异较大的语音数据剔除。

在步骤s540，基于同一字/词的语音数据，训练hmm模型。hmm模型的具体训练过程为本领域成熟技术，此处不再赘述。

利用图5所示的训练方法可以训练多个对应于不同字/词的hmm模型。并且这多个hmm模型对应的多个字/词可以属于不同语种。最终训练好的hmm模型和gmm模型可以用于本公开的语音评测方案。

可选地，在所采集的语音数据还包括集外词和各种非语言现象的发音数据的情况下，还可以根据集外词和各种非语言现象的发音数据，训练垃圾(filler)模型。

作为示例，在训练hmm模型之前，还可以训练一通用背景模型(universalbackgroundmodel，ubm)，ubm模型可以视为是根据大量音频数据训练出的hmm模型，在训练针对具体字/词的hmm模型时，可以在ubm模型的基础上进行训练，由此可以保证模型参数的鲁棒性，提高模型的识别准确率并可以减少训练时间。

在训练得到hmm模型之后，还可以对训练好的hmm模型的识别性能进行度量。作为示例，可以采用召回率和准确率相结合的性能度量方案对hmm模型的识别性能进行度量。其中，召回率用于表征识别出的语音中的字/词个数与语音中总的字/词个数的比值。准确率是指正确识别的语音中的字/词个数与语音中总的字/词个数的比值。这里“正确识别”可以是指识别出的候选语音片段与标注答案所对应的字/词内容相同，且位置发生重叠。在对训练好的hmm模型的识别性能进行度量的过程中，可以根据度量结果，设定一个阈值(即上文述及的第一阈值/第二阈值)，可以认为在hmm模型输出的概率值大于该阈值时，将输入的语音判定为是针对该hmm模型所对应的字/词的发音数据。

至此结合图1至图5就本公开的语音评测方案做了详细说明。

本公开还可以实现为一种语音识别方案。可以接收语音，然后基于字/词识别模型，对语音进行识别，以得到语音的识别结果。由此，在对多语种混合的语音进行识别时，无需再考虑语种识别器的切换问题，并且通过对语音进行字/词级别的识别，可以得到更为准确的识别结果。关于字/词识别模型的结构以及识别原理，可以参见上文相关描述，此处不再赘述。

可选地，还可以基于特征分布模型计算语音和其表征的音频特征分布之间的相似度，根据特征分布模型计算得到的相似度，对识别结果进行调整。其中识别结果的高低与相似度的大小负相关。作为示例，可以将字/词识别模型输出的相似度和特征分布模型输出的相似度相减，作为语音与识别出的字/词之间的相似度，并根据相减后的相似度得到最终的识别结果。关于特征分布模型的调整原理，可以参见上文相关描述，此处不再赘述。

图6示出了根据本公开一实施例的语音评测装置的结构的示意性方框图。其中，语音评测装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图6所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音评测装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图6，语音评测装置600包括输出模块610、接收模块620、识别模块630以及评测模块640。

输出模块610用于输出提示信息，提示信息用于提示用户发出针对测试文本的语音，测试文本包括一个或多个字/词。

接收模块620用于接收语音。

识别模块630用于基于与测试文本中的字/词对应的字/词识别模型，对语音进行识别，字/词识别模型用于识别语音是否与该字/词识别模型对应的字/词相匹配。关于字/词识别模型及具体的识别过程可以参见上文相关描述，此处不再赘述。

评测模块640用于基于识别结果，对语音进行评测。具体评测过程可以参见上文相关描述，此处不再赘述。

可选地，语音评测装置600还包括计算模块和调整模块，计算模块用于基于特征分布模型计算语音和其表征的音频特征分布之间的相似度，调整模块用于根据特征分布模型计算得到的相似度，对评测结果进行调整，其中评测结果的高低与相似度的大小负相关。关于特征分布模型及调整过程可以参见上文相关描述，此处不再赘述。

可选地，语音评测装置600还包括训练模块，用于训练特征分布模型和/或字/词识别模型。关于训练过程可以参见上文相关描述，此处不再赘述。

图7示出了根据本公开另一实施例的语音评测装置的结构的示意性方框图。其中，语音评测装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图7所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

参见图7，语音评测装置700包括接收模块710、识别模块720以及评测模块730。

接收模块710用于接收语音。

识别模块720用于基于字/词识别模型，对所述语音进行识别，所述字/词识别模型用于识别语音是否与该字/词识别模型对应的字/词相匹配。关于字/词识别模型及具体的识别过程可以参见上文相关描述，此处不再赘述。

评测模块730用于基于识别结果，对所述语音进行评测。具体评测过程可以参见上文相关描述，此处不再赘述。

可选地，语音评测装置700还包括计算模块和调整模块，计算模块用于基于特征分布模型计算语音和其表征的音频特征分布之间的相似度，调整模块用于根据特征分布模型计算得到的相似度，对评测结果进行调整，其中评测结果的高低与相似度的大小负相关。关于特征分布模型及调整过程可以参见上文相关描述，此处不再赘述。

可选地，语音评测装置700还包括训练模块，用于训练特征分布模型和/或字/词识别模型。关于训练过程可以参见上文相关描述，此处不再赘述。

图8示出了根据本公开一实施例的语音识别装置的结构的示意性方框图。其中，语音识别装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图8所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音识别装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图8，语音识别装置800包括接收模块810和识别模块820。

接收模块810用于接收语音。

识别模块820用于基于字/词识别模型，对所述语音进行识别，字/词识别模型用于识别语音是否与字/词识别模型对应的字/词相匹配。关于字/词识别模块的识别原理可以参见上文相关描述，此处不再赘述。

可选地，语音识别装置800还可以包括计算模块和调整模块。计算模块可以用于基于特征分布模型计算语音和其表征的音频特征分布之间的相似度。调整模块可以用于根据特征分布模型计算得到的相似度，对识别结果进行调整。其中识别结果的高低与相似度的大小负相关。

作为示例，计算模块可以将字/词识别模型输出的相似度和特征分布模型输出的相似度相减，作为语音与识别出的字/词之间的相似度，调整模块可以根据相减后的相似度得到最终的识别结果。关于利用特征分布模型进行调整的原理，可以参见上文相关描述，此处不再赘述。

图9示出了根据本发明一实施例可用于实现上述语音评测方法或语音识别方法的计算设备的结构示意图。

参见图9，计算设备1000包括存储器1010和处理器1020。

处理器1020可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1020可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(gpu)、数字信号处理器(dsp)等等。在一些实施例中，处理器1020可以使用定制的电路实现，例如特定用途集成电路(asic，applicationspecificintegratedcircuit)或者现场可编程逻辑门阵列(fpga，fieldprogrammablegatearrays)。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器(rom)，和永久存储装置。其中，rom可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(dram，sram，sdram，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom，双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、minsd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可执行代码，当可执行代码被处理器1020处理时，可以使处理器1020执行上文述及的语音评测方法或语音识别方法。

上文中已经参考附图详细描述了根据本发明的语音评测及语音识别方法、装置、语音交互设备及计算设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。