一种语音评分的方法及装置与流程

2021-01-28 16:01:24|

336|

起点商标网

本申请实施例涉及人工智能技术领域，尤其涉及一种语音评分的方法及装置。

背景技术：

人工智能(artificialintelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，ai基础理论等。

语音评测技术，涉及声学、语言学、数字信号处理、计算机科学等多个领域，解决的主要问题是自动对发音水平进行评价、纠正发音错误、定位与分析发音缺陷。例如，对评测者说英语进行评测。

在进行语音评测时，评测者的发音可能准确，也可能不准确。如何确定评测者的发音是否准确，以及向评测者反馈合理的发音情况是需要解决的技术问题。

技术实现要素：

本申请实施例提供一种语音评分的方法及装置，用以解决如何确定评测者的发音是否准确，以及向评测者反馈合理的发音情况的问题。

第一方面，提供了一种语音评分的方法，首先，将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，可以得到所述音频包括的每个发声音素的声学测度。发声音素的声学测度包括所述发声音素分别为每个第一音素的后验概率；所述第一音素为音素集合包括的每个音素，所述音素集合为所述文本信息对应的语言类型的音素集合。其次，根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素，所述目标音素为所述文本信息分解后得到的音素。接下来，当确定所述发声音素未背离所述目标音素时，可以将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素背离所述目标音素时，可以将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分。进一步地，可以根据预先训练好的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。具体可以是将目标概率评分输出到预先训练好的评分模型中，评分模型输出所述发声音素的目标概率评分对应的m分制中的评分。m一般为100或10，即百分制，十分制。

通过发声音素的后验概率确定发声音素是否背离目标音素，可以确定出用户的发音是否准确，可以提高语音识别的准确性。通过m分制中的评分向用户反馈发音情况。并且在发声音素背离目标音素时，对该发声音素的概率评分进行减小处理，则概率评分对应的m分制中的评分也会相应减小。这样，通过抑制非目标音素的评分，使最终的m分制中的评分可以更加合理的反映出用户的发音情况。

在一种可能的实现中，在根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离所述目标音素时，可以是先确定所述发声音素分别为每个第一音素的后验概率中的最大值。当所述最大值大于(大于也可以替换为大于或等于)设定阈值，且所述最大值大于所述发声音素为目标音素的后验概率时，确定所述发声音素背离所述目标音素。当所述最大值不大于(不大于也可以替换为小于)设定阈值，和/或所述最大值不大于所述发声音素为目标音素的后验概率时，确定所述发声音素未背离所述目标音素。也就是当发声音素为非目标音素的后验概率是较大的，且大于发声音素为目标音素的后验概率时，认为发声音素背离目标音素。否则，发声音素未背离目标音素。

在一种可能的实现中，发声音素的声学测度还包括所述发声音素的发声时长值；在确定出所述发声音素的目标概率评分之后，还可以确定发声音素的发声时长值是否满足所述目标音素对应的高斯分布原则。当确定所述发声音素的发声时长值满足所述目标音素对应的高斯分布原则时，保持所述发声音素的目标概率评分不变；当确定所述发声音素的发声时长值不满足所述目标音素对应的高斯分布原则时，对所述发声音素的目标概率评分进行减小更新。进而确定所述发声音素的目标概率评分对应的m分制中的评分。

通过发声音素的后验概率和发声时长值两个角度出发，可以更加准确地确定出用户的发音是否准确。并且在发声时长值不满足高斯分布原则时，对概率评分进行再次减小，则概率评分对应的m分制中的评分也会相应减小。这样，进一步通过抑制非目标音素的评分，使最终的m分制中的评分可以更加合理的反映出用户的发音情况。

在一种可能的实现中，所述高斯分布原则为正太分布的3σ原则。即发声时长值位于(μ-3σ，μ+3σ)内时满足3σ原则，否则不满足3σ原则。一个语料库中包括多个音频，一个音频包括多个音素，不同的音频可能包括相同的音素。针对每个音素，根据其对应的多个发声时长值，确定对每个音素的平均发声时长值μ，及发声时长值方差σ，进而确定出3σ原则。

在一种可能的实现中，根据公式：y＝m/(1+e^x)，确定所述发声音素的目标概率评分对应的m分制中的评分。其中，y为m分制中的评分，x根据第一参数确定，所述第一参数包括所述发声音素的目标概率评分。进一步地，发声音素的声学测度还可以包括：音素的能量和/或基音频率；所述第一参数还包括以下至少之一：发声时长值、音素能量、基音频率。通过目标概率评分、发声时长值、音素能量、基音频率这多个维度，来确定m分制中的评分，可以使确定出的评分更加准确。

在一种可能的实现中，在根据所述第一参数确定x时：根据公式x＝w1x1+w2x2+w3x3+w4x4+b，确定x。其中，w1、w2、w3、w4、b均为常数，x1为所述发声音素的目标概率评分，x2为所述发声音素的发声时长值，x3为所述发声音素的音素能量，x4为所述发声音素的基音频率。

在一种可能的实现中，在训练评分模型时，可以是采用不同类别的音频的音素的目标概率评分及音素的目标概率评分对应的m分制中的评分，对评分模型进行训练，不同类别的音频对应的m分制中的评分区间不同。音频的类别例如可以是：本土语音、非本土语音、错乱语音。通过不同类别的音频，训练评分模型，可以使评分模型输出的m分制中的评分更加准确。

在一种可能的实现中，在确定所述发声音素的概率评分时，可以是先执行：所述发声音素为目标音素的后验概率，除以所述发声音素为目标音素的先验概率，得到第一商值；以及所述发声音素分别为音素集合中的每个第一音素的后验概率中的最大值，除以所述发声音素为目标音素的先验概率，得到第二商值。然后，所述第一商值除以第二商值，得到第三商值。再然后，对所述第三商值取对数。接下来，取对数后的绝对值除以发声时长值，得到所述发声音素的概率评分。

第二方面，提供了一种语音评分的方法，首先，将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，可以得到所述音频包括的每个发声音素的声学测度，发声音素的声学测度包括所述发声音素的发声时长值。其次，当确定所述发声音素的发声时长值满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素的发声时长值不满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分。进一步地，可以根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。具体可以是将目标概率评分输出到预先训练好的评分模型中，评分模型输出所述发声音素的目标概率评分对应的m分制中的评分。再进一步地，根据每个发声音素对应的m分制中的评分，确定出所述音频对应的m分制中的评分。m一般为100或10，即百分制，十分制。

通过确定音频中的发声音素的发声时长值是否满足目标音素的发声时长值的高斯分布原则，可以确定出用户的发音是否准确，可以提高语音识别的准确性。通过m分制中的评分向用户反馈发音情况。并且在发声音素的发声时长值不满足目标音素的发声时长值的高斯分布原则时，对该发声音素的概率评分进行减小处理，则概率评分对应的m分制中的评分也会相应减小。这样，通过抑制非目标音素的评分，使最终的m分制中的评分可以更加合理的反映出用户的发音情况。

在一种可能的实现中，所述声学测度包括所述发声音素分别为每个第一音素的后验概率，所述第一音素为音素集合包括的每个音素，所述音素集合为所述文本信息对应的语言类型的音素集合；在确定出所述发声音素的目标概率评分之后，还可以根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素，所述目标音素为所述文本信息分解后得到的音素；当确定所述发声音素未背离所述目标音素时，保持所述发声音素的目标概率评分不变；当确定所述发声音素背离所述目标音素时，对所述发声音素的目标概率评分进行减小更新。进而确定所述发声音素的目标概率评分对应的m分制中的评分。

通过发声音素的后验概率和发声时长值两个角度出发，可以更加准确地确定出用户的发音是否准确。并且在发声音素背离目标音素时，对该发声音素的概率评分进行再次减小处理，则概率评分对应的m分制中的评分也会相应减小。这样，进一步通过抑制非目标音素的评分，使最终的m分制中的评分可以更加合理的反映出用户的发音情况。

第二方面与第一方面的不同之处在于：第一方面先根据后验概率确定发声音素是否背离目标音素，来确定发声音素的目标概率评分。然后再根据发声时长值是否满足高斯分布原则，来更新已确定的目标概率评分。第二方面先根据发声时长值是否满足高斯分布原则，来确定发声音素的目标概率评分，然后再根据后验概率确定发声音素是否背离目标音素，来更新已确定的目标概率评分。

第二方面包括的其它种可能的实现与第一方面其它种可能的实现相同，技术效果也相同，重复之处不再赘述。

第三方面，提供了一种语音评分的装置，所述装置具有实现上述第一方面及第一方面任一可能的实现中的功能。这些功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的功能模块。

在一种可能的实现中，所述装置包括：

获取模块，用于将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度，所述声学测度包括所述发声音素分别为每个第一音素的后验概率，所述第一音素为音素集合包括的每个音素，所述音素集合为所述文本信息对应的语言类型的音素集合；

验证模块，用于根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素，所述目标音素为所述文本信息分解后得到的音素；

概率分模块，用于当确定所述发声音素未背离所述目标音素时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素背离所述目标音素时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分；

评分模块，用于根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。

在一种可能的实现中，所述验证模块在用于根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离所述目标音素时，具体用于：

当所述发声音素分别为每个第一音素的后验概率中的最大值大于设定阈值，且所述最大值大于所述发声音素为目标音素的后验概率时，确定所述发声音素背离所述目标音素；当所述发声音素分别为每个第一音素的后验概率中的最大值不大于设定阈值，和/或，所述最大值不大于所述发声音素为目标音素的后验概率时，确定所述发声音素未背离所述目标音素。

在一种可能的实现中，所述声学测度还包括所述发声音素的发声时长值；

所述概率分模块在用于确定出所述发声音素的目标概率评分之后，确定所述发声音素的目标概率评分对应的m分制中的评分之前，还用于：当确定所述发声音素的发声时长值满足所述目标音素对应的高斯分布原则时，保持所述发声音素的目标概率评分不变；或者，当确定所述发声音素的发声时长值不满足所述目标音素对应的高斯分布原则时，对所述发声音素的目标概率评分进行减小更新。

在一种可能的实现中，所述高斯分布原则为3σ原则。

在一种可能的实现中，所述评分模块在用于根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分时，具体用于：

根据公式：y＝m/(1+e^x)，确定所述发声音素的目标概率评分对应的m分制中的评分，其中，y为m分制中的评分，x根据第一参数确定，所述第一参数包括所述发声音素的目标概率评分。

在一种可能的实现中，所述声学测度还包括：音素的能量和/或基音频率；

所述第一参数还包括以下至少之一：发声时长值、音素能量、基音频率。

在一种可能的实现中，所述评分模块，还用于根据公式：x＝w1x1+w2x2+w3x3+w4x4+b，确定x，其中，w1、w2、w3、w4、b均为常数，x1为所述发声音素的目标概率评分，x2为所述发声音素的发声时长值，x3为所述发声音素的音素能量，x4为所述发声音素的基音频率。

在一种可能的实现中，所述评分模块，还用于采用不同类别的音频的音素的目标概率评分及音素的目标概率评分对应的m分制中的评分，对评分模型进行训练，不同类别的音频对应的m分制中的评分区间不同。

第四方面，提供了一种语音评分的装置，所述装置具有实现上述第二方面及第二方面任一可能的实现中的功能。这些功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的功能模块。

在一种可能的实现中，所述装置包括：

获取模块，用于将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度，所述声学测度包括所述发声音素的发声时长值；

概率分模块，用于当确定所述发声音素的发声时长值满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素的发声时长值不满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分；

评分模块，用于根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。

在一种可能的实现中，所述声学测度包括所述发声音素分别为每个第一音素的后验概率，所述第一音素为音素集合包括的每个音素，所述音素集合为所述文本信息对应的语言类型的音素集合；

所述装置还包括：

所述概率分模块，还用于当确定所述发声音素未背离所述目标音素时，保持所述发声音素的目标概率评分不变；当确定所述发声音素背离所述目标音素时，对所述发声音素的目标概率评分进行减小更新。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述第一方面及第一方面任一可能的实现中执行的方法，或者执行上述第二方面及第二方面任一可能的实现中执行的方法。

第六方面，本申请提供了一种语音评分的装置，该装置包括处理器和存储器，所述处理器、所述存储器之间电耦合；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述存储器中的部分或者全部计算机程序指令，当所述部分或者全部计算机程序指令被执行时，用于实现上述第一方面及第一方面任一可能的实现的方法中的功能，或者实现上述第二方面及第二方面任一可能的实现的方法中的功能。

在一种可能的设计中，所述装置还可以包括收发器，所述收发器，用于发送所述处理器处理后的信号，或者接收输入给所述处理器的信号。

附图说明

图1为本申请实施例中提供的一种评测系统架构示意图；

图2a为本申请实施例中提供的一种评测过程示意图；

图2b为本申请实施例中提供的一种训练声学模型的过程示意图；

图2c为本申请实施例中提供的一种文本对齐示意图；

图3a为本申请实施例中提供的一种native英语的音频分布示意图；

图3b为本申请实施例中提供的一种中国人说英语的音频分布示意图；

图3c为本申请实施例中提供的一种错乱标注的英语的音频分布示意图；

图3d为本申请实施例中提供的一种评分的分布示意图；

图4为本申请实施例中提供的一种语音评分的过程示例图；

图5为本申请实施例中提供的一种语音评分的装置结构图；

图6为本申请实施例中提供的一种语音评分的装置结构图。

具体实施方式

下面将结合附图，对本申请实施例进行详细描述。

为便于理解本申请实施例，以下对本申请实施例的部分用语进行解释说明，以便于本领域技术人员理解。

1)、语音评测(goodnessofpronunciation，gop)，口语发音好坏的判定。评测者进行口语发音时，评测系统给出m分制中的评分，一般评分越高，发音越好。

2)、语音识别(automaticspeechrecognition)，声音转文字的过程，输入音频，输出音频的内容，即文字信息。

3)、音素(phone)：是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。例如，汉语音节a(例如，一声：啊)只有一个音素，ai(例如四声：爱)有两个音素，dai(例如一声：呆)有三个音素等。

4)、音素的后验概率(posteriorprobability)，描述用户的发音(语音)是某个音素的概率，概率值越大，则表示这段语音越像某个音素。

5)、基音频率(fundamentalfrequency，f0)，当发声体由于振动而发出声音时，声音一般可以分解为许多单纯的正弦波，也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的。其中频率最低的正弦波即为基音，该频率称为基频，用f0表示，而其他频率较高的正弦波则为泛音。基音频率为一种声学特征。

6)、梅尔倒谱系数(melfrequencycepstrumcoefficients，mfcc)描述声音除了振动快慢(基音频率f0)表示之外，波形的包络也是一种重要的衡量特征，而mfcc即是表示这一指标的一种特征。梅尔倒谱系数为一种声学特征。

7)、高斯混合模型gaussianmixturemodel&&隐马尔科夫模型hiddenmarkovmodel(gmm-hmm)：声学模型训练中，将音频与文本对齐的一种模型。所谓对齐，即通过文本字或者音素，将音频分成多个切片，每个切片代表了某个字或者音素。将这样的标注数据{声学特征，对应的文本内容}，输入到神经网络进行分类训练，即可得到声学模型。

8)、逻辑回归(logisticsregression)，一种分类模型，目的是将输入划分到0～1的区间。在本申请中，对于语音评测系统来说，将用户的发音情况映射为0～m分中的某个分值。m一般为100或10，即百分制，十分制。

9)、声学测度，衡量语音的一些指标，如音素的后验概率，音素的发声时长值，音素能量，音素的基音频率等。

本申请中的“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请中所涉及的多个，是指两个或两个以上。

在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

另外，在本申请实施例中，“示例的”一词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或实现方案不应被解释为比其它实施例或实现方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

为便于理解本申请实施例，接下来对本申请的应用场景进行介绍，本申请实施例描述的业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

如图1所示，为本申请适用的一种评测系统的架构示意图。在本申请中，语音评测的执行设备需要执行以下步骤：将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度。所述声学测度包括所述发声音素分别为每个第一音素的后验概率，所述第一音素遍历音素集合包括的所有音素，声学测度还可以包括每个发声音素的发声时长值，还可以包括每个发声音素的基音频率，以及音素能量等。然后根据发声音素分别为每个第一音素的后验概率，发声音素的发声时长值，得出发声音素的目标概率评分。接下来再根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。m一般为100或10，即百分制，十分制。

在一种实现中，语音评测的执行设备可以由一个或多个服务器103实现。可选的，服务器103还可以与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备配合完成评测过程。服务器103可以布置在一个物理站点上，或者分布在多个物理站点上。服务器103可以使用数据存储系统中的数据，或者调用数据存储系统中的程序代码实现上述描述的执行设备需要完成的语音评测的过程。

用户可以操作各自的用户设备(例如本地设备101和本地设备102)与服务器103进行交互。例如，将获取到的音频及对应的文本信息发送给服务器103，以使服务器103对音频进行评分。再例如，从服务器103处获取发声音频的评分结果，或者音频的评分结果，并将评分结果反馈给用户。

用户设备可以采用以下方式获取音频：例如用户设备中可以设置有显示屏和麦克风。显示屏上显示一段文本信息，例如一段英文，用户可以读该段文本信息，则用户设备中的麦克风采集到一段音频。或者用户设备上也可以设置有扬声器，用户设备通过扬声器播放一段音频，用户跟读扬声器播放的内容，则用户设备中的麦克风也可以采集到一段音频。再或者，该用户设备也可以是接收其他设备发送的一段音频，例如本地设备101接收本地设备102发送的一段音频。

用户设备可以采用以下方式反馈评分结果：例如通过显示屏向用户显示评分结果，也可以是通过扬声器向用户播放评分结果。

每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能音箱、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴式设备、机顶盒、游戏机、机器人等等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与服务器进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

需要注意的，上述的服务器的所有功能也可以由本地设备实现，也就是执行设备为本地设备。例如，本地设备101实现服务器103的功能并为自己的用户提供服务，或者为本地设备102的用户提供服务。

真实的语音评测场景下，用户的发音可能准确，也可能不准确，或者周围存在人声干扰再或者用户自身咳嗽等。在这种场景下，本申请提出了一种从音素的后验概率、音素的发声时长分布等多个角度出发，确定音频中的发声音素是否背离目标音素，通过抑制非目标音素的评分，从而使发声音素的m分制中的评分更加合理，噪声语音得到有效压制。m一般为100或10，即百分制，十分制。

接下来如图2a所示，介绍语音评测的过程。整个语音评测的过程分为3个阶段：阶段一：声学模型的训练阶段；阶段二：评分模型的训练阶段；阶段三：在线评测阶段。

首先，介绍上述的阶段三：在线评测阶段。

评测者说一段音频，将该音频及该音频对应的文本信息输入到训练好的声学模型中，训练好的声学模型可以为在线评测阶段提供各种声学测度，例如音素的后验概率，音素的发声时长值，基音频率，音素能量等。在线评测阶段还需要通过后验概率和/或发声时长值确定音素的概率评分。训练好的评分模型可以将概率评分转换为m分制中的评分，即gop分值，例如百分制中的80分，90分等。

接下来介绍上述的阶段一：声学模型的训练阶段。

首先，设置有语料库，语料库中包括多个人说的语料，例如可以是说英语的语料，例如可以是多省份的中国人说英文的语料，也可以是外国人说英语的语料。此处的语料可以文本信息，及该文本信息对应的音频。该音频一般为与文本信息的内容一致的音频，即在用户的发音准确时采集的音频。

如图2b所示，首先，对训练语料库中的音频提取各种声学特征，声学特征例如mfcc，f0。例如可以是针对每个语音帧提取声学特征，一个语音帧一般为20-30ms在从训练语料库中提取训练相关的声学特征时，可以利用kaldi训练平台进行提取。

然后，根据音频及对应的文本信息，训练出一个gmm-hmm模型。gmm-hmm模型可以将声学特征与文本信息进行对齐，也就是确定哪些文本内容对应音频中的哪部分内容。

进而，再采用提取的声学特征和经过gmm-hmm模型得到的与声学特征对应的文本标注进行神经网络模型的训练，得到一个声学模型。该声学模型可以确定音频中的每个发声音素属于音频中的哪个位置，也就是某个发声音素对应音频中的起始位置和终止位置，也可以理解为对应音频中的哪几个语音帧，例如第1到10帧属于音素g。如图2c所示，音频对应的文本信息为“governmentshavemadepolicydecisions”，该段音频包括的音素为“gah1ver0mah0nthhae1vmey1dpaa1lah0siy0dih0sih1zhah0nz”。声学模型可以输出发声音素的一系列声学测度，例如后验概率，发声时长值，音素能量，基音频率等。在训练声学模型时所用的神经网络dnn模型可以为kaldi下nnet3tdnnf模型，该模型有较好的语音建模能力。

以上介绍了训练声学模型的大致过程，其具体过程可以参见目前已有的声学模型的训练过程，详细之处不再赘述。

接下来介绍上述的阶段二：评分模型的训练阶段。

设置打分语料库，打分语料库中保存有音频的发声音素对应的m分制中的评分，以及在这个评分下的概率评分(注意，概率评分不是声学模型输出的后验概率)，发声时长值，基音频率，音素能量等参数。

将多组数据(m分制中的评分，概率评分，发声时长值，基音频率，音素能量等)作为评分模型的输入数据，来训练评分模型。这样训练好的评分模型就可以根据发声音素的概率评分，发声时长值，基音频率，音素能量等参数，给出这个发声音素的相应的m分制中的评分。m分制为百分制时，评分例如可以是80分，90分等。

在一种示例中，在训练评分模型时，可以是采用不同类别的音频的音素的目标概率评分及音素的目标概率评分对应的m分制中的评分，对评分模型进行训练，不同类别的音频对应的m分制中的评分区间不同。音频的类别例如可以是：本土语音、非本土语音、错乱语音。以说英语为例，可以语料库中包括：母语为英语的发音人说的英语语音(native英语)，中国人说的英语语音，以及错乱标注(文本与语音不对应)的英语语音这三种类别。通过不同类别的音频，训练评分模型，可以使评分模型输出的评分更加准确。

在模型训练时，可以选择多种发音层次的音频进行训练，此处的发音层次可以是指评分的高低，例如通过3个层次的音频进行训练时，这3个层次的音频可以是分别为评分较高的音频，评分一般的音频以及评分较差的音频。

接下来以native英语、中国人说英语，以及错乱标注的英语，这三种类别的音频模拟这3个层次的音频为例，介绍训练评分模型的过程。

首先，为三种类别的语音(native英语，中国人说英语，以及错乱标注的英语)预分配m分制中的评分区间，native英语的评分通常较高，例如：m分制为百分制时，百分制中的评分区间为100～90分或者100-85分；中国人说英语的评分通常一般，例如百分制中的评分区间为95～45分或90分-50分；错乱标注的英语评分通常很低，例如百分制中的评分区间为50～0分或者45-0分。如图3a、图3b和图3c所示的音频分布示例，图3a为native英语的音频分布；图3b为中国人说英语的音频分布；图3c为错乱标注的英语的音频分布。图3a、图3b和图3c中的横轴为发声音素的目标概率评分，越靠近坐标原点0，该发声音素的后验概率越大，发音越标准，对应的预分配评分相应就高。从图中可以看出，这三种类别的音频集在概率评分的分布上呈现明显不同，native英语的概率评分基本上在0附近，发音好；中国人说英语的概率评分在0到-8左右；错乱标注的音频的概率评分在0到-20之间，音频之间方差比较大。

然后，将发声音素的概率评分与m分制中的评分区间进行平均分布，则映射出概率评分与m分制中的评分直接的关系。任一种类别的音频均进行相同的操作。

例如，针对错乱标注的音频，不同音频中可能包括相同的音素。则针对音素集合中的每个音素，可以得到该音素的多个概率评分。将该音素的概率评分进行排序，例如按照由小至大进行排序，并将排序后的概率评分平均分布到对应的评分区间上。例如，将错乱标注的音频的百分制中的评分区间0-50划分为n等分，将音素的多个概率评分也划分为n等分。在对应的每一等分中，将概率评分映射为百分制中的评分。如图3d所示，概率评分均分为4份，即n＝4，对应的打分区间(0-50)也均分为4份，分别为0-12.5、12.5-25、25-37.5、37.5-50。概率评分越接近0，发音越准确，则对应的百分制中的评分越高。

在每一份中，将概率评分线性映射到1/n打分区间的上下限之间，即得到每个概率评分对应的m分制中的评分，从而形成{音素，概率评分，m分制中的评分}这样的一组数据。进一步还可以得到{音素，概率评分，发声时长值，音素能量，基音频率，m分制中的评分}这样的一组数据。当有多种类别的音频时，针对每种类别的音频，音素集合中的一个音素均可以得到多组{音素，概率评分，m分制中的评分}这样的数据。或者得到多组{音素，概率评分，发声时长值，音素能量，基音频率，m分制中的评分}这样的数据。

接下来就可以针对音素集合中的每个音素，根据这个音素对应的多组数据(包括根据多种类别的音频提取的数据)，训练这个音素对应的打分模型。一个音素可以训练出一个评分模型。

以上介绍了方案的核心内容，接下来将结合附图对方案进行详细介绍。附图中以虚线标识的特征或内容可理解为本申请实施例的可选操作或者可选结构。

如图4所示，提供了一种语音评分的过程示例图，该过程的执行设备可以是上述图1提到的用户设备(本地设备101、本地设备102)或服务器103。

步骤401：将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度，所述声学测度包括所述发声音素分别为每个第一音素的后验概率；所述第一音素为音素集合包括的每个音素，所述音素集合为所述文本信息对应的语言类型的音素集合。所述声学测度还可以包括：发声音素的发声时长值，发声音素的基音频率，发声音素的音素能量等。语言类型例如可以是中文，汉语，英语，德语……。

当用户在读中文时，产生一段音频，该音频对应的文本信息例如可以是汉字。当用户在读英文时，产生一段音频，该音频对应的文本信息例如可以是英语单词。

例如图2c所示，音频对应的文本信息为“governmentshavemadepolicydecisions”，这个文本信息对应的语言类型为英语，再例如，用户在读“今天天气怎么样”，产生了一段音频，这段音频对应的文本信息为汉字：“今天天气怎么样”。文本信息有其对应的正确的音素，可以称之为目标音素，也就是所述目标音素为所述文本信息分解后得到的音素。在确定文本信息对应的目标音素时，例如可以是设置有一个发音词典，该发音词典中记录有文本对应的目标音素，通过发音词典可以查找出文本信息对应的目标音素。例如文本信息“governmentshavemadepolicydecisions”对应的目标音素为“gah1ver0mah0nthhae1vmey1dpaa1lah0siy0dih0sih1zhah0nz”。再例如，文本信息“今天天气怎么样”对应的目标音素为“j”“in”“t”“i”“an”……。将采集到一段音频中包括的音素称为发声音素。

前述已经介绍过声学模型的训练过程，此处不再重复赘述。在获取到一段音频后，可以将这段音频及这段音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度，所述声学测度包括所述发声音素分别为每个第一音素的后验概率；所述第一音素遍历音素集合包括的所有音素。

以文本信息的语言类型为中文(汉语)，则音素集合中包括的第一音素分别为：21个声母：b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s；以及24个韵母a、o、e、i、u、v、ai、ei、ui、ao、ou、iu、ie、ve、er、an、en、in、un、vn、ang、eng、ing、ong。

例如“j”这个目标音素对应的发声音素分别为每个第一音素的后验概率包括：为“b”的后验概率，为“p”的后验概率，为“m”的后验概率，为“f”的后验概率，为“d”的后验概率，为“t”的后验概率，为“n”的后验概率，……，要遍历音素集合包括的每个音素。

例如，为“b”的后验概率为20％，为“p”的后验概率30％，为“m”的后验概率为40％，为“f”的后验概率为35％，……。

可选的，步骤402：根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素，所述目标音素为所述文本信息分解后得到的音素。进而执行步骤4020a或步骤402b。

步骤402a：当确定所述发声音素未背离所述目标音素时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分。

步骤402b：当确定所述发声音素背离所述目标音素时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分。

当未背离目标音素时，则可以认为该发声音素的是一个正确的音素，当背离目标音素时，则可以将该发声音素视为噪声，对该发声音素的m分制中的评分进行减小，以达到抑制非目标语音的作用。m一般为100或10，即百分制，十分制。

在一种示例中，设置后验概率的判断条件，当p(x|ot)-p(q|ot)<0，则发声音素背离目标音素。其中，x为文本信息中包括的目标音素，p(x|ot)为发声音素为目标音素的后验概率。q为对应后验概率最大值的第一音素，p(q|ot)为发声音素分别为每个第一音素的后验概率中的最大值。如果p(x|ot)-p(q|ot)<0，则表示某个发声音素是目标音素的后验概率小于该发声音素是音素集合中除该目标音素之外的其它音素的后验概率。此时，可以认为发声音素背离目标音素。也就是先确定所述发声音素分别为每个第一音素的后验概率中的最大值，当所述最大值大于所述发声音素为目标音素的后验概率时，确定所述发声音素背离所述目标音素。当所述最大值等于(不存在小于的情况)所述发声音素为目标音素的后验概率时，确定所述发声音素未背离所述目标音素。

例如，一个发声音素对应的目标音素为l，声学模型输出的该发声音素为l的后验概率为80％，为n的后验概率为65％，为该发声b的后验概率为20％，为“p”的后验概率为30％，为“m”的后验概率为40％，为“f”的后验概率为35％，……。该发声音素分别为每个第一音素的后验概率中的最大值为80％，则声学模型认为用户最大概率发音是“l”，该最大值80％等于发声音素为目标音素的后验概率80％，此时，该发声音素未背离目标音素“l”。

在另一种示例中，设置背离目标因素时的后验概率判断条件：p(x|ot)-p(q|ot)<0&&exp(p(q|ot))>β。其中，x为文本信息中包括的目标音素，p(x|ot)为发声音素为目标音素的后验概率。q为对应后验概率最大值的第一音素，p(q|ot)为发声音素分别为每个第一音素的后验概率中的最大值。如果p(p|ot)-p(q|ot)<0，则表示某个发声音素是目标音素的后验概率小于该发声音素是音素集合中除该目标音素之外的其它音素的后验概率。exp(p(q|ot))>β表示该发声音素有很大的概率是音素q。也就是当所述发声音素分别为每个第一音素的后验概率中的最大值大于(此处的大于也可以替换为大于或等于)设定阈值β，且所述最大值大于所述发声音素为目标音素的后验概率时，确定所述发声音素背离所述目标音素。当所述发声音素分别为每个第一音素的后验概率中的最大值不大于(此处的不大于也可以替换为小于)设定阈值，和/或，所述最大值不大于所述发声音素为目标音素的后验概率时，确定所述发声音素未背离所述目标音素。设定阈值β可以是85％，90％，83％等。当发声音素背离目标音素时，说明声学模型认为用户的发音不准确。

例如，设定阈值β为82％，一个发声音素对应目标音素为l，声学模型输出的该发声音素为l的后验概率为80％，为n的后验概率为85％，为该发声b的后验概率为20％，为“p”的后验概率为30％，为“m”的后验概率为40％，为“f”的后验概率为35％，……。该发声音素分别为每个第一音素的后验概率中的最大值为85％，则声学模型认为用户最大的概率的发声是“n”，最大值85％大于设定阈值β82％，且最大值85％大于发声音素为目标音素的后验概率80％，也就是该发声音素背离目标音素“l”。

再例如，设定阈值β为82％，一个发声音素对应目标音素为l，声学模型输出的该发声音素为l的后验概率为80％，为n的后验概率为65％，为该发声b的后验概率为20％，为“p”的后验概率为30％，为“m”的后验概率为40％，为“f”的后验概率为35％，……。该发声音素分别为每个第一音素的后验概率中的最大值为80％，则声学模型认为用户最大的概率的发声是“l”，虽然最大值为80％等于发声音素为目标音素的后验概率80％，但最大值80％小于设定阈值β82％，此时，该发声音素背离目标音素“l”。

如果设定阈值β为80％，或75％，则最大值80％小于设定阈值β82％，且最大值80％等于发声音素为目标音素的后验概率80％，此时，则该发声音素未背离目标音素“l”。

可选的，步骤403：确定发声音素的发声时长值满足所述目标音素对应的高斯分布原则。进而执行步骤403a和步骤403b。

步骤403a：当确定所述发声音素的发声时长值满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分。

步骤403b：当确定所述发声音素的发声时长值不满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分。

当满足高斯分布原则时，则可以认为该发声音素的是一个正确的音素，当不满足高斯分布原则时，则可以将该发声音素视为噪声，对该发声音素的m分制中的评分进行减小，以达到抑制非目标语音的作用。

该高斯分布原则可以是正态分布的3σ原则，2σ原则，或者1个σ原则。以3σ原则为例，即发声音素的发声时长值位于(μ-3σ，μ+3σ)内时，该发声音素满足3σ原则，否则不满足3σ原则。该高斯分布原则也就是一个取值范围，该取值范围可以包括上下限，也可以不包括上下限，也可以只包括上线不包括下线，也可以只包括下线不包括上限。

例如，目标音素“n”的平均时长值为0.101s，其时长值得方差为0.002s，则音素“n”的取值范围为(0.095，0.107)。如果该目标音素“n”在音频中的发声时长值为0.103，则该发声时长值为0.103位于目标音素的时长值范围(0.095，0.107)内，是满足目标音素对应的高斯分布原则的。如果该目标音素“n”在音频中的发声时长值为0.109，则该发声时长值为0.109位于目标音素的时长值范围(0.095，0.107)内，是不满足目标音素对应的高斯分布原则的。

接下来介绍确定目标音素的时长值的高斯分布原则的过程：一个语料库中包括多个音频，一个音频对应的文本信息可以对应多个目标音素，不同的音频可能对应相同的目标音素。例如“今天天气怎么样”和“今天有雨吗”，文本信息中均包括“今天”。通过上述的训练好的声学模型输出的后验概率，可以确定某个发声音素是否背离目标音素。如果某个发声音素未背离目标音素，则该发声音素的发声时长值可作为确定该目标音素的时长值的高斯分布原则的一个参考数据。这样就可以针对一个目标音素，得出多个可参考的时长值。根据这个目标音素对应的多个可参考的时长值，可以确定出该目标音素的平均时长值μ，及时长值方差σ，进而确定出3σ原则。

接下来介绍确定发声音素的概率评分的过程：首先，发声音素为目标音素的后验概率，除以所述发声音素为目标音素的先验概率，得到第一商值；以及所述发声音素分别为音素集合中的每个第一音素的后验概率中的最大值，除以所述发声音素为目标音素的先验概率，得到第二商值。然后，所述第一商值除以第二商值，得到第三商值。再然后，对所述第三商值取对数。接下来，取对数后的绝对值除以发声时长值，得到所述发声音素的概率评分。

在对概率评分进行减小处理时，可以是按照设定的分值步长值进行减小，也可以根据背离目标音素的程度或背离时长值的高斯分布原则的程度进行减小。

在本申请的一个示例中，可以不执行步骤403，进而不执行步骤403a和步骤403b。在另一个示例中也可以不执行步骤402，进而不执行步骤402a和步骤402b，也就是步骤402与步骤403只执行其中之一即可。再一个示例中，可以执行步骤402和步骤403，此时，步骤403和步骤402的先后顺序不进行限制。这样通过发声音素的后验概率和发声时长值两个角度出发，可以更加准确地确定出用户的发音是否准确。

在一种示例中，先执行步骤402，再执行步骤403。具体的，先根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素；当确定所述发声音素未背离所述目标音素时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素背离所述目标音素时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分。然后再确定发声音素的发声时长值是否满足所述目标音素对应的高斯分布原则，当确定所述发声音素的发声时长值满足所述目标音素对应的高斯分布原则时，保持所述发声音素的目标概率评分不变；或者，当确定所述发声音素的发声时长值不满足所述目标音素对应的高斯分布原则时，对所述发声音素的目标概率评分进行减小更新。

例如，发声音素的概率评分为-0.5，如果该发声音素未背离目标音素，且该发声音素的发声时长值满足目标音素对应的高斯分布原则，则发声音素的目标概率评分仍然-0.5，该目标概率评分-0.5对应的百分制中的分数为90。如果该发声音素背离目标音素，但是该发声音素的发声时长值满足目标概率的高斯分布原则，则可以对概率评分-0.5进行减小处理，例如减小后为-1，目标概率评分-1对应的百分制中的分数为80。如果该发声音素未背离目标音素，但是该发声音素的发声时长值不满足目标概率的高斯分布原则，则可以对概率评分a进行减小处理，例如减小后为-1.2，目标概率评分-1.2对应的百分制中的分数为75。如果该发声音素背离目标音素，且该发声音素的发声时长值不满足目标概率的高斯分布原则，则可以对概率评分-0.5进行减小处理，例如减小后为-1.7，目标概率评分1.7对应的百分制中的分数为65。

在发声音素未背离目标音素，且该发声音素的发声时长值满足目标概率的高斯分布原则时，百分制中的分数90最高。在发声音素背离目标音素，且该发声音素的发声时长值不满足目标概率的高斯分布原则时，百分制中的分数65最低。通过后验概率和发声时长值两个音素，来判断发声音素是否背离目标音素，可以更加准确地确定出用户的发音是否准确。

在另一种示例中，先执行步骤403，再执行步骤402。具体的，先确定所述发声音素的发声时长值是否满足目标音素对应的高斯分布原则，当确定所述发声音素的发声时长值满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素的发声时长值不满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分。然后，根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素；当确定所述发声音素未背离所述目标音素时，保持所述发声音素的目标概率评分不变；当确定所述发声音素背离所述目标音素时，对所述发声音素的目标概率评分进行减小更新。

步骤404：根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。

示例的，评分模型为y＝m/(1+e^x)，也就是根据公式y＝m/(1+e^x)，确定所述发声音素的目标概率评分对应的m分制中的评分，其中，y为m分制中的评分，x根据第一参数确定。第一参数也包括目标概率评分、发声时长值、音素能量、基音频中的一种或多种。m一般为100或10，即百分制，十分制。

在一种示例中，所述第一参数包括所述发声音素的目标概率评分。则x＝w1x1+b，其中，w1为常数，x1为所述发声音素的目标概率评分。

在一种示例中，所述第一参数包括所述发声音素的目标概率评分和发声时长值。则x＝w1x1+w2x2+b，其中，w1和w2为常数，x1为所述发声音素的目标概率评分，x2为所述发声音素的发声时长值。

在另一种示例中，根据公式x＝w1x1+w2x2+w3x3+w4x4+b，确定x。其中，w1、w2、w3、w4、b均为常数，x1为所述发声音素的目标概率评分，x2为所述发声音素的发声时长值，x3为所述发声音素的音素能量，x4为所述发声音素的基音频率。例如x1为0.015，x2为0.008356104，x3为0.1，x4为5.05。将这4个维度的数据代入到评分模型中，可以得到发声音素的m分制中的评分。通过目标概率评分、发声时长值、音素能量、基音频率这多个维度，来确定m分制中的评分，可以使确定出的评分更加准确。

再进一步地，可以根据每个发声音素对应的m分制中的评分，确定出所述音频对应的m分制中的评分。再进一步地，还可以输出每个发声音素对应的m分制中的评分和/或音频对应的m分制中的评分。

前文介绍了本申请实施例的语音评分的方法，下文中将介绍本申请实施例中的语音评分的装置。方法、装置是基于同一技术构思的，由于方法、装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

基于与上述语音评分的方法的同一技术构思，如图5所示，提供了一种语音评分的装置500，装置500能够执行上述图4执行的各个步骤。装置500可以为用户设备，也可以为应用于用户设备中的芯片，也可以是服务器或者应用于服务器中的芯片。所述装置500包括：获取模块510，验证模块520，概率分模块530，评分模块540。

在一种可能的实现中，所述获取模块510，用于将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度，所述声学测度包括所述发声音素分别为每个第一音素的后验概率，所述第一音素为音素集合包括的每个音素，所述音素集合为所述文本信息对应的语言类型的音素集合；

所述验证模块520，用于根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素，所述目标音素为所述文本信息分解后得到的音素；

所述概率分模块530，用于当确定所述发声音素未背离所述目标音素时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素背离所述目标音素时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分；

所述评分模块540，用于根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。

在一种可能的实现中，所述验证模块520在用于根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离所述目标音素时，具体用于：确定所述发声音素分别为每个第一音素的后验概率中的最大值；当所述最大值大于设定阈值，且所述最大值大于所述发声音素为目标音素的后验概率时，确定所述发声音素背离所述目标音素；当所述最大值不大于设定阈值，和/或，所述最大值不大于所述发声音素为目标音素的后验概率时，确定所述发声音素未背离所述目标音素。

在一种可能的实现中，所述声学测度还包括所述发声音素的发声时长值；所述概率分模块530在用于确定出所述发声音素的目标概率评分之后，确定所述发声音素的目标概率评分对应的m分制中的评分之前，还用于：当确定所述发声音素的发声时长值满足所述目标音素对应的高斯分布原则时，保持所述发声音素的目标概率评分不变；或者，当确定所述发声音素的发声时长值不满足所述目标音素对应的高斯分布原则时，对所述发声音素的目标概率评分进行减小更新。

在一种可能的实现中，所述评分模块540在用于根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分时，具体用于：根据公式：y＝m/(1+e^x)，确定所述发声音素的目标概率评分对应的m分制中的评分，其中，y为m分制中的评分，x根据第一参数确定，所述第一参数包括所述发声音素的目标概率评分。

在一种可能的实现中，所述声学测度还包括：音素的能量和/或基音频率；所述第一参数还包括以下至少之一：发声时长值、音素能量、基音频率。所述评分模块540，还用于根据公式：x＝w1x1+w2x2+w3x3+w4x4+b，确定x，其中，w1、w2、w3、w4、b均为常数，x1为所述发声音素的目标概率评分，x2为所述发声音素的发声时长值，x3为所述发声音素的音素能量，x4为所述发声音素的基音频率。

在一种可能的实现中，所述评分模块540，还用于采用不同类别的音频的音素的目标概率评分及音素的目标概率评分对应的m分制中的评分，对评分模型进行训练，不同类别的音频对应的m分制中的评分区间不同。

在一种可能的实现中，所述获取模块510，用于将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度，所述声学测度包括所述发声音素的发声时长值；

所述概率分模块530，用于当确定所述发声音素的发声时长值满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素的发声时长值不满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分；

所述评分模块540，用于根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。

在一种可能的实现中，所述声学测度包括所述发声音素分别为每个第一音素的后验概率，所述第一音素遍历音素集合包括的所有音素；

所述装置还包括：

验证模块520，用于根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素；

所述概率分模块530，还用于当确定所述发声音素未背离所述目标音素时，保持所述发声音素的目标概率评分不变；当确定所述发声音素背离所述目标音素时，对所述发声音素的目标概率评分进行减小更新。

图6是本申请实施例的语音评分的装置600的示意性框图。应理解，所述装置600能够执行上述图4的方法中的各个步骤。装置600包括：处理器610，可选的，还包括收发器620和存储器630。该收发器，可以用于接收程序指令并传输至所述处理器，或者，该收发器可以用于该装置与其他通信设备进行通信交互，比如交互控制信令和/或业务数据等。该收发器可以为代码和/或数据读写收发器，或者，该收发器可以为通信处理器与收发机之间的信号传输收发器。所述处理器610和所述存储器630之间电耦合。

示例的，存储器630，用于存储计算机程序；所述处理器610，可以用于调用所述存储器中存储的计算机程序或指令，执行上述的语音评分的方法，或者通过所述收发器620执行上述的语音评分的方法。

示例的，所述处理器610，用于将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度，所述声学测度包括所述发声音素分别为每个第一音素的后验概率，所述第一音素为音素集合包括的每个音素，所述音素集合为所述文本信息对应的语言类型的音素集合；并根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素，所述目标音素为所述文本信息分解后得到的音素；当确定所述发声音素未背离所述目标音素时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素背离所述目标音素时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分；

根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。

在一种示例中，所述处理器610在用于根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离所述目标音素时，具体用于：当所述发声音素分别为每个第一音素的后验概率中的最大值大于设定阈值，且所述最大值大于所述发声音素为目标音素的后验概率时，确定所述发声音素背离所述目标音素；当所述发声音素分别为每个第一音素的后验概率中的最大值不大于设定阈值，和/或，所述最大值不大于所述发声音素为目标音素的后验概率时，确定所述发声音素未背离所述目标音素。

在一种示例中，所述处理器610在确定出所述发声音素的目标概率评分之后，在确定所述发声音素的目标概率评分对应的m分制中的评分之前，还用于当确定所述发声音素的发声时长值满足所述目标音素对应的高斯分布原则时，保持所述发声音素的目标概率评分不变；或者，当确定所述发声音素的发声时长值不满足所述目标音素对应的高斯分布原则时，对所述发声音素的目标概率评分进行减小更新。

在一种示例中，所述处理器610在用于根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分时，具体用于：根据公式：y＝m/(1+e^x)，确定所述发声音素的目标概率评分对应的m分制中的评分，其中，y为m分制中的评分，x根据第一参数确定，所述第一参数包括所述发声音素的目标概率评分。

在一种示例中，所述处理器610还可以用于根据公式：x＝w1x1+w2x2+w3x3+w4x4+b，确定x，其中，w1、w2、w3、w4、b均为常数，x1为所述发声音素的目标概率评分，x2为所述发声音素的发声时长值，x3为所述发声音素的音素能量，x4为所述发声音素的基音频率。

在一种示例中，所述处理器610还可以用于采用不同类别的音频的音素的目标概率评分及音素的目标概率评分对应的m分制中的评分，对评分模型进行训练，不同类别的音频对应的m分制中的评分区间不同。

在一种示例中，所述处理器610还可以用于将一段音频及所述音频对应的文本信息，输入到预先训练好的声学模型中，得到所述音频包括的每个发声音素的声学测度，所述声学测度包括所述发声音素的发声时长值；当确定所述发声音素的发声时长值满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分确定为所述发声音素的目标概率评分；当确定所述发声音素的发声时长值不满足目标音素对应的高斯分布原则时，将预先确定的所述发声音素的概率评分进行减少处理后，确定为所述发声音素的目标概率评分；根据预先训练的评分模型，确定所述发声音素的目标概率评分对应的m分制中的评分。

在一种示例中，所述处理器610还可以用于在确定出所述发声音素的目标概率评分之后，在确定所述发声音素的目标概率评分对应的m分制中的评分之前，根据所述发声音素分别为每个第一音素的后验概率，确定所述发声音素是否背离目标音素；当确定所述发声音素未背离所述目标音素时，保持所述发声音素的目标概率评分不变；

当确定所述发声音素背离所述目标音素时，对所述发声音素的目标概率评分进行减小更新。

上述的处理器可以是中央处理器(centralprocessingunit，cpu)，网络处理器(networkprocessor，np)或者cpu和np的组合。处理器还可以进一步包括硬件芯片或其他通用处理器。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit，asic)，可编程逻辑器件(programmablelogicdevice，pld)或其组合。上述pld可以是复杂可编程逻辑器件(complexprogrammablelogicdevice，cpld)，现场可编程逻辑门阵列(field-programmablegatearray，fpga)，通用阵列逻辑(genericarraylogic，gal)及其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等或其任意组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-onlymemory，rom)、可编程只读存储器(programmablerom，prom)、可擦除可编程只读存储器(erasableprom，eprom)、电可擦除可编程只读存储器(electricallyeprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(staticram，sram)、动态随机存取存储器(dynamicram，dram)、同步动态随机存取存储器(synchronousdram，sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram，ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram，esdram)、同步连接动态随机存取存储器(synchlinkdram，sldram)和直接内存总线随机存取存储器(directrambusram，drram)。应注意，本申请描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例所述的收发装置、接口电路、或者收发器中可以包括单独的发送器，和/或，单独的接收器，也可以是发送器和接收器集成一体。收发装置、接口电路、或者收发器可以在相应的处理器的指示下工作。可选的，发送器可以对应物理设备中发射机，接收器可以对应物理设备中的接收机。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被计算机执行时，可以使得所述计算机用于执行上述语音评分的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机可以执行上述提供的语音评分的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包括有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包括这些改动和变型在内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签：文本分析文本分类先验概率概率计算发音方法

上一篇一种车载音乐的使用系统、方法及存储介质与流程

下一篇音频编码方法、装置、电子设备和存储介质与流程

热门咨询

热门标签

热门产品

tips