对象的口语评测方法和装置、存储介质和电子装置与流程

2021-01-28 14:01:34|

278|

起点商标网

本申请涉及计算机领域，尤其涉及一种对象的口语评测方法和装置、存储介质和电子装置。

背景技术：

口语评测模型常被用来对说话人的口语水平进行评测。由于环境因素等的影响，口语评测所使用的语音数据中会包含有环境噪声。为提高口语测评的准确性，可以在口语测试时采用多种降噪方式对口语测评的语音数据进行降噪处理。常用的降噪方式包括：基于信号处理的降噪方式，基于声学模型的降噪方式。

基于信号处理的降噪方式是比较常见的降噪方式，通过在语音识别模型前端增加信号处理降噪模块对带噪数据进行降噪，如图1所示。信号处理降噪模块通常需要麦克风阵列来达到更好的性能。

通过ns(noisesuppression，噪声抑制)算法可以在一定程度解决背景噪声的问题。然而，为了获得更好的降噪和数据增强效果，通常需要利用麦克风阵列引入更多地空间信息使语音的失真度更小，而麦克风阵列相对来说成本较高。并且，很多应用场景下用户的设备中通常是单麦克风，无法满足语音降噪的硬件需求。

此外，由于信号处理主要是通过降低环境噪声和增强说话人的声音的方式来实现降低，因此，对于含有背景说话人噪声的语音数据，目前的信号处理很难提取出目标说话人的语音。通常需要针对场景引入更多算法模块实现降噪，例如，声源定位(doa，direction-of-arrival)、回声消除(aec，acousticechocancellation)等。

因此，基于信号处理降噪的方式为了获得更好地性能，需要利用麦克风阵列提供的空间信息，实现成本较高，且实现模块较为复杂。

基于声学模型的降噪方式通过训练一个对噪声鲁棒的声学模型，一般是通过人工搜集带有相应场景噪声的语音样本或者通过人工制作带噪声样本进行声学模型训练，如图2所示。

基于声学模型的降噪方式通常是基于深度学习在模型端对噪声进行吸收/降噪。在训练模型之前，需要先搜集带有噪声的数据样本。如果拥有带噪声的真实语音数据，利用这部分数据还需要预先标注，此时会涉及到比较大的人工标注成本。如果没有带噪声的真实语音数据，需要人工去搜集或者录制场景下的噪声数据，然后再对得到的噪声数据进行标注等，同样需要消耗较大的人工成本，且与直接使用真实数据得到的声学模型在识别效果上存在一定差距。此外，该方法对于语音含有背景人声的样本，无法有效消除背景人声的影响。

因此，相关技术中的语音评测方法中的降噪方式，存在实现成本较高，实现过程复杂，且无法有效消除背景人声的问题。

技术实现要素：

本申请提供了一种对象的口语评测方法和装置、存储介质和电子装置，以至少解决相关技术中的语音评测方法中的降噪方式存在的实现成本较高、实现过程复杂、且无法有效消除背景人声的问题。

根据本申请实施例的一个方面，提供了一种对象的口语评测方法，包括：获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，所述待评测语音数据为对所述目标对象进行口语评测所使用的语音数据；根据所述目标声纹特征和所述第一语音特征，确定所述待评测语音数据中所述目标对象的目标语音边界；按照所述目标语音边界，从所述待评测语音数据中获取属于所述目标对象的第一语音数据；使用所述第一语音数据对所述目标对象进行口语评测，得到所述目标对象的目标评测结果。

可选地，所述获取目标对象的目标声纹特征和待评测语音数据的第一语音特征包括：从声纹库中提取出所述目标对象的所述目标声纹特征，其中，所述声纹库中保存有多个对象的声纹特征，所述多个对象包括所述目标对象；提取所述待评测语音数据的语音特征，得到所述第一语音特征。

可选地，在所述从声纹库中提取出所述目标对象的所述目标声纹特征之前，所述方法还包括：通过所述目标对象的客户端显示注册提示信息，其中，注册提示信息用于提示所述目标对象注册声纹；接收所述客户端返回的第二语音数据，其中，所述第二语音数据为所述目标对象响应所述注册提示信息所输入的语音数据；提取所述第二语音数据的声纹特征，得到所述目标声纹特征；将所述目标声纹特征保存到所述声纹库中。

可选地，所述根据所述目标声纹特征和所述第一语音特征，确定所述待评测语音数据中所述目标对象的目标语音边界包括：将所述目标声纹特征和所述第一语音特征输入到目标声音活动检测模型，得到所述目标声音活动检测模型输出的所述目标语音边界，其中，所述目标声音活动检测模型是使用训练对象的声纹特征和训练语音数据的语音特征对初始声音活动检测模型进行训练得到的，所述训练语音数据为标注了所述训练对象的语音边界的语音数据。

可选地，所述将所述目标声纹特征和所述第一语音特征输入到目标声音活动检测模型，得到所述目标声音活动检测模型输出的所述目标语音边界包括：将所述目标声纹特征和所述第一语音特征输入到所述目标声音活动检测模型，得到所述目标声音活动检测模型确定的、所述待评测语音数据中的每个语音帧属于所述目标对象的概率；确定所述待评测语音数据中属于所述目标对象的第一语音帧，其中，所述第一语音帧为所述待评测语音数据中属于所述目标对象的概率大于或者等于目标概率阈值的语音帧；根据所述第一语音帧，输出所述待评测语音数据中所述目标对象的所述目标语音边界。

可选地，在所述根据所述目标声纹特征和所述第一语音特征，确定所述待评测语音数据中所述目标对象的目标语音边界之前，所述方法还包括：获取所述训练对象的声纹特征和所述训练语音数据的语音特征；根据所述训练语音数据中所述训练对象的语音边界，确定第二语音帧和第三语音帧，其中，所述第二语音帧为所述训练语音数据中属于所述训练对象的语音帧，所述第三语音帧为所述训练语音数据中除了所述第二语音帧以外的语音帧；将所述训练对象的声纹特征和所述训练语音数据的语音特征输入到所述初始声音活动检测模型，得到所述初始声音活动检测模型输出的、所述训练语音数据中的每个语音帧属于所述训练对象的概率；调整所述初始声音活动检测模型的模型参数，得到所述目标声音活动检测模型，其中，所述目标声音活动检测模型输出的所述第二语音帧属于所述训练对象的概率大于或者等于目标概率阈值、且所述第三语音帧属于所述训练对象的概率小于所述目标概率阈值。

可选地，所述使用所述第一语音数据对所述目标对象进行口语评测，得到所述目标对象的目标评测结果包括：获取所述第一语音数据的第二语音特征；将所述第二语音特征输入到语音识别模型，得到所述语音识别模型输出的解码结果，其中，所述解码结果用于指示所述第一语音数据的各个发音单元为对应的目标发音单元的概率；根据所述解码结果所指示的各个发音单元为对应的所述目标发音单元的概率，确定所述目标对象的所述目标评测结果。

根据本申请实施例的另一个方面，还提供了一种对象的口语评测装置，包括：第一获取单元，用于获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，所述待评测语音数据为对所述目标对象进行口语评测所使用的语音数据；第一确定单元，用于根据所述目标声纹特征和所述第一语音特征，确定所述待评测语音数据中所述目标对象的目标语音边界；第二获取单元，用于按照所述目标语音边界，从所述待评测语音数据中获取属于所述目标对象的第一语音数据；评测单元，用于使用所述第一语音数据对所述目标对象进行口语评测，得到所述目标对象的目标评测结果。

可选地，所述第一获取单元包括：第一提取模块，用于从声纹库中提取出所述目标对象的所述目标声纹特征，其中，所述声纹库中保存有多个对象的声纹特征，所述多个对象包括所述目标对象；第二提取模块，用于提取所述待评测语音数据的语音特征，得到所述第一语音特征。

可选地，所述装置还包括：显示单元，用于在所述从声纹库中提取出所述目标对象的所述目标声纹特征之前，通过所述目标对象的客户端显示注册提示信息，其中，注册提示信息用于提示所述目标对象注册声纹；接收单元，用于接收所述客户端返回的第二语音数据，其中，所述第二语音数据为所述目标对象响应所述注册提示信息所输入的语音数据；提取单元，用于提取所述第二语音数据的声纹特征，得到所述目标声纹特征；保存单元，用于将所述目标声纹特征保存到所述声纹库中。

可选地，所述第一确定单元包括：第一输入模块，用于将所述目标声纹特征和所述第一语音特征输入到目标声音活动检测模型，得到所述目标声音活动检测模型输出的所述目标语音边界，其中，所述目标声音活动检测模型是使用训练对象的声纹特征和训练语音数据的语音特征对初始声音活动检测模型进行训练得到的，所述训练语音数据为标注了所述训练对象的语音边界的语音数据。

可选地，所述第一输入模块包括：输入子模块，用于将所述目标声纹特征和所述第一语音特征输入到所述目标声音活动检测模型，得到所述目标声音活动检测模型确定的、所述待评测语音数据中的每个语音帧属于所述目标对象的概率；确定子模块，用于确定所述待评测语音数据中属于所述目标对象的第一语音帧，其中，所述第一语音帧为所述待评测语音数据中属于所述目标对象的概率大于或者等于目标概率阈值的语音帧；输出子模块，用于根据所述第一语音帧，输出所述待评测语音数据中所述目标对象的所述目标语音边界。

可选地，所述装置还包括：第三获取单元，用于在所述根据所述目标声纹特征和所述第一语音特征，确定所述待评测语音数据中所述目标对象的目标语音边界之前，获取所述训练对象的声纹特征和所述训练语音数据的语音特征；第二确定单元，用于根据所述训练语音数据中所述训练对象的语音边界，确定第二语音帧和第三语音帧，其中，所述第二语音帧为所述训练语音数据中属于所述训练对象的语音帧，所述第三语音帧为所述训练语音数据中除了所述第二语音帧以外的语音帧；输入单元，用于将所述训练对象的声纹特征和所述训练语音数据的语音特征输入到所述初始声音活动检测模型，得到所述初始声音活动检测模型输出的、所述训练语音数据中的每个语音帧属于所述训练对象的概率；调整单元，用于调整所述初始声音活动检测模型的模型参数，得到所述目标声音活动检测模型，其中，所述目标声音活动检测模型输出的所述第二语音帧属于所述训练对象的概率大于或者等于目标概率阈值、且所述第三语音帧属于所述训练对象的概率小于所述目标概率阈值。

可选地，所述评测单元包括：获取模块，用于获取所述第一语音数据的第二语音特征；第二输入模块，用于将所述第二语音特征输入到语音识别模型，得到所述语音识别模型输出的解码结果，其中，所述解码结果用于指示所述第一语音数据的各个发音单元为对应的目标发音单元的概率；确定模块，用于根据所述解码结果所指示的各个发音单元为对应的所述目标发音单元的概率，确定所述目标对象的所述目标评测结果。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请实施例的又一个方面，还提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在本申请实施例中，采用使用特定说话人的声纹特征和语音特征进行降噪的方式，通过获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，所述待评测语音数据为对所述目标对象进行口语评测所使用的语音数据；根据所述目标声纹特征和所述第一语音特征，确定所述待评测语音数据中所述目标对象的目标语音边界；按照所述目标语音边界，从所述待评测语音数据中获取属于所述目标对象的第一语音数据；使用所述第一语音数据对所述目标对象进行口语评测，得到所述目标对象的目标评测结果，由于使用目标说话人(目标对象)的声纹特征和语音特征来确定目标说话人的语音边界，无需麦克风阵列提供控件信息，且实现过程简单，从而可以实现有效语音降噪的目的，达到了降低口语评测成本、简化实现过程、提高背景人声去除的有效性的技术效果，进而解决了相关技术中的语音评测方法中的降噪方式存在的实现成本较高、实现过程复杂、且无法有效消除背景人声的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是一种可选的对象的口语评测方法的示意图；

图2是另一种可选的对象的口语评测方法的示意图；

图3是根据本发明实施例的一种可选的对象的口语评测方法的硬件环境的示意图；

图4是根据本申请实施例的一种可选的对象的口语评测方法的流程图；

图5是根据本申请实施例的一种可选的对象的口语评测方法的示意图；

图6是根据本申请实施例的另一种可选的对象的口语评测方法的流程图；

图7是根据本申请实施例的一种可选的对象的口语评测装置的结构框图；

图8是根据本申请实施例的一种可选的电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

asr：automaticspeechrecognition，自动语音识别；

vad：voiceactivitydetection，声音活动检测，用于检测给定语音中有声和无声部分；

nn：neuralnetwork，神经网络；

dnn：deepneuralnetwork，深度神经网络；

vector：向量；

bss：blindsourceseparation，盲源分离；

fbank：filterbank，语音常用特征；

d-vector/x-vector：对应声纹特征类型。

根据本申请实施例的一个方面，提供了一种对象的口语评测方法。可选地，在本实施例中，上述对象的口语评测方法可以应用于如图3所示的由终端302和服务器304所构成的硬件环境中。如图3所示，服务器304通过网络与终端302进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器304提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端302并不限定于pc、手机、平板电脑等。本申请实施例的对象的口语评测方法可以由服务器304来执行，也可以由终端302来执行，还可以是由服务器304和终端302共同执行。其中，终端302执行本申请实施例的对象的口语评测方法也可以是由安装在其上的客户端来执行。

以运行在终端侧为例，图4是根据本申请实施例的一种可选的对象的口语评测方法的流程图，如图4所示，该方法的流程可以包括以下步骤：

步骤s402，获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，待评测语音数据为对目标对象进行口语评测所使用的语音数据；

步骤s404，根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界；

步骤s406，按照目标语音边界，从待评测语音数据中获取属于目标对象的第一语音数据；

步骤s408，使用第一语音数据对目标对象进行口语评测，得到目标对象的目标评测结果。

通过上述步骤s402至步骤s408，获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，所述待评测语音数据为对所述目标对象进行口语评测所使用的语音数据；根据所述目标声纹特征和所述第一语音特征，确定所述待评测语音数据中所述目标对象的目标语音边界；按照所述目标语音边界，从所述待评测语音数据中获取属于所述目标对象的第一语音数据；使用所述第一语音数据对所述目标对象进行口语评测，得到所述目标对象的目标评测结果，解决了相关技术中的语音评测方法中的降噪方式存在的实现成本较高、实现过程复杂、且无法有效消除背景人声的问题，降低了口语评测成本，简化了实现过程，提高了背景人声去除的有效性。

在步骤s402提供的技术方案中，获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，待评测语音数据为对目标对象进行口语评测所使用的语音数据。

本实施例中的对象的口语评测方法可以应用于对某一种语言进行口语评测的场景。在该场景中，用户的终端设备可以与服务器进行通信连接，该服务器为用于进行口语评测的服务器。终端设备可以运行有目标应用的客户端，目标应用可以是用于进行口语评测的应用。上述客户端和服务器可以均属于口语评测系统，或者包含口语评测功能的口语系统，该口语系统可以用于进行口语学习、学习交流、口语训练、口语评测等。

目标对象(对应于某一用户，目标说话人)可以使用帐号和密码、动态密码、关联应用登录等方式登录到其终端设备上运行的目标应用的客户端，并对客户端执行触发操作触发进入到口语评测界面。上述触发操作可以是点击操作、滑动操作或者其组合，本实施例中对此不作具体限定。

口语评测可以包含多个评测资源，例如，多道题目，每个评测资源可以包含但不限于以下至少之一：评测内容的文字提示信息，评测内容的语音提示信息，评测内容的文字描述信息，评测内容的参考语音数据(也就是，标准答案)，其中，评测内容的文字提示信息和评测内容的文字描述信息可以通过客户端的口语评测界面显示，评测内容的语音提示信息和评测内容的参考语音数据可以通过终端设备的扬声器进行播放。

例如，在进行口语评测时，评测内容为“xxxx”(一句话)，可以在口语评测界面中显示文字提示信息，文字提示信息可以提示：在什么时间进行语音输入、当前是第几道题目、进入上一道题目或者下一道题目的接口等等，还可以显示有该评测内容的文字信息，以方便用户获知需要输入的内容。此外，也可以通过扬声器播放语音提示，语音提示可以提示：在什么时间进行语音输入、当前是第几道题目等等。还可以通过扬声器播放标准答案，播放的次数可以是一次或多次。

在客户端的口语评测界面中上可以显示有开始语音输入的按钮、取消语音输入的按钮、暂停语音输入的按钮等等，此外，还可以显示有其他用于控制口语评测进度的按钮，本实施例中对此不作具体限定。

对于目标评测资源，目标对象可以根据客户端的提示进行语音输入，输入与该目标评测资源对应的待评测语音数据，待评测语音数据可以是对目标对象进行口语评测所使用的语音数据。客户端获取到用户输入的待评测语音数据之后，可以将待评测语音数据通过客户端与服务器之间的通信连接发送给服务器，以便服务器进行口语评测。

服务器可以接收客户端发送的待评测语音数据，或者，从数据库中获取待评测语音数据。不同对象的口语评测语音数据可以首先保存到数据库中，服务器可以按照口语评测语音数据的时间顺序或者其他顺序(例如，优先等级)从数据库中获取口语评测语音数据进行口语评测。

除了待评测语音数据以外，服务器还可以获取目标对象的目标声纹特征(特征数据)，该声纹特征可以是预先保存的，也可以是现场录制的，还可以是通过其他方式获取的，本实施例中对此不作具体限定。

可选地，在本实施例中，可以将d-vector或x-vector模型神经网络中间某层的embedding作为声纹特征，而提取的语音特征可以为filterbank(fbank特征)。

在步骤s404提供的技术方案中，根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界。

目标说话人周围可能包含很多噪音，为了提升口语评测的性能，进而提升评测算法效果，可以对待评测语音数据进行降噪处理，降噪处理的方式可以是：针对给定语音段(例如，待评测语音数据)去除两端非目标说话人(例如，目标对象)的语音段，从而提取出目标说话人或者感兴趣说话人语音进行口语评测。将不相干语音去除，就不需要进行评测打分，因此，还可以提升口语评测的处理速度。标注目标说话人边界，实际上也就是获得目标说话人语音段。

为了去除非目标对象的语音段，服务器可以根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界。目标声纹特征和第一语音特征的结合可以用于识别待评测语音数据中哪一部分是目标对象的语音输入。第一语音特征可以是：待评测语音数据的fbank特征，还可以是其他能够识别语音数据对应的发音单元的语音特征，本实施例中对此不作具体限定。

例如，第一语音特征可以用于识别待评测语音数据中的非静音部分，而目标声纹特征可用于确定非静音部分中属于目标对象的目标部分。又例如，目标声纹特征和第一语音特征可以通过合并作为一个整体特征，用于识别待评测语音数据中的属于目标对象的语音数据。

目标语音边界即目标对象的语音数据与非目标对象的语音数据之间的边界，目标语音边界的数量可以为一个或多个，本实施例中对此不作具体限定。

例如，目标说话人的待评测语音数据的时长为1分钟，其中，前10s为静音、以及非目标说话人的语音输入，则目标说话人的语音边界为：第10s和第60s。

又例如，目标说话人的待评测语音数据的时长为1分钟，其中，前10s为静音、以及非目标说话人的语音输入，后5s为静音，则目标说话人的语音边界为：第10s和第55s。

再例如，目标说话人的待评测语音数据的时长为1分钟，其中，前10s为静音、以及非目标说话人的语音输入，第25s～30s为非目标说话人的语音输入，后5s为静音，则目标说话人的语音边界为：第10s、第25s、第30s和第55s。

在步骤s406提供的技术方案中，按照目标语音边界，从待评测语音数据中获取属于目标对象的第一语音数据。

按照待评测语音数据中目标对象的目标语音边界，可以从待评测语音数据中获取属于目标对象的第一语音数据。获取第一语音数据的方式可以是：按照目标语音边界截取目标对象的语音段，从而得到属于目标对象的第一语音数据。获取第一语音数据的方式也可以是：在确定目标语音边界的过程中，将属于目标对象的语音帧按照顺序提取出来，得到属于目标对象的第一语音数据。本实施例中对此不作具体限定。

在获取目标对象的语音段时，可以按照目标语音边界数量和顺序，将第(2n-1)个语音边界和第2n个语音边界之间的语音段，确定为目标对象的语音段，其中，n大于或者等于1的正整数。例如，可以首先查找第一语音边界，将第一个语音边界和第二个语音边界之间的语音段，确定属于目标对象的一个语音段；然后查找是否有第三个语音段，如果有，将第三个语音边界和第四个语音边界之间的语音段，确定属于目标对象的一个语音段，依次类推，直到所有的语音边界均已查找完毕。

例如，如前述，如果目标说话人的语音边界为：第10s和第60s，则目标说话人的语音段为：10～60s；如果目标说话人的语音边界为：第10s和第55s，则目标说话人的语音段为：10～55s；如果目标说话人的语音边界为：第10s、第25s、第30s和第55s，则目标说话人的语音段为：10～25s和30～55s。

在步骤s408提供的技术方案中，使用第一语音数据对目标对象进行口语评测，得到目标对象的目标评测结果。

在得到目标对象的第一语音数据之后，可以将第一语音数据作为对目标对象进行口语评测的数据。例如，采用相关技术中的口语评测方式对第一语音数据进行口语评测，得到目标对象的目标评测结果。

作为一种可选的实施例，作为一种可选的实施例，获取目标对象的目标声纹特征和待评测语音数据的第一语音特征包括：

s11，从声纹库中提取出目标对象的目标声纹特征，其中，声纹库中保存有多个对象的声纹特征，多个对象包括目标对象；

s12，提取待评测语音数据的语音特征，得到第一语音特征。

多个对象的声纹特征可以保存在声纹库中，多个对象可以包括上述目标对象。在获取目标对象的目标声纹特征时，服务器可以通过与声纹库之间的通信连接，使用目标对象的对象标识，从声纹库中提取出目标对象的目标声纹特征。

可选地，声纹库也可以保存在服务器的本地，服务器也可以是使用目标对象的对象标识，从声纹库中直接匹配出目标声纹特征。

服务器可以使用语音特征提取算法从待评测语音数据中提取出的第一语音特征，该第一语音特征可以是fbank特征。

通过本实施例，通过声纹库保存不同对象的声纹特征，可以提高声纹特征的获取效率，进而提升口语测评的速度。

作为一种可选的实施例，在从声纹库中提取出目标对象的目标声纹特征之前，上述方法还包括：

s21，通过目标对象的客户端显示注册提示信息，其中，注册提示信息用于提示目标对象注册声纹；

s22，接收客户端返回的第二语音数据，其中，第二语音数据为目标对象响应注册提示信息所输入的语音数据；

s23，提取第二语音数据的声纹特征，得到目标声纹特征；

s24，将目标声纹特征保存到声纹库中。

声纹库中的声纹特征可以是预先录入的，在用户最初使用产品时，可以利用说话人系统(与前述口语评测系统可以是相同的，也可以包是不同的系统)提醒目标用户录入声纹并且注册在库。

服务器可以向终端设备发送声纹注册指示，以提示目标对象的客户端与目标对象进行交互，进行目标对象的声纹注册。目标对象的客户端可以根据服务器的声纹注册指示，或者，根据预设配置信息，在其显示界面上显示注册提示信息，以提示目标对象注册声纹。

目标对象可以根据注册提示信息进行语音输入，客户端可以获取目标对象输入的第二语音数据，并将第二语音数据发送给服务器。语音输入的可以是特定内容的语音数据，也可以是任意内容的语音数据，例如，让用户预先说几句话。

服务器接收客户端发送的第二语音数据，从第二语音数据中提取出目标声纹特征，并将目标声纹特征保存到声纹库中。例如，服务器可以将用户说的上述几句话的声纹特征合并，作为该说话人注册的声纹特征。用户只需要一次注册，后面在用户进行口语评测时，可以自动从声纹库中提取出声纹特征直接进行使用。

通过本实施例，通过声纹注册提示提示用户进行声纹特征录入，可以提高声纹特征的获取效率，进而提升口语测评的速度。

作为一种可选的实施例，根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界包括：

s31，将目标声纹特征和第一语音特征输入到目标声音活动检测模型，得到目标声音活动检测模型输出的目标语音边界，其中，目标声音活动检测模型是使用训练对象的声纹特征和训练语音数据的语音特征对初始声音活动检测模型进行训练得到的，训练语音数据为标注了训练对象的语音边界的语音数据。

目标对象语音边界可以是由个性化的声音活动检测模型(即，目标声音活动检测模型)确定的。目标声音活动检测模型(例如，vad模型)是使用训练对象的声纹特征和标注了训练对象的语音边界的训练语音数据的语音特征对初始声音活动检测模型进行训练得到的。传统声音活动检测系统是用来判决静音和非静音语音段，而本实施例中的个性化声音活动检测模型结合了声纹特征，可以用来判决目标说话人和非目标说话人，得到两类结果。

对于待评测语音数据，服务器可以将目标对象的声纹特征(目标声纹特征)和待评测语音数据的语音特征(第一语音特征)输入到目标声音活动检测模型，由于目标声音活动检测模型输出待评测语音数据中目标对象的目标语音边界。

通过本实施例，通过个性化的声音活动检测模型确定目标对象的语音边，可以提高语音边界确定方式的兼容性，减少模型研发成本。

作为一种可选的实施例，将目标声纹特征和第一语音特征输入到目标声音活动检测模型，得到目标声音活动检测模型输出的目标语音边界包括：

s41，将目标声纹特征和第一语音特征输入到目标声音活动检测模型，得到目标声音活动检测模型确定的、待评测语音数据中的每个语音帧属于目标对象的概率；

s42，确定待评测语音数据中属于目标对象的第一语音帧，其中，第一语音帧为待评测语音数据中属于目标对象的概率大于或者等于目标概率阈值的语音帧；

s43，根据第一语音帧，输出待评测语音数据中目标对象的目标语音边界。

服务器可以首先将目标声纹特征和第一语音特征进行合并，得到目标语音特征，然后将目标语音特征输入到声音活动检测模型。例如，第一语音特征为fbank特征，在t时刻，可以表示为xt∈r^d，说话人系统提取的目标说话人声纹特征为vspk，可以通过直接合并语音特征xt和vspk生成新的特征用于个性化声音活动检测模型的输入特征，合并得到的方式可以是：

个性化声音活动检测模型的中间层输出可以对应于两分类任务，即给出每帧是目标说话人还是非目标说话人概率，获得目标说话人语音边界。在将目标语音特征输入到目标声音活动检测模型之后，目标声音活动检测模型可以确定出待评测语音数据中的每个语音帧属于目标对象的概率。

目标声音活动检测模型确定的不同的语音帧属于目标对象的概率是不同的，如果一个语音帧属于目标对象的概率大于或者等于目标概率阈值，可以将其确定为属于目标对象的语音帧，即，第一语音帧；如果一个语音帧属于目标对象的概率小于目标概率阈值，可以将其确定为不属于目标对象的语音帧。

根据第一语音帧，目标声音活动检测模型可以输出待评测语音数据中目标对象的目标语音边界。可以通过依次遍历所有的第一语音帧，得到目标语音边界。

可选地，可以将第一个第一语音帧确定为目标对象的一个第一类语音边界；然后，依次查找各第一语音帧，对于查找到第一语音帧，在第一语音帧与第一类语音边界相邻的情况下，将其确定为第二类语音边界；在第一语音帧与第二类语音边界相邻的情况下，将第二类语音边界更新到当前的第一语音帧；在第一语音帧没有和任何语音边界相邻的情况下，则可以将其确定为第一类语音边界。输出的目标语音边界包括：第一类语音边界和第二类语音边界。

在得到第一类语音边界和第二类语音边界之后，可以将第一类语音边界和相邻的第二类语音边界之间的时间段，确定为属于目标对象的时间段，上述相邻可以是指：在时间轴上向后相邻。

通过本实施例，根据各个语音帧属于目标对象的概率确定属于目标对象的语音帧，进而确定出目标对象的语音边界，可以提高语音边界确定模型的兼容性(兼容声音活动检测模型)，降低口语评测的成本。

作为一种可选的实施例，在根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界前，上述方法还包括：

s51，获取训练对象的声纹特征和训练语音数据的语音特征；

s52，根据训练语音数据中训练对象的语音边界，确定第二语音帧和第三语音帧，其中，第二语音帧为训练语音数据中属于训练对象的语音帧，第三语音帧为训练语音数据中除了第二语音帧以外的语音帧；

s53，将训练对象的声纹特征和训练语音数据的语音特征输入到初始声音活动检测模型，得到初始声音活动检测模型输出的、训练语音数据中的每个语音帧属于训练对象的概率；

s54，调整初始声音活动检测模型的模型参数，得到目标声音活动检测模型，其中，目标声音活动检测模型输出的第二语音帧属于训练对象的概率大于或者等于目标概率阈值、且第三语音帧属于训练对象的概率小于目标概率阈值。

在使用目标声音活动检测模型之前，可以首先获取训练对象的声纹特征和训练对象的训练语音数据的语音特征，该训练语音数据为标注了训练对象的语音边界的语音数据；然后，使用训练对象的声纹特征和训练语音数据的语音特征，对初始声音活动检测模型进行训练，得到目标声音活动检测模型。训练初始模型的服务器或者设备与使用目标模型进行语音边界确定的服务器或者设备可以是相同的，也可以是不同。

在进行模型训练之前，可以将训练对象的声纹特征和训练语音数据的语音特征进行合并，得到模型训练特征；在进行模型训练时，可以使用模型训练特征对初始声音活动检测模型进行训练。个性化声音活动检测训练目标为两分类任务，即给出每帧是特定说话人(训练对象)还是非特定说话人的概率，获得特定说话人语音边界。

可选地，可以根据训练语音数据中训练对象的语音边界，确定出训练语音数据中属于训练对象的语音帧(即，第二语音帧)、以及训练语音数据中除了第二语音帧以外的语音帧(即，第三语音帧)。

将模型训练特征输入到初始声音活动检测模型，得到初始声音活动检测模型的第一输出结果，该第一输出结果可以指示训练语音数据中的每个语音帧属于训练对象的概率。根据第一输出结果、以及标注出的第二语音帧和第三语音帧，可以调整初始声音活动检测模型的模型参数，使得调整后的声音活动检测模型输出的第二输出结果所指示第二语音帧属于训练对象的概率大于第一输出结果所指示的第二语音帧属于训练对象的概率，并且，第二输出结果所指示第三语音帧属于训练对象的概率小于第一输出结果所指示的第三语音帧属于训练对象的概率。

训练语音数据的数量可以有多个，对应地，模型训练特征也可以有多个，可以将多个模型训练特征依次输入到声音活动检测模型并调整声音活动检测模型的模型参数。通过多轮迭代，在满足目标函数的情况下训练结束，从而得到目标声音活动检测模型。该目标声音活动检测模型输出的第二语音帧属于训练对象的概率大于或者等于目标概率阈值，并且，该目标声音活动检测模型输出的第三语音帧属于训练对象的概率小于目标概率阈值。

需要说明的是，训练声音活动检测模型为一个两类分类任务，一类为特定说话人，一类为非特定说话人。在模型预测时，会给出每一帧属于特定说话人或者非特定说话人的概率。

通过本实施例，通过使用标注了训练对象的语音边界的训练语音数据对初始声音活动检测模型进行训练，得到目标声音活动检测模型，可以提高目标声音活动检测模型识别特定说话人语音边界的能力。

作为一种可选的实施例，使用第一语音数据对目标对象进行口语评测，得到目标对象的目标评测结果包括：

s61，获取第一语音数据的第二语音特征；

s62，将第二语音特征输入到语音识别模型，得到语音识别模型输出的解码结果，其中，解码结果用于指示第一语音数据的各个发音单元为对应的目标发音单元的概率；

s63，根据解码结果所指示的各个发音单元为对应的目标发音单元的概率，确定目标对象的目标评测结果。

在使用第一语音数据对目标对象进行口语评测时，可以首先获取第一语音数据的第二语音特征。由于第一语音数据为待评测语音数据的部分，可以从待评测语音数据的第一语音特征中提取出第一语音数据的第二语音特征。

例如，语音特征为fbank特征，可以根据目标声音活动检测模型的输出的时间边界，计算出可以重复使用的fbank特征区间。

在得到第二语音特征之后，可以将第二语音特征送入语音识别模型(例如，asr模型)进行解码，获取指定发音单元的概率信息，即，第一语音数据的各个发音单元为对应的目标发音单元的概率。例如，语音识别模型可以直接对目标说话人语音段做限定解码(强制对齐)和正常解码，这些解码结果作为打分的依据。

每个发音单元可以包含识别出的一个音素对应的一个或多个语音帧，而目标发音单元对应于目标评测资源中的一个目标音素，该目标发音单元包含于该目标音素对应于一个或多个标准语音帧。

根据解码结果所指示的各个发音单元为对应的目标发音单元的概率，可以确定目标对象的目标评测结果。例如，口语评测模型可以利用解码结果，确定目标对象的目标评测结果。口语评测模型可以利用语音识别模型解码的结果进行判别，如利用强制对齐的结果作为标准答案，比对正常解码结果和标注答案的差别，依次对各个发音单元进行评分，从而得到目标对象的目标评测结果。

通过本实施例，使用语音识别模型进行发音单元的识别，并根据语音识别模型的解码结果进行口语评测，可以提高口语评测的合理性的同时，提高口语评测的兼容性(兼容已有口语评测方法)。

下面结合可选示例对本申请实施例中的对象的口语评测方法进行解释说明。在本示例中，语音特征为语音数据的fbank特征，语音识别模型为asr模型，目标声音活动检测模型为个性化vad模型，声纹特征为由说话人识别系统所提取的。

在口语评测时，为了使目标获得更好的测评体验和更精准的测评结果，可以对语音进行预先降噪。由于场景的复杂性，噪声类型也十分复杂，甚至会有含有背景人声的情况。

在本示例中，可以结合声纹特征的vad判决目标说话人方式，预先训练说话人识别系统，利用该系统获得目前用户的说话人特征(声纹特征)，在训练vad系统时，结合该目标说话人特征，输出目标说话人和非目标说话人两类概率，非目标说话人也包含纯静音的可能，可以有效地去除非目标说话人语音段。

在进行口语评测之前，可以训练一个说话人识别系统，例如，采用基于nn的说话人模型，如d-vector或者x-vector模型。说话人识别模型可以采用常规的d-vector模型和x-vector模型，说话人识别模型的训练数据可以为含说话标注的语音数据，在特定场景下可以为真实用户数据。在用户最初使用产品(客户端)时，可以利用说话人系统提取目标用户的声纹并注册在库。

还可以结合声纹特征训练个性化vad模型，在进行vad模型训练时，可以使用参考说话人(训练对象)的声纹特征和参考语音数据(训练语音数据)的fbank特征对初始vad模型进行训练。在训练后面vad模型时，模型由两个输入即声纹特征和fbank特征合并的特征，如fbank为40维，声纹特征为100维，合并后为140维，该140维的特征作为该vad模型的输入。训练数据可以为特定场景下的真实标注数据，即数据中已经标出目标说话人和非目标说话人区域。训练该模型可以采用nnvad训练方法。

结合图5和图6，本可选示例中的对象的口语评测方法的流程可以包括以下步骤：

步骤s602，提取目标说话人的声纹特征和语音特征。

对于目标说话人，在之后使用产品收到用户语音时，可以提取目标说话人的待评测语音数据的语音特征和目标说话人的声纹特征。

步骤s604，合并语音特征和声纹特征，并输入到个性化vad模型，得到vad模型输出的目标说话人的语音边界。

可以通过结合提取语音特征和声纹特征送入个性化vad进行判决目标说话人语音边界，从而去除两端非目标说话人的语音段，得到目标说话人的语音段。

步骤s606，将目标说话人的语音段送入asr模型和口语评测模型进行最终的输出。

对于目标说话人的语音段，可以重新提取对应的fbank特征送入asr模型进行解码，获取指定发音单元的概率信息，口语测评依此进行评分。

通过本示例，在口语评测前端进行降噪处理，通过结合目标说话人声纹的个性化vad系统获得最终目标说话人语音段后开始评测打分，由于针对给定语音段去除两端非目标说话人的语音段，可以对评测语音数据进行有效降噪，提高口语评测的准确性，提升口语评测的效率，同时也可以降低口语评测的成本。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述对象的口语评测方法的对象的口语评测装置。图7是根据本申请实施例的一种可选的对象的口语评测装置的结构框图，如图7所示，该装置可以包括：

(1)第一获取单元702，用于获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，待评测语音数据为对目标对象进行口语评测所使用的语音数据；

(2)第一确定单元704，与第一获取单元702相连，用于根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界；

(3)第二获取单元706，与第一确定单元704相连，用于按照目标语音边界，从待评测语音数据中获取属于目标对象的第一语音数据；

(4)评测单元708，与第二获取单元706相连，用于使用第一语音数据对目标对象进行口语评测，得到目标对象的目标评测结果。

需要说明的是，该实施例中的第一获取单元702可以用于执行上述步骤s402，该实施例中的第一确定单元704可以用于执行上述步骤s404，该实施例中的第二获取单元706可以用于执行上述步骤s406，该实施例中的评测单元708可以用于执行上述步骤s408。

通过上述模块，获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，所述待评测语音数据为对所述目标对象进行口语评测所使用的语音数据；根据所述目标声纹特征和所述第一语音特征，确定所述待评测语音数据中所述目标对象的目标语音边界；按照所述目标语音边界，从所述待评测语音数据中获取属于所述目标对象的第一语音数据；使用所述第一语音数据对所述目标对象进行口语评测，得到所述目标对象的目标评测结果，解决了相关技术中的语音评测方法中的降噪方式存在的实现成本较高、实现过程复杂、且无法有效消除背景人声的问题，降低了口语评测成本，简化了实现过程，提高了背景人声去除的有效性。

作为一种可选的实施例，第一获取单元702包括：

第一提取模块，用于从声纹库中提取出目标对象的目标声纹特征，其中，声纹库中保存有多个对象的声纹特征，多个对象包括目标对象；

第二提取模块，用于提取待评测语音数据的语音特征，得到第一语音特征。

作为一种可选的实施例，上述装置还包括：

显示单元，用于在从声纹库中提取出目标对象的目标声纹特征之前，通过目标对象的客户端显示注册提示信息，其中，注册提示信息用于提示目标对象注册声纹；

接收单元，用于接收客户端返回的第二语音数据，其中，第二语音数据为目标对象响应注册提示信息所输入的语音数据；

提取单元，用于提取第二语音数据的声纹特征，得到目标声纹特征；

保存单元，用于将目标声纹特征保存到声纹库中。

作为一种可选的实施例，第一确定单元704包括：

第一输入模块，用于将目标声纹特征和第一语音特征输入到目标声音活动检测模型，得到目标声音活动检测模型输出的目标语音边界，其中，目标声音活动检测模型是使用训练对象的声纹特征和训练语音数据的语音特征对初始声音活动检测模型进行训练得到的，训练语音数据为标注了训练对象的语音边界的语音数据。

作为一种可选的实施例，第一输入模块包括：

输入子模块，用于将目标声纹特征和第一语音特征输入到目标声音活动检测模型，得到目标声音活动检测模型确定的、待评测语音数据中的每个语音帧属于目标对象的概率；

确定子模块，用于确定待评测语音数据中属于目标对象的第一语音帧，其中，第一语音帧为待评测语音数据中属于目标对象的概率大于或者等于目标概率阈值的语音帧；

输出子模块，用于根据第一语音帧，输出待评测语音数据中目标对象的目标语音边界。

作为一种可选的实施例，上述装置还包括：

第三获取单元，用于在根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界之前，获取训练对象的声纹特征和训练语音数据的语音特征；

第二确定单元，用于根据训练语音数据中训练对象的语音边界，确定第二语音帧和第三语音帧，其中，第二语音帧为训练语音数据中属于训练对象的语音帧，第三语音帧为训练语音数据中除了第二语音帧以外的语音帧；

输入单元，用于将训练对象的声纹特征和训练语音数据的语音特征输入到初始声音活动检测模型，得到初始声音活动检测模型输出的、训练语音数据中的每个语音帧属于训练对象的概率；

调整单元，用于调整初始声音活动检测模型的模型参数，得到目标声音活动检测模型，其中，目标声音活动检测模型输出的第二语音帧属于训练对象的概率大于或者等于目标概率阈值、且第三语音帧属于训练对象的概率小于目标概率阈值。

作为一种可选的实施例，评测单元708包括：

获取模块，用于获取第一语音数据的第二语音特征；

第二输入模块，用于将第二语音特征输入到语音识别模型，得到语音识别模型输出的解码结果，其中，解码结果用于指示第一语音数据的各个发音单元为对应的目标发音单元的概率；

确定模块，用于根据解码结果所指示的各个发音单元为对应的目标发音单元的概率，确定目标对象的目标评测结果。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种用于实施上述对象的口语评测方法的电子装置，该电子装置可以是服务器、终端、或者其组合。

图8是根据本申请实施例的一种可选的电子装置的结构框图，如图8所示，该电子装置包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

s1，获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，待评测语音数据为对目标对象进行口语评测所使用的语音数据；

s2，根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界；

s3，按照目标语音边界，从待评测语音数据中获取属于目标对象的第一语音数据；

s4，使用第一语音数据对目标对象进行口语评测，得到目标对象的目标评测结果。

其中，存储器802可用于存储软件程序以及模块，如本发明实施例中的对象的口语评测方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述对象的口语评测方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802可以但不限于用于存储语音数据、声纹、对象信息、模型数据等。

作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述对象的口语评测装置中的第一获取单元702、第一确定单元704、第二获取单元706及测评单元708。此外，还可以包括但不限于上述对象的口语评测装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器(networkinterfacecontroller，nic)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频(radiofrequency，rf)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器808，用于对象客户端的显示界面；连接总线810，用于连接上述电子装置中的各个模块部件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图8所示的结构仅为示意，实施上述对象的口语评测方法的设备可以是终端设备，该终端设备可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices，mid)、pad等终端设备。图8其并不对上述电子装置的结构造成限定。例如，终端设备还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-onlymemory，rom)、随机存取器(randomaccessmemory，ram)、磁盘或光盘等。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，该存储介质可以用于执行对象的口语评测方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

s1，获取目标对象的目标声纹特征和待评测语音数据的第一语音特征，其中，待评测语音数据为对目标对象进行口语评测所使用的语音数据；

s2，根据目标声纹特征和第一语音特征，确定待评测语音数据中目标对象的目标语音边界；

s3，按照目标语音边界，从待评测语音数据中获取属于目标对象的第一语音数据；

s4，使用第一语音数据对目标对象进行口语评测，得到目标对象的目标评测结果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、rom、ram、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除