一种语音变化信息检测方法、模型训练方法以及相关装置与流程

2021-01-28 16:01:31|

354|

起点商标网

本申请涉及计算机技术领域，尤其涉及一种语音变化信息检测方法、模型训练方法以及相关装置。

背景技术：

随着移动终端普及和网络的提速，短视频已经成为时下最流行的内容形态。大量用户制造的短视频内容，出现在抖音和微视等平台。随着用户上传内容的快速增长，无论是内容审核、分类，或者是自动字幕生成，都需要利用自动语音识别技术对短视频数据进行处理。

一般，语音识别系统都是基于正常语音数据进行模型训练的。为了提高系统鲁棒性，一般都会在训练数据中加入少量轻微变速变调语音(例如0.9～1.1倍的变速)，使得系统能覆盖不同用户的说话习惯，从而保证语音识别的准确性。

但是，由于语音的多样性，对应的变化信息也是数据量巨大，逐一进行变调变速等变化信息的检测耗时耗力，影响语音变化信息检测的效率。

技术实现要素：

有鉴于此，本申请提供一种语音变化信息的检测方法，可以有效避免由于语音的变化造成的语音识别错误，提高语音识别过程的准确性。

本申请第一方面提供一种语音变化信息的检测方法，可以应用于终端设备中包含语音识别功能的系统或程序中，具体包括：获取输入语音；

将所述输入语音输入目标神经网络模型中的共享层，以得到特征向量，所述共享层包括至少一个特征提取网络；

将所述特征向量输入所述目标神经网络模型中的任务层，以得到语音变化信息，所述任务层包括语音检测分支和至少一个变化程度预测分支，所述语音检测分支用于根据所述特征向量生成所述语音变化信息中的语音存在概率，所述变化程度预测分支用于根据所述特征向量生成所述语音变化信息中的语音变化预测，所述语音变化预测包括变速程度预测或变调程度预测中的至少一个。

可选的，在本申请一些可能的实现方式中，所述将所述输入语音输入目标神经网络模型中的共享层，以得到特征向量，包括：

按照预设值对所述输入语音进行分帧，以得到语音序列；

将所述语音序列输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述将所述语音序列输入所述目标神经网络模型中的共享层，以得到所述特征向量，包括：

确定所述语音序列对应的目标通道；

基于所述目标通道获取所述语音序列的时域特征；

将所述时域特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

基于所述目标通道获取所述语音序列的频域特征，所述频域特征包括复数频谱、频谱能量、子带能量或梅尔倒谱系数；

将所述频域特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述将所述语音序列输入所述目标神经网络模型中的共享层，以得到所述特征向量，包括：

确定所述语音序列中的目标单帧信号；

基于所述目标单帧信号进行相邻信号的拼接，以得到单帧特征；

将所述单帧特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述将所述语音序列输入所述目标神经网络模型中的共享层，以得到所述特征向量，包括：

基于预设范围提取所述语音序列中的多帧信号；

确定所述多帧信号对应的多帧特征；

将所述多帧特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

基于所述语音变化信息确定所述输入语音的变化参数；

根据所述变化参数对所述输入语音进行反向变化操作，以得到还原语音；

基于所述还原语音进行语音识别。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

获取反向操作因子；

根据所述反向操作因子对所述变化参数进行更新。

本申请第二方面提供一种语音识别的装置，包括：获取单元，用于获取输入语音；

输入单元，用于将所述输入语音输入目标神经网络模型中的共享层，以得到特征向量，所述共享层包括至少一个特征提取网络；

检测单元，用于将所述特征向量输入所述目标神经网络模型中的任务层，以得到语音变化信息，所述任务层包括语音检测分支和至少一个变化程度预测分支，所述语音检测分支用于根据所述特征向量生成所述语音变化信息中的语音存在概率，所述变化程度预测分支用于根据所述特征向量生成所述语音变化信息中的语音变化预测，所述语音变化预测包括变速程度预测或变调程度预测中的至少一个。

可选的，在本申请一些可能的实现方式中，所述输入单元，具体用于按照预设值对所述输入语音进行分帧，以得到语音序列；

所述输入单元，具体用于将所述语音序列输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述输入单元，具体用于确定所述语音序列对应的目标通道；

所述输入单元，具体用于基于所述目标通道获取所述语音序列的时域特征；

所述输入单元，具体用于将所述时域特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述输入单元，具体用于基于所述目标通道获取所述语音序列的频域特征，所述频域特征包括复数频谱、频谱能量、子带能量或梅尔倒谱系数；

所述输入单元，具体用于将所述频域特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述输入单元，具体用于确定所述语音序列中的目标单帧信号；

所述输入单元，具体用于基于所述目标单帧信号进行相邻信号的拼接，以得到单帧特征；

所述输入单元，具体用于将所述单帧特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述输入单元，具体用于基于预设范围提取所述语音序列中的多帧信号；

所述输入单元，具体用于确定所述多帧信号对应的多帧特征；

所述输入单元，具体用于将所述多帧特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述检测单元，具体用于基于所述语音变化信息确定所述输入语音的变化参数；

所述检测单元，具体用于根据所述变化参数对所述输入语音进行反向变化操作，以得到还原语音；

所述检测单元，具体用于基于所述还原语音进行语音识别。

可选的，在本申请一些可能的实现方式中，所述检测单元，具体用于获取反向操作因子；

所述检测单元，具体用于根据所述反向操作因子对所述变化参数进行更新。

本申请第三方面提供一种模型训练的方法，包括：获取语音训练集，所述语音训练集基于目标语音进行变速或变调所得；

将所述语音训练集输入目标神经网络模型中的共享层，以得到训练向量，所述共享层包括至少一个特征提取网络；

将所述训练向量分别输入任务层中的每个语音检测分支和变化程度预测分支，以得到多个分支损失信息，所述分支损失信息包括变速程度预测损失、变调程度预测损失或语音检测损失，所述任务层与所述共享层相关联；

基于所述分支损失信息计算得到总体损失信息，以对所述目标神经网络模型进行模型训练。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

获取噪声训练样本；

将所述噪声训练样本进行标记，以对所述语音训练集进行更新。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

确定所述目标语音以及对应的变化算法；

基于所述变化算法对所述语音训练集中对应的样本进行标记。

本申请第四方面提供一种模型训练的装置，包括：获取单元，用于获取语音训练集，所述语音训练集基于目标语音进行变速或变调所得；

输入单元，用于将所述语音训练集输入目标神经网络模型中的共享层，以得到训练向量，所述共享层包括至少一个特征提取网络；

所述输入单元，还用于将所述训练向量分别输入任务层中的每个语音检测分支和变化程度预测分支，以得到多个分支损失信息，所述分支损失信息包括变速程度预测损失、变调程度预测损失或语音检测损失，所述任务层与所述共享层相关联；

训练单元，用于基于所述分支损失信息计算得到总体损失信息，以对所述目标神经网络模型进行模型训练。

可选的，在本申请一些可能的实现方式中，所述获取单元，具体用于获取噪声训练样本；

所述获取单元，具体用于将所述噪声训练样本进行标记，以对所述语音训练集进行更新。

可选的，在本申请一些可能的实现方式中，所述获取单元，具体用于确定所述目标语音以及对应的变化算法；

所述获取单元，具体用于基于所述变化算法对所述语音训练集中对应的样本进行标记。

本申请第五方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的语音变化信息的检测方法，或第三方面或第三方面任一项所述的模型训练的方法。

本申请第六方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的语音变化信息的检测方法，或第三方面或第三方面任一项所述的模型训练的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取输入语音；然后将输入语音输入目标神经网络模型中的共享层，以得到特征向量，共享层包括至少一个特征提取网络；进而将特征向量输入目标神经网络模型中的任务层，以得到语音变化信息，其中，任务层包括语音检测分支和至少一个变化程度预测分支，语音检测分支用于根据特征向量生成语音变化信息中的语音存在概率，变化程度预测分支用于根据特征向量生成语音变化信息中的语音变化预测，语音变化预测包括变速程度预测或变调程度预测中的至少一个。从而实现基于神经网络的语音变化信息检测的过程，由于将语音变化信息中的变速、变调和语音检测整合在同一神经网络中，可以同时对不同的变化信息进行同时预测并结合，减少了神经网络的复杂性，并提高了语音变化信息检测效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为语音识别系统运行的网络架构图；

图2为本申请实施例提供的一种语音识别的流程架构图；

图3为本申请实施例提供的一种语音变化信息的检测方法的流程图；

图4为本申请实施例提供的一种神经网络模型的架构图；

图5为本申请实施例提供的另一种神经网络模型的架构图；

图6为本申请实施例提供的另一种神经网络模型的架构图；

图7为本申请实施例提供的另一种神经网络模型的架构图；

图8为本申请实施例提供的一种模型训练的方法的流程图；

图9为本申请实施例提供的一种短视频中语音变化信息的检测方法的流程图；

图10为本申请实施例提供的一种语音变化信息检测方法的场景示意图；

图11为本申请实施例提供的一种检测装置的结构示意图；

图12为本申请实施例提供的一种模型训练装置的结构示意图；

图13为本申请实施例提供的一种终端设备的结构示意图；

图14为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种语音变化信息的检测方法以及相关装置，可以应用于终端设备中包含语音识别功能的系统或程序中，通过获取输入语音；然后将输入语音输入目标神经网络模型中的共享层，以得到特征向量，共享层包括至少一个特征提取网络；进而将特征向量输入目标神经网络模型中的任务层，以得到语音变化信息，其中，任务层包括语音检测分支和至少一个变化程度预测分支，语音检测分支用于根据特征向量生成语音变化信息中的语音存在概率，变化程度预测分支用于根据特征向量生成语音变化信息中的语音变化预测，语音变化预测包括变速程度预测或变调程度预测中的至少一个。从而实现基于神经网络的语音变化信息检测的过程，由于将语音变化信息中的变速、变调和语音检测整合在同一神经网络中，可以同时对不同的变化信息进行同时预测并结合，减少了神经网络的复杂性，并提高了语音变化信息检测效率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的基于神经网络的语音变化信息检测方法可以应用于终端设备中包含语音识别功能的系统或程序中，例如媒体内容平台，具体的，语音识别系统可以运行于如图1所示的网络架构中，如图1所示，是语音识别系统运行的网络架构图，如图可知，语音识别系统可以提供与多个信息源的语音识别，终端通过网络建立与服务器的连接，进而接收服务器发送的媒体内容，并对媒体内容中的语音进行还原并识别；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到语音识别的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多内容应用交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

应当注意的是，本实施例提供的基于神经网络的语音变化信息检测方法也可以离线进行，即不需要服务器的参与，此时终端在本地与其他终端进行连接，进而进行终端之间的语音识别的过程。

可以理解的是，上述语音识别系统可以运行于个人移动终端，例如：作为媒体内容平台这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供语音识别，以得到信息源的语音识别处理结果；具体的语音识别系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

语音技术(speechtechnology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

随着移动终端普及和网络的提速，短视频已经成为时下最流行的内容形态。大量用户制造的短视频内容，出现在抖音和微视等平台。随着用户上传内容的快速增长，无论是内容审核、分类，或者是自动字幕生成，都需要利用语音技术中的自动语音识别技术对短视频数据进行处理。

但是，由于语音的多样性，对应的变化信息也是数据量巨大，逐一进行变调变速等变化信息的检测耗时耗力，影响语音变化信息检测的效率。

为了解决上述问题，本申请提出了一种语音变化信息的检测方法，该方法应用于图2所示的语音识别的流程框架中，如图2所示，为本申请实施例提供的一种语音识别的流程架构图，首先对输入语音进行变速变调检测，若没有变速变调，则直接进行语音识别；若检测到变速变调的发生，则更具变速变调的程度对输入语音进行还原，进而基于还原后的输入语音进行语音识别的过程。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种检测装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该检测装置通过获取输入语音；然后将输入语音输入目标神经网络模型中的共享层，以得到特征向量，共享层包括至少一个特征提取网络；进而将特征向量输入目标神经网络模型中的任务层，以得到语音变化信息，其中，任务层包括语音检测分支和至少一个变化程度预测分支，语音检测分支用于根据特征向量生成语音变化信息中的语音存在概率，变化程度预测分支用于根据特征向量生成语音变化信息中的语音变化预测，语音变化预测包括变速程度预测或变调程度预测中的至少一个。从而实现基于神经网络的语音变化信息检测的过程，由于将语音变化信息中的变速、变调和语音检测整合在同一神经网络中，可以同时对不同的变化信息进行同时预测并结合，减少了神经网络的复杂性，并提高了语音变化信息检测效率。

本申请实施例提供的方案涉及人工智能的语音技术，具体通过如下实施例进行说明:

结合上述流程架构，下面将对本申请中语音变化信息的检测方法进行介绍，请参阅图3，图3为本申请实施例提供的一种语音变化信息的检测方法的流程图，可以应用于终端设备进行语音变化信息的检测过程中，本申请实施例至少包括以下步骤：

301、终端设备获取输入语音。

本实施例中，输入语音可以是音频数据，例如电话通讯过程中的语音信息；输入语音也可以是通过视频所得，即将视频中的音频信息提取所得，例如短视频中的音频信息；具体形式因实际场景而定，此处不做限定。

302、终端设备将输入语音输入目标神经网络模型中的共享层，以得到特征向量。

本实施例中，目标神经网络模型包括共享层与任务层，其中共享层用于提取输入语音中的特征，以生成特征向量，进而将特征向量输入包含多个分支的任务层进行对应任务的信息检测，例如语音变速程度检测、语音变调程度检测等。

可以理解的是，共享层包括至少一个特征提取网络，该特征提取网络可以是长短期记忆网络(longshort-termmemory，lstm)、卷积神经网络(convolutionalneuralnetwork,cnn)、循环神经网络(recurrentneuralnetwork，rnn)等神经网络中的一种或多种的组合，例如特征提取网络为1层cnn+2层lstm的组合，或特征提取网络为3层lstm的连接，具体的组合形式因实际场景而定，此处不做限定。

具体的，在获取输入语音的特征向量的过程中，可以先按照预设值对输入语音进行分帧，以得到语音序列(如20ms每帧)；然后将语音序列输入目标神经网络模型中的共享层，以得到特征向量。其中，预设值即为每帧的时长，预设值的设定可以是响应于用户的输入，也可以是根据语音识别过程中的历史信息所得，此处不做限定。

在一种可能的场景中，对于输入语音信号s进行分帧操作后，得到的语音序列为x＝[x1,x2,…,xt]。其中xt表示语音序列中第t次输入特征。对于每个输入特征xt，任务层中每个分支分别输出对应的预测结果，例如变速程度预测vt、变调程度预测pt或语音存在概率et。

可选的，对于语音序列的特征输入，可以是基于单通道或多通道下对应的时域/频域变化所得，即首先确定语音序列对应的目标通道；然后基于目标通道获取语音序列的时域特征；进而将时域特征输入目标神经网络模型中的共享层，以得到特征向量。即将输入语音划分为帧级别后的单通道/多通道下的时域语音信号特征，例如在00:05-00:10的波形特征。

另外，对于频域变化下的信号特征，可以先基于目标通道获取语音序列的频域特征；然后将频域特征输入目标神经网络模型中的共享层，以得到特征向量。具体的，频域特征可以包括复数频谱、频谱能量、子带能量或梅尔倒谱系数，上述举例中的一种或多种的组合均可以作为频域特征，例如子带能量和梅尔倒谱系数的对应情况，具体特征形式因实际场景而定，此处不做限定。

通过对于语音序列进行时域/频域变化，使得特征向量更加符合输入语音的特点，提高了目标神经网络模型识别的准确率。

可选的，对于语音序列的特征输入，还可以基于语音序列中的单帧特征设定的，即首先确定语音序列中的目标单帧信号；然后基于目标单帧信号进行相邻信号的拼接，以得到单帧特征；进而将单帧特征输入目标神经网络模型中的共享层，以得到特征向量。例如，目标单帧信号为当前帧对应的信号，则单帧特征为当前帧以及左右两帧的拼接帧的特征。

另外，单帧特征的确定还可以基于对于单帧的统计量进行的，例如统计单帧中频率大于50hz的帧的数量，并将其作为单帧特征。

可选的，对于语音序列的特征输入，还可以基于语音序列中的多帧特征设定的，即基于预设范围提取语音序列中的多帧信号；然后确定多帧信号对应的多帧特征；进而将多帧特征输入目标神经网络模型中的共享层，以得到特征向量。例如预设范围为第10帧至第20帧，则多帧特征即为获取第10帧至第20帧的信号，提取该段信号的基频、过零率等特征。

通过对于语音序列的单帧或多帧特征的获取，使得特征向量更加符合输入语音的特点，特征更加丰富，提高了目标神经网络模型识别的准确率。

可以理解的是，具体的输入特征可以上述一个或者多个特征的组合，例如时域特征与单帧特征的组合，具体的特征形式因实际场景而定，此处不做限定。

303、终端设备将特征向量输入目标神经网络模型中的任务层，以得到语音变化信息。

本实施例中，任务层包括语音检测分支和至少一个变化程度预测分支，其中，语音检测分支用于根据特征向量生成语音变化信息中的语音存在概率，变化程度预测分支用于根据特征向量生成语音变化信息中的语音变化预测，语音变化预测包括变速程度预测或变调程度预测中的至少一个；即输入变化程度预测分支和语音检测分支的特征向量是相同的，无需基于不同的分支进行对应的输入设定，从而节约了检测过程中的资源占用，且提高了检测效率。

具体的，任务层与目标神经网络模型中的共享层向连，且包括至少两个分支，各个分支之间相互独立，各个分支输入共享层输出的特征向量后，各自输出对应的检测结果。具体如图4所示，为本申请实施例提供的一种神经网络模型的架构图，图中示出了输入语音输入共享层后得到特征向量，然后将特征向量分别输入变化程度预测分支以及语音检测分支，然后得到各自分支的检测结果。其中，变化程度预测分支可以包括一个或多个并行的子任务，通过对于子任务的执行可以得到语音变化预测，该语音变化预测的内容包括但不限于变速程度预测或变调程度预测中的至少一个；例如，变化程度预测分支包括变调程度预测任务；或变化程度预测分支包括变调程度预测任务和变速程度预测任务。通过同时将语音变化程度检测和语音检测的子任务集成在一个网络中，减少神经网络系统的复杂度。

在一种可能的场景中，变化程度预测分支包括变调程度预测任务和变速程度预测任务，具体如图5所示，为本申请实施例提供的另一种神经网络模型的架构图，图中示出了任务层包括语音检测、变速程度预测、变调程度预测3个子任务。具体的，对于输入语音，目标神经网络模型先利用共享层来对输入语音进行建模；然后通过任务层对每个任务基于不同的任务分支单独建模，使得检测结果能更好地反映任务本身的需要。相比于3个任务各自训练一个神经网络，本申请通过一个目标神经网络实现3个不同的任务的执行，可以减少神经网络系统的复杂度。

在一种可能的场景中，共享层可以为2层的lstm，而任务层均是2层的全连接网络(multilayerperceptron，mlp)。其中，lstm是一种时间递归神经网络，可以解决长序列训练过程中的梯度消失和梯度爆炸问题，从而提高对于输入语音的特征向量提取的准确性。

在一种可能的场景中，输入语音为257维的频谱，共享层中的两层lstm的节点数为512，任务层的mlp每层200个节点，从而输出变速程度预测、变调程度预测或语音存在概率。通过同时将变速，变调和语音检测三个子任务集成在一个神经网络模型中，减少了语音是被系统的复杂度。

下面，对于语音变化信息的应用场景进行说明。在检测得到语音变化信息之后，可以基于语音变化信息进行语音的还原然后进行语音识别，也可以语音变化信息进行语音的质量判断，例如判断目标语音的语音变化信息是否在一定的范围，以对目标语音进行筛选；具体的方式因实际场景而定，此处不做限定。

在一种可能的实施例中，以终端设备基于语音变化信息进行语音的还原然后进行语音识别为例进行说明。

可以理解的是，终端设备对输入语音进行还原的过程可以是基于语音变化信息进行反向变化操作进行的。具体的，首先基于语音变化信息确定输入语音的变化参数；然后根据变化参数对输入语音进行反向变化操作，以得到还原语音；进而基于还原语音进行语音识别。

在一种可能的场景中，对于输入语音s，通过目标神经网络模型可以得到变速变调和语音检测信息，其中变速程度v＝[v1,v2,…,vt],变调程度p＝[p1,p2,…,pt]和语音存在概率e＝[e1,e2,…,et]。基于每个时间点的判决结果，可以得到当前输入语音的整体变速变调程度(变化参数)。具体的，输入语音变化程度可参照下列公式获得:

其中，vin和pin均为输入语音变化程度，其分别对应于变速变化参数和变调变化参数；vt即为第t个输入特征对应的变速程度；pt即为第t个输入特征对应的变调程度；et即为第t个输入特征对应的语音存在概率。

在得到变化参数后，再根据预测的输入语音变速变调程度，可以对输入语音进行方向变速变调操作，具体可参照下述公式进行：

其中，vout即为变速反向操作参数，即变化参数；pout即为变调反向操作参数，即变化参数。

然后通过vout和pout分别对输入语音进行还原，即可得到还原后的输入语音。

可选的，考虑到变速语音的预测可能存在误差，同时避免过多的反向操作可能引入的音频失真；为减小反向操作的程度，可以首先获取反向操作因子；然后根据反向操作因子对变化参数进行更新。具体的，根据反向操作因子对变化参数进行更新的过程可以参考下列公式进行：

其中，αv和αp为反向操作因子，取值为0到1之间。当αv或αp为0，vout或pout值为1，即不做任何反向操作；当αv或αp为1时，vin*vout或vin*vout的值为1，表示按照估计值将音频还原为正常语速语调。

可以理解的是，可以任意设定调整反向操作因子，例如设定反向操作因子为0.7。

通过上述语音还原的过程后，终端设备进而进行语音识别的过程，主要包括如下步骤：

(1)进行语音特征提取，即从输入的语音信号中提取特征，用于声学模型的输入。

(2)输入声学模型，以得到音节、音素等基本的声学单元的概率。

(3)根据语言模型获取语言中词之间的上下文信息以及语义信息。

(4)输入解码器，由声学模型、语言模型及发音词典生成的状态空间中，解码出以最大概率输出该信号的词串，从而完成语音识别的过程。

结合上述实施例可知，通过获取输入语音；然后将输入语音输入目标神经网络模型中的共享层，以得到特征向量；并将特征向量输入目标神经网络模型中的任务层，以得到语音变化信息，语音变化信息包括变速程度预测、变调程度预测或语音存在概率，变速程度预测和变调程度预测基于任务层中的变化程度预测分支检测所得，语音存在概率基于任务层中的语音检测分支检测所得；进而基于语音变化信息对输入语音进行还原，以对输入语音进行语音识别。从而实现语音识别的过程，由于通过目标神经网络模型将输入语音进行了还原，还原后的语音消除了变调或变速的影响，保证了进行识别的语音的准确性，进而提高了语音识别的准确性。

在图3所示实施例的基础上，目标神经网络模型中共享层与任务层具体组成形式还可以是不同层数神经网络模型的组合，即多模型神经网络；例如共享层1层cnn+2层lstm的组合，而任务特定层为3层mlp；或任务层特为rnn与mlp的组合。

具体的，对于rnn。如图6所示，为本申请实施例提供的另一种神经网络模型的架构图。即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出

具体的，如果将rnn进行网络展开，那么参数w,u,v是共享的，而传统神经网络却不是的。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，并且还以来前面若干步网络的状态。比如，在t＝4时，还需要向后传递三步，已经后面的三步都需要加上各种的梯度。

而对于mlp网络，如图7所示，为本申请实施例提供的另一种神经网络模型的架构图。图中示出的layer1是输入层，layer2是隐含层，layer3是隐含层，即多层感知机层与层之间是全连接的。多层感知机最底层是输入层，中间是隐藏层，最后是输出层。对于输入层输入是一个n维向量，即存在n个神经元。而对于隐藏层，其中神经元与输入层是全连接的，例如输入层用向量x表示，则隐藏层的输出就是f(w1x+b1)，其中w1是权重(也称为连接系数)，b1是偏置，函数f可以是常用的sigmoid函数或者tanh函数。另外，对于输出层，即隐藏层到输出层可以看成是一个多类别的逻辑回归，也即softmax回归，故输出层的输出就是softmax(w2x1+b2)，x1表示隐藏层的输出f(w1x+b1)，从而完成结果的输出。

通过不同神经网络的组合使用，可以更好的模拟并检测语音中的变速变调的程度，且由于多个神经网络复合在同一目标神经网络模型中，减少了语音识别系统中神经网络的复杂性。

上述实施例介绍了语音识别的过程，而其中涉及的目标神经网络模型是经过训练的，下面，对网络模型的训练过程进行介绍，请参阅图8，图8为本申请实施例提供的一种模型训练的方法的流程图，可以应用于服务器进行用于语音检测的模型的训练过程中，本申请实施例至少包括以下步骤：

801、服务器获取语音训练集。

本实施例中，语音训练集基于目标语音进行变速或变调所得；具体的，首先采集有效语音，然后利用变速和变调工具(如音频处理工具sox)，可以将正常的有效语音信号转化为大批量的变速变调数据，从而得到语音训练。

可以理解的是，在变化得到变速变调数据后，需要对这些数据进行标记，即确定目标语音以及对应的变化算法，例如语音活性检测算法(voiceactivitydetection，vad)；然后基于变化算法对语音训练集中对应的样本进行标记。这是由于数据是人工合成的，故每个数据的变速和变调值都是已知的。通过对有效语音信号进行人工标注或者变化算法的计算，从而得到语音/非语音的判定信息，以便于对目标神经网络模型中输出结果的判定。

可选的，为了提升模型的鲁棒性，即对于不同环境下语音的识别性能，还可以在语音训练集中加入噪声样本并标记，以对目标神经网络模型进行训练。

802、服务器将语音训练集输入目标神经网络模型中的共享层，以得到训练向量。

本实施例中，共享层包括至少一个特征提取网络，该特征提取网络可以是lstm、cnn、rnn等神经网络中的一种或多种的组合，例如特征提取网络为1层cnn+2层lstm的组合，具体的组合形式因实际场景而定，此处不做限定。

803、服务器将训练向量分别输入任务层中的每个语音检测分支和变化程度预测分支，以得到多个分支损失信息。

本实施例中，分支损失信息包括变速程度预测损失、变调程度预测损失或语音检测损失。

具体的，对于变速程度预测损失或变调程度预测损失，可以将预测值和真实值之间的均方误差作为损失函数，具体可参考如下公式：

其中，mse为预测值和真实值之间的均方误差，为预测值，即变速或变调后的预测语音；yi为真实值，即在样本采集过程中对应的变速或变调前的真实语音，n为序列。

另外，对于语音检测损失，可以作为二分类问题，故可以采用交叉熵作为损失函数，具体可参考如下公式：

其中，n为样本数；yi为样本标签，pi为样本标签为语音的概率。

804、服务器基于分支损失信息计算得到总体损失信息，以对目标神经网络模型进行模型训练。

本实施例中，总体损失信息基于分支损失信息计算所得，即根据变速程度预测损失、变调程度预测损失或语音检测损失加权所得，具体的可以参考如下公式进行：

其中，lall为总体损失函数，即总体损失信息；li为每个子任务对应的分支损失函数，即分支损失信息；ai为对应的权重。

可以理解的是，权重的大小可以根据实际系统设置，也可以统一设置为1。

可选的，对于变速或变调子任务，可以将预测值和真实值之间的均方误差作为损失函数。而对于语音检测子任务，由于是二分类问题，可采用交叉熵作为损失函数。进而进行上述总体损失函数的加权计算。

通过不同的分支损失函数加权得到总体损失函数，可以提高目标网络模型中各个子任务对应模型的训练效果，提高目标神经网络模型对于语音检测的精确度。

下面，结合短视频中语音识别的场景对本申请语音变化信息的检测方法进行介绍，请参阅图9，图9为本申请实施例提供的一种短视频中语音变化信息的检测方法的流程图，可以应用于终端设备上短时频应用的运行过程中，本申请实施例至少包括以下步骤：

901、终端设备响应于目标操作获取短视频数据。

本实施例中，对于短视频的语音识别的过程可以应用在违规信息的检测或核查过程中。

在一种可能的场景中，用户认为短视频中存在违规信息，需要进行举报，此时客户端会对对应的短视频中的语音进行还原并识别，以核实举报的鉴定信息。

具体的，目标操作则可以是短视频播放界面的举报按钮，如图10所示，为本申请实施例提供的一种语音变化信息检测方法的场景示意图。图中示出了短视频的播放界面，以及界面中的举报按钮a1，当用户点击举报按钮a1时，该短视频即会被标记，从而上传至客户端进行违规信息的鉴定。

902、终端设备将音频信息输入目标神经网络模型，以得到语音变化信息。

903、终端设备基于语音变化信息对音频信息进行还原。

904、终端设备基于目标语音对还原后的音频信息进行识别，以得到短视频数据的鉴定信息。

本实施例中，鉴定信息即为对于短视频的音频信息中是否包含违规信息的判定信息；具体的识别过程，即步骤902-904的内容与上述图3所示实施例中的步骤302-304相似，相关特征可以进行参考，此处不做赘述。

结合上述实施例可见，由于短视频中对语音进行变速或变调的情况十分场景，通过将短视频中的语音进行还原并识别，可以提高语音识别的准确性，进而提高对于短视频中违规信息鉴定的准确性。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图11，图11为本申请实施例提供的一种检测装置的结构示意图，检测装置1100包括：

获取单元1101，用于获取输入语音；

输入单元1102，用于将所述输入语音输入目标神经网络模型中的共享层，以得到特征向量，所述共享层包括至少一个特征提取网络；

检测单元1103，用于将所述特征向量输入所述目标神经网络模型中的任务层，以得到语音变化信息，所述任务层包括语音检测分支和至少一个变化程度预测分支，所述语音检测分支用于根据所述特征向量生成所述语音变化信息中的语音存在概率，所述变化程度预测分支用于根据所述特征向量生成所述语音变化信息中的语音变化预测，所述语音变化预测包括变速程度预测或变调程度预测中的至少一个。

可选的，在本申请一些可能的实现方式中，所述输入单元1102，具体用于按照预设值对所述输入语音进行分帧，以得到语音序列；

所述输入单元1102，具体用于将所述语音序列输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述输入单元1102，具体用于确定所述语音序列对应的目标通道；

所述输入单元1102，具体用于基于所述目标通道获取所述语音序列的时域特征；

所述输入单元1102，具体用于将所述时域特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述输入单元1102，具体用于基于所述目标通道获取所述语音序列的频域特征，所述频域特征包括复数频谱、频谱能量、子带能量或梅尔倒谱系数；

所述输入单元1102，具体用于将所述频域特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述输入单元1102，具体用于确定所述语音序列中的目标单帧信号；

所述输入单元1102，具体用于基于所述目标单帧信号进行相邻信号的拼接，以得到单帧特征；

所述输入单元1102，具体用于将所述单帧特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述输入单元1102，具体用于基于预设范围提取所述语音序列中的多帧信号；

所述输入单元1102，具体用于确定所述多帧信号对应的多帧特征；

所述输入单元1102，具体用于将所述多帧特征输入所述目标神经网络模型中的共享层，以得到所述特征向量。

可选的，在本申请一些可能的实现方式中，所述检测单元1103，具体用于基于所述语音变化信息确定所述输入语音的变化参数；

所述检测单元1103，具体用于根据所述变化参数对所述输入语音进行反向变化操作，以得到还原语音；

所述检测单元1103，具体用于基于所述还原语音进行语音识别。

可选的，在本申请一些可能的实现方式中，所述检测单元1103，具体用于获取反向操作因子；

所述检测单元1103，具体用于根据所述反向操作因子对所述变化参数进行更新。

本申请实施例还提供了一种模型训练装置1200，如图12所示，是本申请实施例提供的一种模型训练装置的结构示意图，具体包括：

获取单元1201，用于获取语音训练集，所述语音训练集基于目标语音进行变速或变调所得；

输入单元1202，用于将所述语音训练集输入目标神经网络模型中的共享层，以得到训练向量，所述共享层包括至少一个特征提取网络；

所述输入单元1202，还用于将所述训练向量分别输入任务层中的每个语音检测分支和变化程度预测分支，以得到多个分支损失信息，所述分支损失信息包括变速程度预测损失、变调程度预测损失或语音检测损失，所述任务层与所述共享层相关联；

训练单元1203，用于基于所述分支损失信息计算得到总体损失信息，以对所述目标神经网络模型进行模型训练。

可选的，在本申请一些可能的实现方式中，所述获取单元1201，具体用于获取噪声训练样本；

所述获取单元1201，具体用于将所述噪声训练样本进行标记，以对所述语音训练集进行更新。

可选的，在本申请一些可能的实现方式中，所述获取单元1201，具体用于确定所述目标语音以及对应的变化算法；

所述获取单元1201，具体用于基于所述变化算法对所述语音训练集中对应的样本进行标记。

本申请实施例还提供了一种终端设备，如图13所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personaldigitalassistant，pda)、销售终端(pointofsales，pos)、车载电脑等任意终端设备，以终端为手机为例：

图13示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图13，手机包括：射频(radiofrequency，rf)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wirelessfidelity，wifi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

rf电路1310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1380处理；另外，将设计上行的数据发送给基站。通常，rf电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(lownoiseamplifier，lna)、双工器等。此外，rf电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystemofmobilecommunication，gsm)、通用分组无线服务(generalpacketradioservice，gprs)、码分多址(codedivisionmultipleaccess，cdma)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、长期演进(longtermevolution，lte)、电子邮件、短消息服务(shortmessagingservice，sms)等。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作，以及在触控面板1331上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341，可选的，可以采用液晶显示器(liquidcrystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode，oled)等形式来配置显示面板1341。进一步的，触控面板1331可覆盖显示面板1341，当触控面板1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图13中，触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经rf电路1310以发送给比如另一手机，或者将音频数据输出至存储器1320以便进一步处理。

wifi属于短距离无线传输技术，手机通过wifi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了wifi模块1370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；可选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

手机还包括给各个部件供电的电源1390(比如电池)，可选的，电源可以通过电源管理系统与处理器1380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1380还具有执行如上述语音变化信息检测方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图14，图14是本申请实施例提供的一种服务器的结构示意图，该服务器1400可执行上述图14所示的数据管理装置的步骤；该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口14514，和/或，一个或一个以上操作系统1441，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

上述实施例中由模型训练装置所执行的步骤可以基于该图14所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有语音识别指令，当其在计算机上运行时，使得计算机执行如前述图3至图10所示实施例描述的方法中检测装置所执行的步骤。

本申请实施例中还提供一种包括语音识别指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图10所示实施例描述的方法中检测装置所执行的步骤。

本申请实施例还提供了一种语音识别系统，所述语音识别系统可以包含图11所描述实施例中的检测装置，或图12所描述实施例中的模型训练装置，或者图13所描述的终端设备。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，检测装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。