语音识别模型训练方法、语音识别方法及装置与流程

2021-01-28 13:01:27|

315|

起点商标网

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备和存储介质。

背景技术：

在直播平台中，常常需要对大量直播间主播的内容进行监管，监管对象包括图像和语音，直播中的语音主要来源于主播说话所形成的语音。对于语音内容的监管，通常是将语音识别为文本，然后对文本进行甄别。

现有技术中通常是将语音输入训练好的语音识别模型中得到相应的文本，该语音识别模型包括编码网络和解码网络，编码网络对输入的语音进行编码得到语音特征，解码网络对编码得到语音特征进行解码得到文本。在训练语音识别模型时，需要对编码网络和解码网络进行训练，并且训练编码网络和解码网络时均需要计算损失函数，具体为先对语音数据进行标注得到标签，使用具有标签的语音数据来训练解码网络和编码网络，在编码网络训练过程中需要通过训练数据的标签来计算损失率，在对解码网络和编码网络一起训练的过程中同样需要训练数据的标签来计算损失率，即整个训练过程需要依赖大量的有标注的语音数据，导致大量无标注的语音数据无法利用，增加了获取训练数据的成本。

技术实现要素：

本发明实施例提供一种语音识别模型训练方法、语音识别方法、装置、电子设备和存储介质，以解决现有训练语音识别模型训练过程中全程依赖有标注数据，造成大量无标注数据无法使用，最终导致训练数据成本高的问题。

第一方面，本发明实施例提供了一种语音识别模型训练方法，包括：

获取训练数据集，所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列；

将所述第一语音序列输入初始化后的编码网络中，得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征；

根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征；

根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失，以对所述编码网络进行训练；

在训练好所述编码网络后，将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练，训练好的编码网络和解码网络作为语音识别模型。

第二方面，本发明实施例提供了一种语音识别方法，包括：

获取待识别语音数据；

将所述待识别语音数据输入预先训练好的语音识别模型中得到识别文本；

其中，所述语音识别模型通过本发明任一实施例所述的语音识别模型训练方法所训练。

第三方面，本发明实施例提供了一种语音识别模型训练装置，包括：

训练数据集获取模块，用于获取训练数据集，所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列；

编码网络编码模块，用于将所述第一语音序列输入初始化后的编码网络中，得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征；

编码特征预测模块，用于根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征；

编码网络训练模块，用于根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失，以对所述编码网络进行训练；

编码网络和解码网络训练模块，用于在训练好所述编码网络后，将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练，训练好的编码网络和解码网络作为语音识别模型。

第四方面，本发明实施例提供了一种语音识别装置，包括：

待识别语音数据获取模块，用于获取待识别语音数据；

语音识别模块，用于将所述待识别语音数据输入预先训练好的语音识别模型中得到识别文本；

其中，所述语音识别模型通过本发明任一实施例所述的语音识别模型训练方法所训练。

第五方面，本发明实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例所述的语音识别模型训练方法，和/或，语音识别方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的语音识别模型训练方法，和/或，语音识别方法。

本发明实施例的语音识别模型包括编码网络和解码网络，在训练编码网络时，将无标注文本的第一语音序列输入初始化后的编码网络中，得到第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征，在通过内容特征预测指定语音单元之后的语音单元的第二编码特征后，根据指定语音单元之后的语音单元的第一编码特征和第二编码特征计算对比编码损失以对编码网络进行训练，最后通过有标注文本的第二语音序列来对编码网络和解码网络进行训练得到最终的语音识别模型。由于在训练编码网络时通过内容特征来预测第二编码特征，进一步通过第一编码特征和第二编码特征计算对比编码损失来调整编码网络的网络参数，第一语音序列无需标注文本，可以使用大量无标注文本的语音数据作为第一语音序列来训练编码网络，减少了训练语音识别模型时所需的有文本标注的训练数据的数量，降低了训练数据的成本。

附图说明

图1是现有技术中一种语音识别模型的示意图；

图2是本发明实施例一提供的一种语音识别模型训练方法的步骤流程图；

图3a是本发明实施例二提供的一种语音识别模型训练方法的步骤流程图；

图3b是本发明实施例的编码网络的示意图；

图4是本发明实施例三提供的一种语音识别方法的步骤流程图；

图5是本发明实施例四提供的一种语音识别模型训练装置的结构框图；

图6是本发明实施例五提供的一种语音识别装置的结构框图；

图7是本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

图1为现有技术中语音识别模型的示意图。

如图1所示，语音识别模型为端到端的神经网络，一般具有如图1所示的网络结构，该网络结构包括编码网络(encoder)、对齐网络(ctc，connectionisttemporalclassification)和解码网络(attention-decoder)，在图1中，on为输入的语音信号，encoder中的方块为encoder的神经网络，语音信号on经过encoder的神经网络后输出隐含特征hn，隐含特征hn作为ctc的输入来计算ctc损失函数和识别出来的文字yn，计算ctc损失函数时需要将识别出的文字yn与语音信号on的标注文本做对比计算损失，隐含特征hn也作为attention-decoder的输入以通过decoder计算出来文字yn，同样需要通过语音信号on的标注文本做对比计算损失att损失函数。可见，现有技术训练语音识别模型时，在训练编码网络和解码网络均需要语音信号的标注文本来计算损失，无疑需要大量有标注文本的语音数据，增加了训练数据的成本，为解决此问题，本发明实施例一和实施例二提供了一种语音识别模型训练方法。

实施例一

图2为本发明实施例一提供的一种语音识别模型训练方法的步骤流程图，本发明实施例可适用于训练语音识别模型的情况，该方法可以由本发明实施例的语音识别模型训练装置来执行，该语音识别模型训练装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图2所示，本发明实施例的语音识别模型训练方法可以包括如下步骤：

s201、获取训练数据集，所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列。

具体地，语音序列可以是一个一个语音单元的有序序列，各个语音单元按照时间顺序连接即得到语音序列。在实际应用中，可以获取任意语音数据，按照预设时长将该语音数据划分为多个语音单元即可以得到语音序列。对于每个语音序列，如果标注了相应的文本即为有标注文本的第二语音序列，不标注文本即为无标注文本的第一语音序列，其中，文本为能表达语音序列的语义的文本。

s202、将所述第一语音序列输入初始化后的编码网络中，得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征。

在本发明实施例中，语音识别模型包括编码网络和解码网络，其中，编码网络对输入的语音序列进行编码，提取语音序列的编码特征，解码网络对编码特征进行解码获得对应的文本。

具体到本发明实施例中，编码网络包括一次编码网络和二次编码网络，其中，第一语音序列输入到一次编码网络中得到第一语音序列中各个语音单元的第一编码特征，对于每个语音单元，还可以将该语音单元的第一编码特征和该语音单元的前一个语音单元的状态量输入到二次编码网络中得到该语音单元对应的内容特征，其中，指定语音单元可以是指第一语音序列中除了第一个和最后一个语音单元以外的语音单元，状态量可以是二次编码网络编码某个语音单元后的状态，指定语音单元的内容特征可以是二次编码网络对指定语音单元的第一编码特征和指定语音单元之前的多个语音单元的第一编码特征的编码结果。

s203、根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征。

在本发明实施例中，一次编码网络按照预设步长对第一语音序列进行编码，每次按照预设步长对第一语音序列进行编码时可以对多个语音单元进行编码，在以一个步长对第一语音序列编码结束后，可以将该步长编码中的最后一个语音单元确定为指定语音单元，进一步通过该指定语音单元的内容特征预测下一个步长所包含的语音单元的第二编码特征，在一个示例中，可以设置线性矩阵，通过该线性矩阵与指定语音单元的内容特征相乘，得到下一个步长所包含的语音单元的第二编码特征，即下一个步长所包含的语音单元的第二编码特征即为指定语音单元之后的语音单元的第二编码特征。

s204、根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失，以对所述编码网络进行训练。

具体地，对于指定语音单元之后的每个第一语音单元，通过一次编码网络对第一语音单元编码得到第一编码特征，通过指定语音单元的内容特征可预测第一语音单元的第二编码特征，除此之外，第一语音序列还包括除了第一语音单元之外的多个第二语音单元，如指定语音单元之前的多个语音单元可以作为第二语音单元，第二语音单元经由一次编码网络编码后也得到第一编码特征。可以采用第一语音单元的第一编码特征和第二编码特征构建一个正样本队例，采用多个第二语音单元的第一编码特征依次和第一语音单元的第二编码特征构建多个负样本对例，然后计算正样本对例和负样本对例中两个编码特征的相似度，通过相似度计算出第一语音单元的对比编码损失率，最后计算指定语音单元之后的多个第一语音单元的对比编码损失率的均值得到本轮训练的损失率，判断损失率是否小于预设阈值；若是，停止对编码网络进行训练；若否，根据损失率调整编码网络的网络参数，返回将第一语音序列输入编码网络的一次编码网络中，得到第一语音序列中每个语音单元的第一编码特征的步骤，直到损失率小于预设阈值时即可以得到训练好的编码网络。

s205、在训练好所述编码网络后，将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练，训练好的编码网络和解码网络作为语音识别模型。

在训练好编码网络后，将编码网络和解码网络连接构成语音识别模型，在一个示例中，编码网络包括一次编码网络和二次编码网络，可以将一次编码网络的输出层和解码网络的输入层连接构成语音识别模型，在训练该语音识别模型时，将第二语音序列输入到一次编码网络的输入层以在解码网络解码后得到预测文本，通过预测文本和第二语音序列的标注文本计算损失率，根据该损失率来调整一次编码网络和解码网络的网络参数直到损失率小于预设值为止。

本发明实施例的语音识别模型包括编码网络和解码网络，在训练编码网络时，将无标注文本的第一语音序列输入初始化后的编码网络中，得到第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征，在通过内容特征预测指定语音单元之后的语音单元的第二编码特征后，根据指定语音单元之后的语音单元的第一编码特征和第二编码特征计算对比编码损失以对编码网络进行训练，最后通过有标注文本的第二语音序列来对编码网络和解码网络进行训练得到最终的语音识别模型。由于在训练编码网络时通过内容特征来预测第二编码特征，通过第一编码特征和第二编码特征计算对比编码损失来训练编码网络，第一语音序列无需标注文本，可以使用大量无标注文本的语音数据作为第一语音序列，减少了训练语音识别模型时所需的有文本标注的训练数据的数量，降低了训练数据的成本。

实施例二

图3a为本发明实施例二提供的一种语音识别模型训练方法的步骤流程图，本发明实施例在前述实施例一的基础上进行优化，具体地，如图3a所示，本发明实施例的语音识别模型训练方法可以包括如下步骤：

s301、获取训练数据集，所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列。

具体地，第一语音序列没有标注表达第一语音序列的语义的文本，第二语音序列标注有表达第一语音序列的语义的文本，在训练数据集中，第一语音序列和第二语音序列的数量可以为多条。

s302、将所述第一语音序列输入初始化后的编码网络的一次编码网络中，得到所述第一语音序列中每个语音单元的第一编码特征。

在本发明实施例中，编码网络包括一次编码网络和二次编码网络，其中，一次编码网络对第一语音序列中的语音单元进行编码得到第一编码特征，二次编码网络以第一编码特征和状态量作为输入进行编码得到内容特征。

如图3b所示为编码网络的示意图，在图3b中，第一语音序列x＝{x1，x2，......xn}fenc为一次编码网络，far为二次编码网络，ht为第一编码特征，st为状态量，ct为内容特征。

当第一语音序列x＝{x1，x2，......xn}输入一次编码网络fenc后，一次编码网络fenc以预设步长对第一语音序列x中的语音单元进行编码得到各个语音单元的第一编码特征，即：

ht＝fenc(xt)

在一个示例中，一次编码网络fenc可以是vggnet(visualgeometrygroupnetwork)，当然一次编码网络还可以是其他神经网络，本发明实施例对此不加以限制。

s303、针对每个语音单元，将所述语音单元的第一编码特征和所述语音单元的前一个语音单元的状态量输入所述编码网络的二次编码网络中，得到指定语音单元的内容特征。

具体地，如图3b所示，对于每个语音单元xt，语音单元xt的第一编码特征ht和状态量st-1输入二次编码网络far后，得到语音单元xt对应的内容特征ct，即：

ct＝far(ht,st-1)

如图3b所示，每个语音单元xt均对应一个内容特征ct，指定语音单元可以是以预设步长对第一语音序列x中的语音单元进行编码时，当前步长所包含的语音单元中的最后一个语音单元，如图3b所示，步长为4，一次编码网络fenc当前对语音单元xt-3、xt-2、xt-1、xt进行编码，则指定语音单元为语音单元xt，当然，指定语音单元可以是第一语音序列中的任意一个语音单元。

在一个示例中，二次编码网络far可以是rnn(循环神经网络，recurrentneuralnetwork)，如可以是lstm(长短期神经网络，longshort-termmemory)，当然可以是其他神经网络，本发明实施例对此不加以限制。

s304、将所述内容特征和预设线性矩阵相乘，得到所述指定语音单元之后的语音单元的第二编码特征。

具体地，初始化线性矩阵wk，该线性矩阵wk为训练过程中需要调整的网络参数，则指定语音单元之后的语音单元的第二编码特征为wkct，记指定语音单元为xt，指定语音单元为xt之后的语音单元为xt+k，语音单元为xt+k的第二编码特征为

s305、针对所述指定语音单元之后的每个第一语音单元，利用所述第一语音单元的第一编码特征、所述第二编码特征以及所述第一语音单元以外的多个第二语音单元的第一编码特征计算所述第一语音单元的对比编码损失率。

在本发明的可选实施例中，针对指定语音单元之后的每个第一语音单元，采用第一语音单元的第一编码特征和第二编码特征构成正样本对例，采用第一语音单元的第二编码特征和第一语音单元以外的多个第二语音单元的第一编码特征构成多个负样本对例，计算正样本对例中第一编码特征和第二编码特征的相似度得到第一相似度，计算多个负样本对例中第一编码特征和第二编码特征的相似度得到第二相似度，根据第一相似度和多个第二相似度计算第一语音单元的对比编码损失率。

具体地，对于指定语音单元为xt之后的每个第一语音单元为xt+k，第一语音单元为xt+k经一次编码网络fenc编码后的第一编码特征为ht+k，通过内容特征ct预测得到第一语音单元为xt+k的第二编码特征为则对于每个第一语音单元为xt+k，正样本对例为负样本对例为其中，ht为第一语音单元xt+k以外的多个第二语音单元xt的第一编码特征，则可以通过以下公式计算第一语音单元xt+k的对比编码损失率：

其中，为对比编码损失率，第一语音序列x＝{x1，x2，......xn}，t为指定语音单元的序号，t+k为指定语音单元之后的第一语音单元的序号。

上述公式(1)中，表示一次编码网络fenc对第一语音单元xt+k编码后得到第一编码特征ht+k与通过指定语音单元xt的内容特征ct预测第一语音单元xt+k的第二编码特征的相似度，wk为线性矩阵；

表示一次编码网络fenc对第二语音单元xj编码后得到第一编码特征hj与通过指定语音单元xt的内容特征ct预测第一语音单元xt+k的第二编码特征的相似度，xj为第一语音序列x中除了第一语音单元xt+k以外的第二语音单元。

s306、计算多个所述第一语音单元的对比编码损失率的均值得到损失率。

在实际应用中，指定语音单元之后可以包括多个第一语音单元，在计算出第一语音单元的对比编码损失率后，可以计算多个对比编码损失率的均值作为编码网络本次训练迭代的损失率。

为了使得本领技术人员更清楚理解本发明实施例计算损失率的过程，以下结合图3b进行示例说明如下：

如图3b所示，一次编码网络fenc的编码步长为4，即一次可以编码4个语音单元，当前步长对语音单元xt-3、xt-2、xt-1、xt进行编码，确定指定语音单元为xt，语音单元xt-3、xt-2、xt-1、xt对应的第一编码特征分别为ht-3、ht-2、ht-1、ht，语音单元xt-3、xt-2、xt-1、xt对应的内容特征为ct-3、ct-2、ct-1、ct，指定语音单元xt之后的第一语音单元为xt+1、xt+2、xt+3，第一语音单元为xt+1、xt+2、xt+3的第一编码特征分别为ht+1、ht+2、ht+3，通过内容特征ct分别预测第一语音单元为xt+1、xt+2、xt+3的第二编码特征为则对于每个第一语音单元(xt+1、xt+2、xt+3)，正样本对例和负样本对例如下：

对于第一语音单元xt+1：

正样本对例为负样本对例为等；

对于第一语音单元xt+2：

正样本对例为负样本对例为等；

对于第一语音单元xt+3：

正样本对例为负样本对例为等；

对于第一语音单元xt+1，计算损失率如下：

计算正样本对例中两个编码特征的相似度得到第一相似度，分别计算负样本对例中两个编码特征的相似度得到多个第二相似度，计算多个第二相似度的和值得到第二相似度和值，将第一相似度作为公式(1)的分子，第二相似度的和值作为公式(1)的分母即可以得到第一语音单元xt+1的对比编码损失率，然后对第一语音单元xt+1、xt+2、xt+3的对比编码损失率求平均值即可以得到本轮训练的损失率。

由公式(1)可知，正样本对例和负样本对例中，两个编码特征越接近，在正对例样本fk(xt+k,ct)的值越大，负样本对例fk(xj,ct)的值越小，对比编码损失率对越小，训练编码网络的目的就是优化一次编码网络和二次编码网络的网络参数和预测用的线性矩阵，使得每个语音单元的第一编码特征和第二编码特征接近，最终使得对比编码损失率最小。

s307、判断所述损失率是否小于预设阈值。

具体地，每轮训练完成后，通过损失率确定编码网络的精度是否足够，如判断损失率是否小于预设阈值，若是，说明编码网络精度足够，可以执行s308，停止对编码网络训练，否则，需要继续训练编码网络，执行s309。

s308、停止对所述编码网络进行训练。

即在损失率小于预设阈值时，保存编码网络中一次编码网络的网络参数，然后执行s310-s311。

s309、根据所述损失率调整所述编码网络的网络参数。

具体地，在损失率大于预设阈值时，根据损失率计算梯度，对一次编码网络和二次编码网络的网络参数以及预设线性矩阵进行梯度下降，然后返回s302重新训练编码网络，直到损失率小于预设阈值为止。

本发明实施例先对编码网络进行预训练，使得编码网络可以学习到时序信息，并且无需标签来计算损失率，训练数据无需标注，能够使用大量无标注数据来训练编码网络，减少了训练语音识别模型中有标注数据的数据量，降低了训练数据的成本。

s310、采用所述编码网络的一次编码网络和初始化的解码网络构建语音识别模型。

在训练好编码网络后，可以将编码网络中的一次编码网络和初始化后的解码网络连接构成语音识别模型，具体地，可以将一次编码网络的输出层和初始化后的解码网络的输入层连接得到语音识别模型，以使得一次编码网络输出的第一编码特征输入到解码网络中进行解码得到预测文本。

s311、将所述第二语音序列输入所述语音识别模型中，以对所述一次编码网络和所述解码网络进行训练得到训练好的语音识别模型。

本发明实施例将一次编码网络和解码网络连接构成语音识别模型后，对该语音识别模型进行全局训练，具体地，可以将第二语音序列输入一次编码网络中以在解码网络输出预测文本，采用预测文本和第二语音序列的标注文本计算损失率，判断损失率是否小于预设阈值；若是，停止对一次编码网络和解码网络进行训练；若否，根据损失率调整一次编码网络和解码网络的网络参数，返回将第二语音序列输入一次编码网络中以在解码网络输出预测文本的步骤，直到损失率小于预设阈值后，训练好的一次编码网络和解码网络构成的语音识别模型即为最终训练好的语音识别模型。

本发明实施例将无标注文本的第一语音序列输入初始化后的编码网络的一次编码网络中，得到第一语音序列中每个语音单元的第一编码特征，针对每个语音单元，将语音单元的第一编码特征和语音单元的前一个语音单元的状态量输入编码网络的二次编码网络中，得到指定语音单元的内容特征，将内容特征和预设线性矩阵相乘得到指定语音单元之后的语音单元的第二编码特征，针对指定语音单元之后的每个第一语音单元，利用第一语音单元的第一编码特征、第二编码特征以及第一语音单元以外的多个第二语音单元的第一编码特征计算第一语音单元的对比编码损失率，并计算对比编码损失率得到损失率，以根据该损失率来调整编码网络的网络参数，在训练好一次编码网络后，采用一次编码网络和解码网络构成语音识别模型，采用有标注文本的第二语音序列来训练语音识别模型。由于在训练编码网络时通过内容特征来预测第二编码特征，通过第一编码特征和第二编码特征计算对比编码损失来训练编码网络，第一语音序列无需标注文本，可以使用大量无标注文本的语音数据作为第一语音序列来训练编码网络，减少了训练语音识别模型时所需的有文本标注的训练数据的数量，降低了训练数据的成本。

实施例三

图4为本发明实施例三提供的一种语音识别方法的步骤流程图，本发明实施例可适用于将语音识别为文本的情况，该方法可以由本发明实施例的语音识别装置来执行，该语音识别装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图4所示，本发明实施例的语音识别方法可以包括如下步骤：

s401、获取待识别语音数据。

在本发明实施例中，待识别语音数据可以是需要识别为文本的语音数据，该待识别语音数据可以为短视频、直播平台上的语音数据，还可以是影片、电视剧中的语音数据，另外，待识别语音数据的语种可以是汉语、英语或者其他语种，甚至是地方方言等，本发明实施例对待识别语音数据的语种不加以限制。

s402、将所述待识别语音数据输入预先训练好的语音识别模型中得到识别文本。

其中，本发明实施例可以通过实施例一或实施例二所提供的语音识别模型训练方法来训练语音识别模型，该语音识别模型在输入语音数据后可以得到语音数据对应的识别文本，语音识别模型的训练方法可参考实施例一和实施例二，在此不再详述。

获取待识别语音数据后，可以先对待识别语音数据进行去噪、增强等预处理，再将预处理后的语音数据划分为多个语音片段得到语音序列，将该语音序列输入训练好的语音识别模型中，通过语音识别模型中的编码网络对语音序列进行编码得到编码特征，然后通过解码网络对编码特征进行解码即可以得到识别文本，可以对该识别文本进行甄别以确定是否存在违规内容，从而实现语音监管。

本发明实施例对语音识别所需的语音识别模型在训练时，将无标注文本的第一语音序列输入初始化后的编码网络中，得到第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征，在通过内容特征预测指定语音单元之后的语音单元的第二编码特征后，根据指定语音单元之后的语音单元的第一编码特征和第二编码特征计算对比编码损失以对编码网络进行训练，最后通过有标注文本的第二语音序列来对编码网络和解码网络进行训练得到最终的语音识别模型。由于在训练编码网络时通过内容特征来预测第二编码特征，通过第一编码特征和第二编码特征计算对比编码损失来训练编码网络，第一语音序列无需标注文本，可以使用大量无标注文本的语音数据作为第一语音序列来训练编码网络，减少了训练语音识别模型时所需的有文本标注的训练数据的数量，降低了训练数据的成本。

实施例四

图5是本发明实施例四提供的一种语音识别模型训练装置的结构框图，如图5所示，本发明实施例的语音识别模型训练装置具体可以包括如下模块：

训练数据集获取模块501，用于获取训练数据集，所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列；

编码网络编码模块502，用于将所述第一语音序列输入初始化后的编码网络中，得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征；

编码特征预测模块503，用于根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征；

编码网络训练模块504，用于根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失，以对所述编码网络进行训练；

编码网络和解码网络训练模块505，用于在训练好所述编码网络后，将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练，训练好的编码网络和解码网络作为语音识别模型。

本发明实施例所提供的语音识别模型训练装置可执行本发明任一实施例所提供的语音识别模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6是本发明实施例五提供的一种语音识别装置的结构框图，如图6所示，本发明实施例的语音识别装置具体可以包括如下模块：

待识别语音数据获取模块601，用于获取待识别语音数据；

语音识别模块602，用于将所述待识别语音数据输入预先训练好的语音识别模型中得到识别文本；

其中，所述语音识别模型通过本发明任一实施例所述的语音识别模型训练方法所训练。

本发明实施例所提供的语音识别装置可执行本发明实施例三所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。

实施例六

参照图7，示出了本发明一个示例中的一种电子设备的结构示意图。如图7所示，该电子设备具体可以包括：处理器701、存储装置702、具有触摸功能的显示屏703、输入装置704、输出装置705以及通信装置706。该电子设备中处理器701的数量可以是一个或者多个，图7中以一个处理器701为例。该电子设备的处理器701、存储装置702、显示屏703、输入装置704、输出装置705以及通信装置706可以通过总线或者其他方式连接，图7中以通过总线连接为例。所述电子设备用于执行如本发明任一实施例提供的语音识别模型训练方法，和/或，语音识别方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由电子设备的处理器执行时，使得设备能够执行如上述方法实施例所述的语音识别模型训练方法，和/或，语音识别方法。

需要说明的是，对于装置、电子设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变换、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。