语音识别模型的训练、语音识别方法、装置、设备及介质与流程
本公开涉及数据处理领域,尤其涉及语音识别模型的训练、语音识别方法、装置、设备及介质。
背景技术:
相关技术中,通过端到端模型可以将语音数据转换为文本数据,实现简化序列转换操作,同时简化训练过程。
其中,序列可以包括文本、语音、图像或视频等序列数据。例如,端到端模型为语音识别模型,训练数据包括语音和文本对。需要通过采集大量语音,并对应标注成文本,形成语音和文本对,以对模型进行训练。
在上述方式中,为了保证语音和文本的映射关系准确率,以及为了提高在未知的语音领域的识别准确率,也即为了提高模型的泛化能力,训练需要大量的语音和文本对,相应的,这需要耗费大量的时间和人工成本。
技术实现要素:
本公开提供一种语音识别模型的训练、语音识别方法、装置、设备及介质,以至少解决相关技术中语音识别模型的训练效率低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种语音识别模型的训练方法,包括:
获取第一语音数据;将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据;
按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,并根据所述第一语音数据,生成第一语音识别样本;
获取第二语音识别样本,所述第二语音识别样本包括第二语音数据和第三文本数据,所述第二语音数据的语义和所述第三文本数据的语义相同;
将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型。
可选的,所述按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,包括:
分别从各所述第一文本数据提取出匹配的语法特征,并根据匹配的语法特征,计算各所述第一文本数据的语法优先级;
比较各所述第一文本数据的语法优先级,获取语法优先级最高的第一文本数据,并作为第二文本数据。
可选的,所述从所述第一文本数据提取出匹配的语法特征,并根据匹配的语法特征,计算所述第一文本数据的语法优先级,包括:
将所述第一文本数据输入至预先训练的语法优先级计算模型中,所述语法优先级计算模型为基于注意力机制的编码器和解码器结构的双向编码器表示模型;
在所述语法优先级计算模型中,删除所述第一文本数据中至少一个文本单元,形成至少两个文本片段,各所述文本单元的单词总数量占所述第一文本数据的单词总数量的比值为设定比值;
分别获取各所述文本单元之前的第一文本片段,并生成各所述文本单元的第一预测结果;
分别获取各所述文本单元之后的第二文本片段,并生成各所述文本单元的第二预测结果;
根据各所述第一预测结果和各所述第二预测结果,生成各所述文本单元的目标预测结果;
将所述目标预测结果和各所述文本片段组合,生成语法预测数据;
计算所述语法预测数据与所述第一文本数据之间的差值,并作为所述第一文本数据的语法优先级。
可选的,将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,包括:
根据多个第一语音识别样本,生成至少一个第一训练数据组;
根据多个第二语音识别样本,生成至少一个第二训练数据组;
根据多个第一语音识别样本和多个第二语音识别样本,生成至少一个第三训练数据组,其中,所述第一训练数据组包括的样本数量、所述第二训练数据组包括的样本数量和所述第三训练数据组包括的样本数量相同;
将所述第一训练数据组、所述第二训练数据组和所述第三训练数据组交替输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,其中,相邻输入的两个训练数据组不同。
可选的,在对所述第一语音识别模型继续进行训练的同时,还包括:
计算所述第一语音识别模型的泛化误差;
如果所述第一语音识别模型的泛化误差小于等于第一误差阈值,则根据所述第二训练数据组继续对所述第一语音识别模型进行训练。
可选的,所述生成第二语音识别模型,包括:
在所述第一语音识别模型的训练过程中,计算所述第一语音识别模型的泛化误差;
如果所述第一语音识别模型的泛化误差小于等于第二误差阈值,则停止对所述第一语音识别模型进行训练,并将当前时刻的第一语音识别模型作为第二语音识别模型,所述第二误差阈值小于所述第一误差阈值。
可选的,在将所述第一语音数据输入至第一语音识别模型中之前,还包括:
获取多个第三语音识别样本,所述第三语音识别样本包括第三语音数据和第四文本数据;
将各所述第三语音识别样本输入至初始机器学习模型进行训练,所述初始机器学习模型包括基于注意力机制的编码器和解码器;
在所述编码器中,提取所述第三语音数据中的语音特征进行编码,得到特征向量;
在所述解码器中,对所述特征向量进行解码,形成预测文本数据;
计算所述预测文本数据与所述第三文本数据之间的差值;
在所述差值满足训练条件时,将当前机器学习模型作为第一语音识别模型。
根据本公开实施例的第二方面,提供一种语音识别方法,包括:
获取待识别的语音数据;获取语音识别模型,所述语音识别模型采用如本公开任一实施例中任一项所述的语音识别模型的训练方法训练获取;
将所述待识别的语音数据输入至所述语音识别模型中,获取所述语音识别模型输出的识别文本数据。
根据本公开实施例的第三方面,提供一种语音识别模型的训练装置,包括:
第一语音数据获取单元,被配置为执行获取第一语音数据;
第一文本数据获取单元,被配置为执行将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据;
第一语音识别样本生成单元,被配置为执行按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,并根据所述第一语音数据,生成第一语音识别样本;
第二语音识别样本获取单元,被配置为执行获取第二语音识别样本,所述第二语音识别样本包括第二语音数据和第三文本数据,所述第二语音数据的语义和所述第三文本数据的语义相同;
第二语音识别模型生成单元,被配置为执行将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型。
可选的,所述第一语音识别样本生成单元,包括:
语法特征提取子单元,被配置为执行分别从各所述第一文本数据提取出匹配的语法特征,并根据匹配的语法特征,计算各所述第一文本数据的语法优先级;
第二文本数据筛选子单元,被配置为执行比较各所述第一文本数据的语法优先级,获取语法优先级最高的第一文本数据,并作为第二文本数据。
可选的,所述语法优先级计算子单元,包括:
语法优先级计算模型计算子单元,被配置为执行将所述第一文本数据输入至预先训练的语法优先级计算模型中,所述语法优先级计算模型为基于注意力机制的编码器和解码器结构的双向编码器表示模型;
文本屏蔽子单元,被配置为执行在所述语法优先级计算模型中,删除所述第一文本数据中至少一个文本单元,形成至少两个文本片段,各所述文本单元的单词总数量占所述第一文本数据的单词总数量的比值为设定比值;
第一预测结果获取子单元,被配置为执行分别获取各所述文本单元之前的第一文本片段,并生成各所述文本单元的第一预测结果;
第二预测结果获取子单元,被配置为执行分别获取各所述文本单元之后的第二文本片段,并生成各所述文本单元的第二预测结果;
目标预测结果获取子单元,被配置为执行根据各所述第一预测结果和各所述第二预测结果,生成各所述文本单元的目标预测结果;
语法预测数据获取子单元,被配置为执行将所述目标预测结果和各所述文本片段组合,生成语法预测数据;
语法预测差值计算子单元,被配置为执行计算所述语法预测数据与所述第一文本数据之间的差值,并作为所述第一文本数据的语法优先级。
可选的,所述第二语音识别模型生成单元,包括:
第一训练数据组获取子单元,被配置为执行根据多个第一语音识别样本,生成至少一个第一训练数据组;
第二训练数据组获取子单元,被配置为执行根据多个第二语音识别样本,生成至少一个第二训练数据组;
第三训练数据组获取子单元,被配置为执行根据多个第一语音识别样本和多个第二语音识别样本,生成至少一个第三训练数据组,其中,所述第一训练数据组包括的样本数量、所述第二训练数据组包括的样本数量和所述第三训练数据组包括的样本数量相同;
训练数据交替训练子单元,被配置为执行将所述第一训练数据组、所述第二训练数据组和所述第三训练数据组交替输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,其中,相邻输入的两个训练数据组不同。
可选的,所述语音识别模型的训练装置,还包括:
标注数据后期训练单元,被配置为执行在对所述第一语音识别模型继续进行训练的同时计算所述第一语音识别模型的泛化误差;
如果所述第一语音识别模型的泛化误差小于等于第一误差阈值,则根据所述第二训练数据组继续对所述第一语音识别模型进行训练。
可选的,所述第二语音识别模型生成单元,包括:
模型训练完成检测单元,被配置为执行在所述第一语音识别模型的训练过程中,计算所述第一语音识别模型的泛化误差;
如果所述第一语音识别模型的泛化误差小于等于第二误差阈值,则停止对所述第一语音识别模型进行训练,并将当前时刻的第一语音识别模型作为第二语音识别模型,所述第二误差阈值小于所述第一误差阈值。
可选的,所述语音识别模型的训练装置,还包括:
第三语音识别样本获取单元,被配置为执行在将所述第一语音数据输入至第一语音识别模型中之前,获取多个第三语音识别样本,所述第三语音识别样本包括第三语音数据和第四文本数据;
第一语音识别模型训练单元,被配置为执行将各所述第三语音识别样本输入至初始机器学习模型进行训练,所述初始机器学习模型包括基于注意力机制的编码器和解码器;
语音编码单元,被配置为执行在所述编码器中,提取所述第三语音数据中的语音特征进行编码,得到特征向量;
文本解码单元,被配置为执行在所述解码器中,对所述特征向量进行解码,形成预测文本数据;
预测文本差值计算单元,被配置为执行计算所述预测文本数据与所述第三文本数据之间的差值;
第一语音识别模型生成单元,被配置为执行在所述差值满足训练条件时,将当前机器学习模型作为第一语音识别模型。
根据本公开实施例的第四方面,提供一种语音识别装置,包括:
待识别语音数据获取单元,被配置为执行获取待识别的语音数据;
语音识别模型获取单元,被配置为执行获取语音识别模型,所述语音识别模型采用如本公开任一实施例所述的语音识别模型的训练方法训练获取;
识别文本数据获取单元,被配置为执行将所述待识别的语音数据输入至所述语音识别模型中,获取所述语音识别模型输出的识别文本数据。
根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如本公开任一实施例所述的语音识别模型的训练方法或者如本公开任一实施例所述的语音识别方法。
根据本公开实施例的第六方面,提供一种存储介质,所述存储介质中的指令由电子设备的处理器执行时,使得处理器能够执行如本公开任一实施例所述的语音识别模型的训练方法或者如本公开任一实施例所述的语音识别方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,用于与电子设备结合使用,所述计算机程序产品包括计算机可读存储介质和内嵌于其中的计算机程序机制,经由计算机载入该程序并执行后能够实现如本公开任一实施例所述的语音识别模型的训练方法或者如本公开任一实施例所述的语音识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过预训练的第一语音识别模型对第一语音数据进行文本识别,获取语音数据对应的多个第一文本数据,可以准确获取第一语音数据语义相同的文本数据;并从多个第一文本数据中根据语法规则筛选出第二文本数据,可以获取语法准确的文本数据;并将第二文本数据和第一语音数据组合为第一语音识别样本,实现自动生成训练样本,加快训练样本的生成速度,同时使训练样本接近人工标注的准确训练样本;采用第一语音识别样本对第一语音识别模型继续训练,实现采用自动生成的训练样本对语音识别模型进行训练,加快语音识别模型训练速度,提高语音识别模型的训练效率,解决了语音识别模型的训练的问题,同时减少人工标注样本的数量,降低生成训练样本的人工成本;并且采用第二语音识别样本对第一语音识别模型继续训练,实现采用准确训练样本对语音识别模型进行训练,提高语音识别模型的语音识别准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图。
图2是根据一示例性实施例示出的一种基于注意力机制的编码器和解码器模型的示意图。
图3是根据一示例性实施例示出的一种编码器的示意图。
图4是根据一示例性实施例示出的一种解码器的示意图。
图5是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图。
图6是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图。
图7是根据一示例性实施例示出的一种语音识别方法的流程图。
图8是根据一示例性实施例示出的一种语音识别模型的训练装置的框图。
图9是根据一示例性实施例示出的一种语音识别装置的框图。
图10是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图,如图1所示,语音识别模型的训练方法用于电子设备中,由电子设备来执行,包括以下步骤。
在步骤s11中,获取第一语音数据。
第一语音数据用于作为语音识别样本中的源语音,以训练语音识别模型。第一语音数据可以包括至少一个语种语音片段,例如,第一语音数据可以是中文:我爱唱歌,或者可以包括英文和中文:iloveto唱歌,其中,第一语音数据包括英文片段iloveto和中文片段唱歌。第一语音数据可以通过多种方式获取,例如从网络中抓取,又如通过录音设备采集。
在步骤s12中,将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据。
第一语音识别模型用于对语音数据进行识别,生成与语音数据的语义相同的文本数据。第一语音识别模型可以是机器学习模型经过训练生成的模型。第一语音识别模型实际为一种端到端(endtoend)模型,采用端到端模型作为语音识别模型,可以减少对原始语音数据的预处理和特征处理等处理操作,直接由语音数据转换为文本数据,可以减少处理操作引入的误差,提高语音识别的效率和准确率。此外,第一语音识别模型用于将语音数据识别成文本数据,通过生成语音数据和文本数据的样本对,实现自动生成训练样本,大大降低了将语音数据标注成文本的人工成本。
其中,语音数据为语音序列,文本数据为文本序列。示例性的,语音识别模型用于将语音序列识别成语义相同的文本序列;又如,语音识别模型用于将一个语种的语音序列翻译成另外一个语种的文本序列;又如,将长文本的语音序列转换成短文本序列,即根据语音篇章生成文本摘要。此外,还有其他应用场景,具体可以根据需要进行设定,对此,本公开实施例不做具体限制。
在本公开实施例的一个实施方式中,可选的,在将所述第一语音数据输入至第一语音识别模型中之前,还包括:获取多个第三语音识别样本,所述第三语音识别样本包括第三语音数据和第四文本数据;将各所述第三语音识别样本输入至初始机器学习模型进行训练,所述初始机器学习模型包括基于注意力机制的编码器和解码器;在所述编码器中,提取所述第三语音数据中的语音特征进行编码,得到特征向量;在所述解码器中,对所述特征向量进行解码,形成预测文本数据;计算所述预测文本数据与所述第三文本数据之间的差值;在所述差值满足训练条件时,将当前机器学习模型作为第一语音识别模型。
第三语音识别样本用于对初始机器学习模型进行训练,生成第一语音识别模型。其中,第三语音识别样本包括的第三语音数据的语义和该第三语音识别样本包括的第四文本数据的语义相同。可选的,第三语音识别样本中第四文本数据为人工标注的文本数据。采用人工标注的语音识别样本训练初始机器学习模型,实现采用准确的语音识别样本进行模型训练,可以提高机器学习模型的语音识别准确率。第三语音识别样本实际为人工标注的正确样本对。通常,人工标注方式形成的文本数据可以保证文本的语法准确,且与语音数据准确对应,从而根据人工标注输出文本数据形成的第三语音识别样本的样本代表性最好。第一语音识别模型为通过第三语音识别样本对训练完成的初始机器学习模型。
此外,为了节省人工成本,初始机器学习模型的训练次数或者训练的数据量较小,训练完成的初始机器学习模型,即第一语音识别模型处于欠拟合状态,需要进一步进行训练。
初始机器学习模型的结构示意图如图2所示,编码器用于对语音数据进行特征提取,并将提取的语音特征进行编码,生成特征向量,其中,语音特征用于表征语音数据的参数以及参数的属性值。注意力(attention)模块用于根据历史时刻的特征向量,对当前时刻的特征向量进行修正,并将修正后的特征向量发送至解码器,注意力模块用于增强向量表示。解码器用于对修正后的特征向量进行解码,形成至少一个预测文本数据。分类器用于对预测文本数据进行分类,并输出至少一个预测文本数据。示例性的,分类器可以是softmax损失函数,通过配置softmax损失函数的阈值,可以输出多个不同概率的文本数据,实现输出多个序列转换结果。通常,可以配置输出最高概率的文本数据。在本公开实施例中,可以通过配置阈值输出多个文本数据,例如,可以输出5个文本数据。此外,分类器还可以是连接时序分类(connectionisttemporalclassification,ctc)损失函数,具体可以根据需要进行设定,对此,本公开实施例不作具体限制。
编码器用于编码语音数据,将任意长度的语音数据编码到特征向量(c),具体是将语音数据(x)进行切分以及编码转换成为特征向量。解码器用于根据上下文信息对特征向量(c)进行解析,形成文本数据(y)。特征向量实际用于描述语音数据的特征。
其中,编码器在计算特征向量时,通常将语音数据进行切分,并对切分形成的每个语音片段提取特征,形成语音元素。编码器通常预先配置一个初始隐藏层向量,并将一个语音元素作为输入,计算得到当前时刻对应的隐藏层向量。而后依次将语音元素分别作为输入,对上一时刻得到的隐藏层向量进行变换,得到当前时刻对应的隐藏层向量,当全部语音元素均输入完成,得到隐藏层向量即为特征向量。
示例性的,如图3所示,h1、h2、h3……hn为隐藏层向量,与上一时刻的状态以及当前输入有关。h0为预设的初始隐藏层向量,x1、x2、x3……xn为语音数据,c为特征向量。根据h0以及此刻输入x1计算h1,再根据h1以及此刻输入x2计算h2,以此类推,根据hn以及此刻输入xn计算c。
解码器在对特征向量进行解析时,通常将特征向量作为输入,计算得到每一时刻对应的隐藏层向量,确定备选语音片段并计算各备选语音片段的概率(如置信度),根据各备选语音片段的概率确定目标语音片段。具体的,可以根据上一时刻得到隐藏层向量确定计算当前时刻对应的隐藏层向量。
示例性的,如图4所示,h1'、h2'、h3'……hn'为隐藏层向量,与上一时刻的状态以及当前输入有关。h0'为预设的初始隐藏层向量,y1、y2、y3……yn为输出序列,c为特征向量。根据h0'以及c计算h1',再根据h1'以及c计算h2,以此类推,根据hn-1'以及c计算hn'。同时根据h0、h1'、c计算多个备选语音片段的概率,并从中确定目标语音片段作为y1输出,再根据h1'、y1和c计算多个备选语音片段的概率,并从中确定目标语音片段作为y2输出,以此类推,根据hn-1'、yn-1以及c输出yn。对y1、y2、y3……yn进行拼接,得到的序列即为文本数据。
在解码器在对特征向量进行解析时,目标语音片段不仅和解码器的上一时刻隐藏层向量相关、特征向量、以及上一时刻对应的目标语音片段有关,还与编码器中的隐藏层向量相关。通过注意力模块,针对每个目标语音片段的计算,确定编码器中各隐藏层向量的权重,将当前时刻的解码的输入与所有时刻的编码器的隐藏层向量进行加权求和,计算下一时刻的隐藏层向量以及目标语音片段,从而更加准确确定目标语音片段,以准确确定文本数据。
预测文本数据与第三文本数据之间的差值用于度量预测文本数据与准确语音识别结果之间的差距。具体的,可以采用预设损失函数计算预测文本数据与第三文本数据之间的差值。示例性的,损失函数用于计算对初始学习模型输出正确标签(label)的概率的乘积,取负对数,其中,正确标签可以是指预测文本数据中与第三文本数据相同或相似的数据。训练条件用于检测初始机器学习模型的训练是否完成。可选的,训练条件用于检测差值是否小于等于设定差值阈值。或者训练条件用于检测训练次数是否超过设定次数阈值。此外,训练条件还可以是其他形式,对此,本公开实施例不作具体限制。差值满足训练条件,表明初始机器学习模型训练完成,将当前时刻的初始机器学习模型确定为第一语音识别模型。
通过采用基于注意力机制的编码器和解码器模型作为初始机器学习模型,可以更加关注解码器上一时刻的输入数据,在时间顺序方向上对齐输入语音与输出文本,使训练得到的第一语音识别模型输出的文本数据与语音数据对齐,提高第一语音识别模型的识别准确率;并采用语义相同的第三语音数据和第四文本数据作为训练样本对初始机器学习模型进行训练,生成第一语音识别模型,提高训练样本的准确性,从而提高训练得到的第一语音识别模型的识别准确率。
在步骤s13中,按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,并根据所述第一语音数据,生成第一语音识别样本。
按照预设语法规则,从各第一文本数据中识别出第二文本数据,用于从多个第一文本数据中筛选出语法最准确的文本数据。语法规则用于检测文本数据的语法是否准确。可以根据语法规则对多个第一文本数据分别进行评分,将第一文本数据的评分作为第一文本数据的评价结果,可以将评分最高的第一文本数据确定为第二文本数据,其中,文本数据的评价结果用于评价文本数据是否语法准确。示例性的,语法规则用于检测文本数据中每个分词与相邻分词的位置关系是否正确。
第二文本数据用于与第一语音数据组成样本对,作为训练数据,以对第一语音识别模型进行训练。可以理解为,第二文本数据可以是第一文本数据中最符合语法规则的文本数据,也即语法最准确的文本数据。将第一语音数据和筛选得到的第二文本数据组成目标样本对,可以提高样本的准确性。
示例性的,第一文本数据包括:五月的杭州是一个风景如画的季节;杭州的五月是一个风景如画的季节。其中,第二句“杭州的五月是一个风景如画的季节”的语法准确,从而,第二句为第二文本数据。
在步骤s14中,获取第二语音识别样本,所述第二语音识别样本包括第二语音数据和第三文本数据,所述第二语音数据的语义和所述第三文本数据的语义相同。
第二语音识别样本实际为人工标注的正确样本对。通常,人工标注方式形成的文本数据可以保证文本的语法准确,且与语音数据准确对应,从而根据人工标注输出文本数据形成的第二语音识别样本的样本代表性最好。
在步骤s15中,将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型。
第一语音识别样本是计算机设备自动生成的样本。第二语音识别样本是人工标注的正确样本。第二语音识别模型为训练完成的模型,第二语音识别模型为第一语音识别模型经过大量样本训练得到的模型,相对于第一语音识别模型,第二语音识别模型的语音识别准确率更高。
由于人工成本过高,难以获取大量人工标注样本对第一语音识别模型进行训练。通过自动生成与任意语音数据语义相同的文本数据,可以形成大量第一语音识别样本,快速生成大量训练样本以对第一语音识别模型继续进行训练,提高第一语音识别模型的语音识别准确率。实际上,大量生成的第一语音识别样本中存在错误样本,例如,第一语音识别样本中,语音数据的语义和文本数据的语义不同和/或文本数据的语法错误等,采用错误样本训练第一语音识别模型,会导致第一语音识别模型的语音识别准确率降低。从而,可以通过增加人工标注正确样本的第二语音识别样本对第一语音识别模型进行训练,提高提高第一语音识别模型的语音识别准确率。
此外,第一语音识别样本可以是根据不同领域任意抓取的语音数据,相应识别为文本数据形成的样本。可以通过配置增加第一语音数据的类型,以增加第一样本识别样本的类型,从而增加训练样本的覆盖范围,提高第一语音识别模型对未知语音的识别准确率,即提高第一语音识别模型的泛化能力。
本公开实施例的技术方案通过预训练的第一语音识别模型对第一语音数据进行文本识别,获取语音数据对应的多个第一文本数据,可以准确获取第一语音数据语义相同的文本数据;并从多个第一文本数据中根据语法规则筛选出第二文本数据,可以获取语法准确的文本数据;并将第二文本数据和第一语音数据组合为第一语音识别样本,实现自动生成训练样本,加快训练样本的生成速度,同时使训练样本接近人工标注的准确训练样本;采用第一语音识别样本对第一语音识别模型继续训练,实现采用自动生成的训练样本对语音识别模型进行训练,加快语音识别模型训练速度,提高语音识别模型的训练效率,解决了语音识别模型的训练的问题,同时减少人工标注样本的数量,降低生成训练样本的人工成本;并且采用第二语音识别样本对第一语音识别模型继续训练,实现采用准确训练样本对语音识别模型进行训练,提高语音识别模型的语音识别准确率。
图5是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图,本实施例是对上述技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图5所示,语音识别模型的训练方法包括以下步骤。
在步骤s21中,获取第一语音数据。
本实施例中未详尽的描述可以参考前述实施例。
在步骤s22中,将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据。
在步骤s23中,分别从各所述第一文本数据提取出匹配的语法特征,并根据匹配的语法特征,计算各所述第一文本数据的语法优先级。
语法特征用于表征语音数据语法的参数,以及参数的属性值,例如,语音中单词在句中的位置和/或单词的句中成分类型等等。语法优先级用于评价文本数据的语法符合人的语法规则的程度。文本数据的语法越符合人的语法规则,文本数据的语法优先级越高,文本数据的语法越偏离人的语法规则,文本数据的语法优先级越低。通常不同语种的语法不同,可以为每个语种的语法分别配置匹配的计算方法进行语法优先级计算。示例性的,语法评价模型可以是预先训练的机器学习模型。
可选的,所述从所述第一文本数据提取出匹配的语法特征,并根据匹配的语法特征,计算所述第一文本数据的语法优先级,包括:将所述第一文本数据输入至预先训练的语法优先级计算模型中,所述语法优先级计算模型为基于注意力机制的编码器和解码器结构的双向编码器表示模型;在所述语法优先级计算模型中,删除所述第一文本数据中至少一个文本单元,形成至少两个文本片段,各所述文本单元的单词总数量占所述第一文本数据的单词总数量的比值为设定比值;分别获取各所述文本单元之前的第一文本片段,并生成各所述文本单元的第一预测结果;分别获取各所述文本单元之后的第二文本片段,并生成各所述文本单元的第二预测结果;根据各所述第一预测结果和各所述第二预测结果,生成各所述文本单元的目标预测结果;将所述目标预测结果和各所述文本片段组合,生成语法预测数据;计算所述语法预测数据与所述第一文本数据之间的差值,并作为所述第一文本数据的语法优先级。
基于注意力机制的编码器和解码器结构的双向编码器表示(bidirectionalencoderrepresentationsfromtransformer,bert)模型,是根据大规模无标注语料进行训练得到的模型,bert模型用于获取包含丰富语义信息的文本的语义表示。bert模型为预训练模型,bert模型的输入包括文本中各个字或词的原始词向量,输出包括文本中各个字或词融合了全文语义信息后的向量表示。bert模型采用无监督方法,采用海量的文本数据进行训练。bert模型用于学习文本数据中的语法规则,以对文本数据进行语法优先级计算。
bert模型训练过程具体为:在输入文本中随机屏蔽(masking)部分输入分词(token),然后只预测那些被屏蔽的token。
其中,第一文本数据为bert模型的输入文本。文本单元为被屏蔽输入分词。可以对第一文本数据进行分词处理,形成至少一个文本单元。示例性的,第一文本数据为:我喜欢唱歌,三个文本单元分别为:我、喜欢以及唱歌。其中,屏蔽可以是指删除该文本单元,并替换为其他特殊标志信息的操作,也即在删除文本单元之后,仍保持各文本单元(包括被删除的文本单元)的位置不变。针对每个被删除的文本单元,将该文本单元之前的文本和该文本单元之后的文本确定为两个文本片段,也即每个被删除的文本单元对应存在两个文本片段,其中,文本片段可以为空。文本单元之前的第一文本片段为文本数据中该文本单元之前的全部文本;文本单元之后的第二文本片段为文本数据中该文本单元之后的全部文本。
文本单元包括至少一个单词,单词为文本的可编辑最小单元。在第一文本数据中,可以屏蔽任意数量任意位置的文本单元。通常,文本单元越多,即包括的单词数量越多,预测准确率会下降,例如,全部单词均被删除,bert模型的预测准确率极低。由此可以配置设定比值,限制文本单元的单词数量占第一文本数据的单词数量的比例,提高bert模型的预测准确率。设定比值用于确定在文本数据中被屏蔽(或被删除)的文本单元包括的单词数量。示例性的,设定比值通常为15%,此外,设定比值还可以根据实际情况进行设定,对此,本公开实施例不作具体限制。
获取文本单元之前的第一文本片段,并生成该文本单元的第一预测结果,可以理解为针对该文本单元,获取第一个方向上的预测结果。获取该文本单元之后的第二文本片段,并生成该文本单元的第二预测结果,可以理解为针对该文本单元,获取第二个方向上的预测结果。获取两个方向上的预测结果,体现bert模型的双向编码器的语义表达。根据该文本单元的第一预测结果和第二预测结果,生成该文本单元的目标预测结果,用于综合考虑两个方向上的预测结果,并确定该文本单元的目标预测结果。将目标预测结果与该文本单元之前的第一文本片段以及该文本单元之后的第二文本片段组合,实际上,是将目标预测结果填充到被删除之前的位置处。并将全部文本单元分别匹配的目标预测结果,分别填充到匹配的删除位置处,生成语法预测数据。
语法预测数据与第一文本数据之间的差值,用于表示bert模型的预测准确率,以及表示语法预测数据与第一文本数据之间的差距。实际上,在训练过程中,bert模型用于学习正确语法的文本数据的语义表示,语法预测数据与正确语法的文本数据之间的差值,可以用于表示bert模型预测的文本数据与正确语法的文本数据之间的差距,从而将语法预测数据与第一文本数据之间的差值确定为第一文本数据的语法优先级,可以用于评价第一文本数据的语法符合语法规则的程度。
此外,一个bert模型可以仅针对同一个语种的文本进行语法优先级计算,不同bert模型分别对应不同语种的语法,按照文本数据对应的语种,选择与该语种匹配的bert模型进行语法优先级计算;或者,可以配置一个bert模型对多个语种的的文本进行语法优先级计算。
通过采用预先训练的bert模型对文本数据进行语法优先级计算,可以准确计算第一文本数据的语法准确率,并且,bert模型是通过无监督的方法进行训练,可以降低语法评价的成本,同时采用文本数据进行无监督训练,可以提高语法评价模型的训练速度。
在步骤s24中,比较各所述第一文本数据的语法优先级,获取语法优先级最高的第一文本数据,并作为第二文本数据,并根据所述第一语音数据,生成第一语音识别样本。
语法优先级最高的第一文本数据用于确定最符合人的语法规则的第一文本数据,也即确定语法最准确的第一文本数据。选择语法优先级最高的第一文本数据,生成第一语音识别样本,可以提高第一语音识别样本对齐人工标注的语音识别样本,提高第一语音识别样本的语法准确率,从而提高训练生成的第二语音识别模型的输出文本的语法准确率,以提高第二语音识别模型的语音识别准确率。
在步骤s25中,获取第二语音识别样本,所述第二语音识别样本包括第二语音数据和第三文本数据,所述第二语音数据的语义和所述第三文本数据的语义相同。
在步骤s26中,将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型。
本公开实施例的技术方案通过对多个文本数据进行语法优先级计算,并将语法优先级最高的文本数据作为第二文本数据,提高第二文本数据的语法准确率,可以提高第一语音识别样本的语法准确率,从而,提高第二语音识别模型输出文本数据的语法准确率。
图6是根据一示例性实施例示出的一种语音识别模型的训练方法的流程图,本实施例是对上述技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图6所示,语音识别模型的训练方法包括以下步骤。
在步骤s31中,获取第一语音数据。
本实施例中未详尽的描述可以参考前述实施例。
在步骤s32中,将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据。
在步骤s33中,按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,并根据所述第一语音数据,生成第一语音识别样本。
在步骤s34中,获取第二语音识别样本,所述第二语音识别样本包括第二语音数据和第三文本数据,所述第二语音数据的语义和所述第三文本数据的语义相同。
在步骤s35中,根据多个第一语音识别样本,生成至少一个第一训练数据组。
获取大量的第一语音识别样本,并进行分组,生成多个第一训练数据组。第一训练数据组仅包括计算机设备自动生成的样本。
在步骤s36中,根据多个第二语音识别样本,生成至少一个第二训练数据组。
获取大量的第二语音识别样本,并进行分组,生成多个第二训练数据组。第二训练数据组仅包括人工标注样本。
在步骤s37中,根据多个第一语音识别样本和多个第二语音识别样本,生成至少一个第三训练数据组,其中,所述第一训练数据组包括的样本数量、所述第二训练数据组包括的样本数量和所述第三训练数据组包括的样本数量相同。
第三训练数据组是计算机设备自动生成的样本和人工标注样本的混合样本组。
第一训练数据组包括的样本数量、第二训练数据组包括的样本数量和第三训练数据组包括的样本数量相同,可以避免引入输入数量不同导致的误差,从而,可以减少模型训练的误差引入,提高模型的语音识别准确率。
在步骤s38中,将所述第一训练数据组、所述第二训练数据组和所述第三训练数据组交替输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型,其中,相邻输入的两个训练数据组不同。
将第一训练数据组、第二训练数据组和第三训练数据组交替输入至第一语音识别模型中,可以避免仅输入第一训练数据组、第二训练数据组或第三训练数据组,固化第一语音识别模型的输入数据,而导致第一语音识别模型对未知样本的识别准确率下降,交替输入可以提高训练过程的随机性,提高第二语音识别模型对未知样本的识别准确率,以及提高第二语音识别模型的泛化能力。
通常,采用多轮多步方式对模型进行训练。第一语音识别模型的训练过程包括多轮训练,一轮包括多步,每步训练选择部分训练数据对第一语音识别模型进行训练。可以将训练数据进行分组,按照不同轮次不同步分组对模型进行训练。示例性的,训练的轮数为30-40,一轮的步数为5-10。例如,第一语音识别模型的训练轮数总共为40轮,每轮包括5步。每步采用第一训练数据组、第二训练数据组或第三训练数据组中任意一组训练数据组对第一语音识别模型进行训练。通常采用随机方式配置每步采用的训练数据组的类型。相邻输入的两个训练数据组不同,可以是指相邻两步,采用的训练数据组的类型不同。
示例性的,第一语音识别模型的训练方式可以是:在每轮训练过程中,第一步采用第一训练数据组对第一语音识别模型进行训练,第二步采用第二训练数据组对第一语音识别模型进行训练,第三步采用第三训练数据组对第一语音识别模型进行训练等,后续步重复前述过程,如第四步继续采用第一训练数据组对第一语音识别模型进行训练等。
可以在每次,即前例中的每步训练结束后,计算第一语音识别模型的泛化误差,并根据泛化误差,可以相应调整训练的次数,即前例中的轮数和步数。
第一语音识别模型的泛化能力用于评价第一语音识别模型对未知输入给出正确响应的能力。通常,采用模型的泛化误差,评价模型的泛化能力。通常,将训练样本分为训练集和测试集,其中,本公开实施例中的训练数据为训练集。训练集用于训练模型,测试集用于评估训练好的模型对于数据的预测性能。可以从训练数据中选择部分目标样本对,形成测试集。泛化误差可以是模型针对测试集的预测结果中错误样本在全部样本的占比。在泛化误差最低时,该模型的泛化能力最好。但经过过多训练次数的模型可能无法得到准确的输入输出映射关系。实际上,模型在训练过程中存在欠拟合和过拟合两种状态。在初始时刻,模型为欠拟合状态,此时,泛化误差随着训练次数的提高而降低;当训练次数达到设定次数时,模型的状态转换为过拟合状态,此时,泛化误差随着训练次数的提高而提高。从而,泛化误差先下降再升高,泛化误差的最低点也是模型由欠拟合到过拟合转变的转折点。
通常,第一语音识别模型的训练样本为人工标注的样本,由于人工成本过高,难以获取海量样本,而只有通过海量样本进行训练,第一语音识别模型才会形成过拟合状态。也就是说,第一语音识别模型通常处于欠拟合状态。通过自动生成大量第一语音识别样本,对第一语音识别模型继续进行训练,可以降低训练得到的第二语音识别模型的泛化误差,提高第二语音识别模型的泛化能力。
可选的,在对所述第一语音识别模型继续进行训练的同时,还包括:计算所述第一语音识别模型的泛化误差;如果所述第一语音识别模型的泛化误差小于等于第一误差阈值,则根据所述第二训练数据组继续对所述第一语音识别模型进行训练。
第一误差阈值用于判断第一语音识别模型何时开始仅执行第二训练数据组训练操作。第一语音识别模型的泛化误差小于等于第一误差阈值,通常是指在训练的最后阶段。
实际上,由于第一语音识别样本中可能为错误样本,第一训练数据组中可能存在错误样本,从而采用第一训练数据组对第一语音识别模型进行训练,会导致第一语音识别模型的语音识别准确率下降。在训练后期可以仅采用第二训练数据组对第一语音识别模型进行训练,进一步提高第一语音识别模型的语音识别准确率。
在泛化误差小于等于第一误差阈值时,开始全部采用第二训练数据组对第一语音识别模型进行训练,也即在训练的最后阶段,采用人工标注方式生成的训练数据对第一语音识别模型进行训练。实际上,在模型即将训练完成时,采用人工标注方式生成的训练数据,可以保证训练数据语法最准确,且语义表达最准确,并对第一语音识别模型进行最后几轮或者几步的训练,相比于仍采用第一训练数据组对第一语音识别模型进行训练的方式,可以提高第一语音识别模型的转换准确率。
此外,第一误差阈值与训练的总步数存在对应关系。通常根据多次实验统计可以确定,第一误差阈值对应的总步数,由此,可以采用总步数表征第一误差阈值。示例性的,可以采用30-40轮,每轮包括5-10步,第一语音识别模型的泛化误差小于等于第一误差阈值,相当于总轮数中最后第2-5轮。从而,还可以在倒数第2-5轮开始采用第二训练数据组对第一语音识别模型进行训练。
通过在泛化误差小于等于第一误差阈值时,开始全部采用第二训练数据组对第一语音识别模型进行训练,减少第一训练数据组中错误样本引起的模型识别准确率下降的影响,同时,在最后训练阶段,采用全部采用标注训练数据对第一语音识别模型进行训练,可以进一步提高第一语音识别模型的转换准确率。
可选的,所述生成第二语音识别模型,包括:在所述第一语音识别模型的训练过程中,计算所述第一语音识别模型的泛化误差;如果所述第一语音识别模型的泛化误差小于等于第二误差阈值,则停止对所述第一语音识别模型进行训练,并将当前时刻的第一语音识别模型作为第二语音识别模型,所述第二误差阈值小于所述第一误差阈值。
第二误差阈值用于判断第一语音识别模型是否训练完成。示例性的,第二误差阈值为泛化误差的最小值。此外,还可以根据需要设定第一误差阈值为大于该最小值的数值,对此,本公开实施例不做具体限制。
在实际应用中,第一误差阈值与训练的总步数存在对应关系。示例性的,可以采用30-40轮,每轮包括5-10步,对应的总步数,表征第二误差阈值,即如果确定全部轮数和全部步数训练完成,则确定第一语音识别模型的泛化误差小于等于第二误差阈值。
由于模型的泛化误差在转折点之后会上升,第一语音识别模型的泛化能力下降,可以对第一语音识别模型继续训练,直至第一语音识别模型的泛化误差最小,此时,第一语音识别模型的泛化能力达到最佳。
通过配置第二误差阈值为泛化误差的最小值,使第一语音识别模型的泛化误差接近泛化误差的最小值,从而提高第一语音识别模型的泛化能力。
本公开实施例的技术方案通过根据第一语音识别样本和第二语音识别样本,分别生成第一训练数据组、第二训练数据组和第三训练数据组,并交替输入至第一语音识别模型中进行训练,可以提高训练样本的随机性,提高训练完成的第二语音识别模型对未知样本的识别准确率,以及提高第二语音识别模型的泛化能力,同时配置各训练数据组包括的样本数量相同,可以避免引入输入数量不同导致的误差,从而,可以减少模型训练的误差引入,提高模型的语音识别准确率。
图7是根据一示例性实施例示出的一种语音识别方法的流程图,如图7所示,语音识别方法用于电子设备中,由电子设备执行,包括以下步骤。
在步骤s41中,获取待识别的语音数据。
待识别语音用于作为输入序列进行序列转换,待识别语音包括至少一个说话人声音。待识别语音可以通过多种方式获取,例如从网络中抓取,又如通过录音设备采集。
在步骤s42中,获取语音识别模型,所述语音识别模型采用如权利要求1至8中任一项所述的语音识别模型的训练方法训练获取。
通过如本公开任一实施例所述的语音识别模型的训练方法获取目标训练数据,可以快速自动获取大量训练样本,对已预先训练的第一语音识别模型进行进一步训练,形成目标模型,提高目标模型的泛化能力,提高目标模型的映射关系准确率和语法准确率。
在步骤s43中,将所述待识别的语音数据输入至所述语音识别模型中,获取所述语音识别模型输出的识别文本数据。
示例性的,目标模型可以应用在多个场景中,例如,目标模型用于将说话人声音转换为同语种的说话人文本;又如,目标模型用于将说话人声音转换为不同语种的说话人文本;又如,目标模型用于根据说话人声音,生成对话回复文本,以实现人机对话;又如,目标模型用于根据说话人的语音内容,生成摘要文本等。
本公开实施例的技术方案通过本公开任一实施例所述的语音识别模型的训练方法获取语音识别模型,可以快速自动生成大量训练样本,加快训练样本的生成速度,降低训练目标模型的人工成本,提高目标模型的训练效率,同时使训练样本接近人工标注的准确训练样本,提高语音识别模型的识别效率,并基于语音识别模型的训练方法获取的语音识别模型进行语音识别,可以降低语音识别文本的人工成本,同时提高识别效率。
图8是根据一示例性实施例示出的一种语音识别模型的训练装置框图。参照图8,该装置包括第一语音数据获取单元121,第一文本数据获取单元122、第一语音识别样本生成单元123、第二语音识别样本获取单元124和第二语音识别模型生成单元125。
第一语音数据获取单元121,被配置为执行获取第一语音数据;
第一文本数据获取单元122,被配置为执行将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据;
第一语音识别样本生成单元123,被配置为执行按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,并根据所述第一语音数据,生成第一语音识别样本;
第二语音识别样本获取单元124,被配置为执行获取第二语音识别样本,所述第二语音识别样本包括第二语音数据和第三文本数据,所述第二语音数据的语义和所述第三文本数据的语义相同;
第二语音识别模型生成单元125,被配置为执行将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型。
本公开实施例的技术方案通过预训练的第一语音识别模型对第一语音数据进行文本识别,获取语音数据对应的多个第一文本数据,可以准确获取第一语音数据语义相同的文本数据;并从多个第一文本数据中根据语法规则筛选出第二文本数据,可以获取语法准确的文本数据;并将第二文本数据和第一语音数据组合为第一语音识别样本,实现自动生成训练样本,加快训练样本的生成速度,同时使训练样本接近人工标注的准确训练样本;采用第一语音识别样本对第一语音识别模型继续训练,实现采用自动生成的训练样本对语音识别模型进行训练,加快语音识别模型训练速度,提高语音识别模型的训练效率,解决了语音识别模型的训练的问题,同时减少人工标注样本的数量,降低生成训练样本的人工成本;并且采用第二语音识别样本对第一语音识别模型继续训练,实现采用准确训练样本对语音识别模型进行训练,提高语音识别模型的语音识别准确率。
在本公开实施例的一个实施方式中,可选的,所述第一语音识别样本生成单元123,包括:
语法特征提取子单元,被配置为执行分别从各所述第一文本数据提取出匹配的语法特征,并根据匹配的语法特征,计算各所述第一文本数据的语法优先级;
第二文本数据筛选子单元,被配置为执行比较各所述第一文本数据的语法优先级,获取语法优先级最高的第一文本数据,并作为第二文本数据。
在本公开实施例的一个实施方式中,可选的,所述语法优先级计算子单元,包括:
语法优先级计算模型计算子单元,被配置为执行将所述第一文本数据输入至预先训练的语法优先级计算模型中,所述语法优先级计算模型为基于注意力机制的编码器和解码器结构的双向编码器表示模型;
文本屏蔽子单元,被配置为执行在所述语法优先级计算模型中,删除所述第一文本数据中至少一个文本单元,形成至少两个文本片段,各所述文本单元的单词总数量占所述第一文本数据的单词总数量的比值为设定比值;
第一预测结果获取子单元,被配置为执行分别获取各所述文本单元之前的第一文本片段,并生成各所述文本单元的第一预测结果;
第二预测结果获取子单元,被配置为执行分别获取各所述文本单元之后的第二文本片段,并生成各所述文本单元的第二预测结果;
目标预测结果获取子单元,被配置为执行根据各所述第一预测结果和各所述第二预测结果,生成各所述文本单元的目标预测结果;
语法预测数据获取子单元,被配置为执行将所述目标预测结果和各所述文本片段组合,生成语法预测数据;
语法预测差值计算子单元,被配置为执行计算所述语法预测数据与所述第一文本数据之间的差值,并作为所述第一文本数据的语法优先级。
在本公开实施例的一个实施方式中,可选的,所述第二语音识别模型生成单元125,包括:
第一训练数据组获取子单元,被配置为执行根据多个第一语音识别样本,生成至少一个第一训练数据组;
第二训练数据组获取子单元,被配置为执行根据多个第二语音识别样本,生成至少一个第二训练数据组;
第三训练数据组获取子单元,被配置为执行根据多个第一语音识别样本和多个第二语音识别样本,生成至少一个第三训练数据组,其中,所述第一训练数据组包括的样本数量、所述第二训练数据组包括的样本数量和所述第三训练数据组包括的样本数量相同;
训练数据交替训练子单元,被配置为执行将所述第一训练数据组、所述第二训练数据组和所述第三训练数据组交替输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,其中,相邻输入的两个训练数据组不同。
在本公开实施例的一个实施方式中,可选的,所述语音识别模型的训练装置,还包括:
标注数据后期训练单元,被配置为执行在对所述第一语音识别模型继续进行训练的同时计算所述第一语音识别模型的泛化误差;如果所述第一语音识别模型的泛化误差小于等于第一误差阈值,则根据所述第二训练数据组继续对所述第一语音识别模型进行训练。
在本公开实施例的一个实施方式中,可选的,所述第二语音识别模型生成单元125,包括:
模型训练完成检测单元,被配置为执行在所述第一语音识别模型的训练过程中,计算所述第一语音识别模型的泛化误差;如果所述第一语音识别模型的泛化误差小于等于第二误差阈值,则停止对所述第一语音识别模型进行训练,并将当前时刻的第一语音识别模型作为第二语音识别模型,所述第二误差阈值小于所述第一误差阈值。
在本公开实施例的一个实施方式中,可选的,所述语音识别模型的训练装置,还包括:
第三语音识别样本获取单元,被配置为执行在将所述第一语音数据输入至第一语音识别模型中之前,获取多个第三语音识别样本,所述第三语音识别样本包括第三语音数据和第四文本数据;
第一语音识别模型训练单元,被配置为执行将各所述第三语音识别样本输入至初始机器学习模型进行训练,所述初始机器学习模型包括基于注意力机制的编码器和解码器;
语音编码单元,被配置为执行在所述编码器中,提取所述第三语音数据中的语音特征进行编码,得到特征向量;
文本解码单元,被配置为执行在所述解码器中,对所述特征向量进行解码,形成预测文本数据;
预测文本差值计算单元,被配置为执行计算所述预测文本数据与所述第三文本数据之间的差值;
第一语音识别模型生成单元,被配置为执行在所述差值满足训练条件时,将当前机器学习模型作为第一语音识别模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种语音识别装置框图。参照图9,该装置包括待识别语音数据获取单元221、语音识别模型获取单元222和识别文本数据获取单元223。
待识别语音数据获取单元221,被配置为执行获取待识别的语音数据;
语音识别模型获取单元222,被配置为执行获取语音识别模型,所述语音识别模型采用如本公开任一实施例所述的语音识别模型的训练方法训练获取;
识别文本数据获取单元223,被配置为执行将所述待识别的语音数据输入至所述语音识别模型中,获取所述语音识别模型输出的识别文本数据。
本公开实施例的技术方案通过本公开任一实施例所述的语音识别模型的训练方法获取语音识别模型,可以快速自动生成大量训练样本,加快训练样本的生成速度,降低训练目标模型的人工成本,提高目标模型的训练效率,同时使训练样本接近人工标注的准确训练样本,提高语音识别模型的识别效率,并基于语音识别模型的训练方法获取的语音识别模型进行语音识别,可以降低语音识别文本的人工成本,同时提高识别效率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种电子设备的结构示意图,如图10所示,该电子设备包括:
一个或多个处理器310,
图10中以一个处理器310为例;
存储器320;
所述设备中的处理器310和存储器320可以通过总线或者其他方式连接,图10中以通过总线连接为例。
存储器320作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的一种语音识别模型的训练方法对应的程序指令/模块(例如,附图8所示的第一语音数据获取单元121,第一文本数据获取单元122、第一语音识别样本生成单元123、第二语音识别样本获取单元124和第二语音识别模型生成单元125),或者,如本公开实施例中的一种语音识别方法对应的程序指令/模块(附图9所示的待识别语音数据获取单元221、语音识别模型获取单元222和识别文本数据获取单元223)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,
即实现上述方法实施例的一种语音识别模型的训练方法,即:获取第一语音数据;将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据;按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,并根据所述第一语音数据,生成第一语音识别样本;获取第二语音识别样本,所述第二语音识别样本包括第二语音数据和第三文本数据,所述第二语音数据的语义和所述第三文本数据的语义相同;将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型。
或者,实现上述方法实施例的一种语音识别方法,即:获取待识别的语音数据;获取语音识别模型,所述语音识别模型采用如权利要求1至5中任一项所述的语音识别模型的训练方法训练获取;将所述待识别的语音数据输入至所述语音识别模型中,获取所述语音识别模型输出的识别文本数据。
存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器320可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,用于与电子设备结合使用,所述计算机程序产品包括计算机可读存储介质和内嵌于其中的计算机程序机制,经由计算机载入该程序并执行后能够实现如本公开任一实施例所述的语音识别模型的训练方法或者如本公开任一实施例所述的语音识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除