HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音语义识别模型构建方法、语义识别方法、装置及设备与流程

2021-01-28 14:01:33|278|起点商标网
语音语义识别模型构建方法、语义识别方法、装置及设备与流程
本申请涉及语音语义识别
技术领域:
,尤其涉及一种语音语义识别模型构建方法、语义识别方法、装置及设备。
背景技术:
:随着语音助手等应用的兴起,语音语义识别技术的应用越来越普及,目前在进行语音语义识别时,通常需要先利用语音识别模块将语音语义识别成文本,然后再利用自然语言理解模块对文本进行语义理解,得到最终的语义结果。相关技术中,在对语音识别模型进行构建时,首先要通过大量的预训练数据对语音识别模块和自然语言理解模块进行预训练,然后再利用大量的样本数据对基于两者构建的语音语义识别模型进行进一步地训练,直到满足训练条件,完成对语音识别模型的构建。上述过程中,会涉及到大量的预训练数据和样本数据,而这些数据通常需要预先收集以及标注,需要付出较高的开销,从而导致语音语义识别模型的构建成本过高。技术实现要素:为至少在一定程度上克服相关技术中存在的问题,本申请提供一种语音语义识别模型构建方法、语义识别方法、装置及设备。根据本申请的第一方面,提供一种从语音样本信号中提取语音特征;从语音样本信号中提取语音特征;根据预设选取规则在所述语音特征中随机选取特征值进行隐码操作;将经过隐码操作后的语音特征输入至预构建的语音语义识别模型,其中,所述预构建的语音语义识别模型包括:编码层、第一解码层以及第二解码层;通过所述编码层对经过隐码操作后的语音特征进行编码,获取编码结果;将所述编码结果输入至所述第一解码层,对所述编码结果解码后,基于解码结果生成所述语音特征属于预配置的第i语义标签对应的第一条件概率;以及,将所述编码结果输入至所述第二解码层,对所述编码结果解码后,基于解码结果生成所述语音特征属于所述第i语义标签对应的第二条件概率,i为正整数;当根据所述第一条件概率和所述第二条件概率,确定所述语音语义识别模型满足预设要求时,确定所述语音语义识别模型构建完成。可选的,根据所述第一条件概率和所述第二条件概率,确定所述语音语义识别模型是否满足预设要求,具体包括:根据所述第一条件概率和所述第二条件概率,生成验证数值;确定所述验证数值与参考值之间的差值,当所述差值符合所述预设要求时,确定所述语音语义识别模型满足预设要求,所述语音语义识别模型构建完成。可选的,所述根据预设选取规则在所述语音特征中随机选取特征值进行隐码操作,具体包括:根据所述语音特征,生成语音特征频谱图;从所述频谱图中随机选取目标图像区域,对所述目标图像区域中的特征值进行隐码;和/或,以所述频谱图对应的时间维度为基准,随机选取目标时间区域,对处于所述目标时间区域中的特征值进行隐码;和/或,以所述频谱图对应的频率维度为基准,随机选取目标频率区域,对处于所述目标频率区域中的特征值进行隐码。可选的,所述通过所述编码层对经过隐码操作后的语音特征进行编码,获取编码结果之前,所述方法还包括:对经过隐码操作后的语音特征进行降采样操作。根据本申请的第二方面,提供一种语义识别方法,所述方法包括:从待识别语音信号中提取语音特征;将所述语音特征输入至如本申请第一方面所述的方法构建的语音语义识别模型的编码层中,获取编码结果;在第一解码层中对上述编码结果进行解码,并基于解码结果确定所述语音特征在第n维度上的第i个语义标签,与所述编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第一条件概率;在第二解码层中对上述编码结果进行解码,并基于解码结果确定所述语音特征在第n维度上的第i个语义标签,与所述编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第二条件概率;根据所述第一条件概率和所述第二条件概率,确定所述语音特征在第n维度上的第i个语义标签对应的标签分值;从所有语义标签分别对应的标签分值中,确定标签分值最大的语义标签为所述语音特征在第n维度上的语义标签,其中,所述i为正整数,n为大于2的正整数,第一维度上的目标语义标签直接根据所述语音特征获取。根据本申请的第三方面,提供一种语音语义识别模型构建装置,包括:特征提取模块,用于从语音样本信号中提取语音特征;隐码模块,用于根据预设选取规则在所述语音特征中随机选取特征值进行隐码操作;第一输入模块,用于将经过隐码操作后的语音特征输入至预构建的语音语义识别模型,其中,所述预构建的语音语义识别模型包括:编码层、第一解码层以及第二解码层;编码模块,用于通过所述编码层对经过隐码操作后的语音特征进行编码,获取编码结果;第一解码模块,用于将所述编码结果输入至所述第一解码层,对所述编码结果解码后,基于解码结果生成所述语音特征属于预配置的第i语义标签对应的第一条件概率;以及第二解码模块,用于将所述编码结果输入至所述第二解码层,对所述编码结果解码后,基于解码结果生成所述语音特征属于所述第i语义标签对应的第二条件概率,i为正整数;确定模块,用于当根据所述第一条件概率和所述第二条件概率,确定所述语音语义识别模型满足预设要求时,确定所述语音语义识别模型构建完成。可选的,所述隐码模块包括:第二生成单元,用于根据所述语音特征,生成语音特征频谱图;第一隐码单元,用于从所述频谱图中随机选取目标图像区域,对所述目标图像区域中的特征值进行隐码;和/或,第二隐码单元,用于以所述频谱图对应的时间维度为基准,随机选取目标时间区域,对处于所述目标时间区域中的特征值进行隐码;和/或,第三隐码单元,用于以所述频谱图对应的频率维度为基准,随机选取目标频率区域,对处于所述目标频率区域中的特征值进行隐码。根据本申请的第四方面,提供一种语音语义识别装置,所述装置包括:特征提取模块,用于从待识别语音信号中提取语音特征;输入模块,用于将所述语音特征输入至如本申请第三方面所述的装置构建的语音语义识别模型的编码层中,获取编码结果;第一解码模块,用于在第一解码层中对上述编码结果进行解码,并基于解码结果确定所述语音特征在第n维度上的第i个语义标签,与所述编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第一条件概率;第二解码模块,用于在第二解码层中对上述编码结果进行解码,并基于解码结果确定所述语音特征在第n维度上的第i个语义标签,与所述编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第二条件概率;概率确定模块,用于根据所述第一条件概率和所述第二条件概率,确定所述语音特征在第n维度上的第i个语义标签对应的标签分值;标签确定模块,用于从所有语义标签分别对应的标签分值中,确定标签分值最大的语义标签为所述语音特征在第n维度上的目标语义标签,其中,所述i为正整数,n为大于2的正整数,第一维度上的目标语义标签直接根据所述语音特征获取。第一解码模块第二解码模块根据本申请的第五方面,提供一种语音语义识别设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的应用程序启动程序,以实现本申请第一方面所述的语音语义识别模型构建方法或本申请第二方面所述的语义识别方法。根据本申请的第六方面,提供一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被如本申请第五方面所述的语音语义识别设备执行,以实现本申请第一方面所述的语音语义识别模型构建方法或本申请第二方面所述的语义识别方法。本申请提供的技术方案可以包括以下有益效果:语音语义识别模型训练过程中,会使用到大量的语音样本信号,语音样本信号的数量越多,训练后的模型准确性就会越高,但收集大量语音样本信号需要较多的工作,模型训练的准确性要求越高,模型训练的成本就越大。因此,在本方法中,从语音样本信号中提取语音特征后,首先对语音特征进行隐码操作,然后再将经过隐码操作后的语音特征输入到预构建的语音语义识别模型中,完成训练的过程,由于在对语音特征进行隐码操作的过程中,会从语音特征中随机选取特征值进行隐码,那么在一次的模型训练完成后,仍然可以使用该次训练过程中的语音样本信号,在下一次模型训练过程中,仍然会从语音样本信号的语音特征中再次随机选取要隐码的特征值,而经过隐码操作后的语音特征与上一次训练过程中使用的经过隐码操作后的语音特征相比,在很大概率上是具有差异的。因此,对于上述两次训练过程,虽然使用了同一个语音样本信号,但是经过随机选取特征值进行隐码后,输入到模型中参与训练的经过隐码操作后的语音特征是具有区别的,也就是说,利用本方法中随机选取语音特征中的特征值进行隐码后,可以将同一语音样本信号的语音特征转变为不同的隐码后的语音特征,利用同一语音样本信号,就可以完成多次的模型训练,且对模型训练的准确性影响较小,在训练之前,也就无需收集大量的语音样本信号,有效降低模型训练的成本。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。图1是本申请的一个实施例提供的一种语音语义识别模型构建方法的流程示意图;图2是本申请的另一实施例提供的一种对语音特征进行隐码操作的具体流程示意图;图3是本申请的一个实施例提供的一种语义识别方法的流程示意图;图4是本申请的另一个实施例提供的一种语音语义识别模型构建装置的结构示意图;图5是本申请的另一个实施例提供的一种隐码模块的具体结构示意图;图6是本申请的另一实施例提供的语音语义识别装置的结构示意图;图7是本申请的另一个实施例提供的一种语音语义识别设备的结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。请参阅图1,图1是本申请的一个实施例提供的一种语音语义识别模型构建方法的流程示意图。如图1所示,本实施例中,语音语义识别模型构建方法可以包括:步骤s101、从语音样本信号中提取语音特征。具体的,从语音样本信号中提取语音特征时,考虑到将语音样本信号中的特性表达得更为详细,在一个具体的例子中,可以先通过对数梅尔滤波器组(log-melfilterbank)从语音样本信号中提取80维的对数梅尔特征,再从语音样本信号中提取3维的音高(pitch)特征,再对80维的对数梅尔特征和3维的音高特征进行归一化处理,从而得到步骤s101中的语音特征。由于在实际环境中,利用设备录制语音样本信号时,往往会受到不同设备自带的不同种类的麦克风以音频通道的影响,导致同一因素的特征相差较大,因此,在对80维对数梅尔特征和3维音高特征进行归一化处理时,可以采用倒谱均值方差归一化(cmvn,cepstralmeanandvariancenormalization)处理的方式,得到均值为0,方差为1的特征来作为步骤s101中的语音特征。步骤s102、根据预设选取规则在所述语音特征中随机选取特征值进行隐码操作。本步骤中,隐码操作具体可以包括两个步骤:特征值选取和隐码。由于语音特征实际上会表现为由多个特征值构成的矩阵,因此,对语音特征进行隐码操作即是对语音特征中的部分特征值进行隐码操作,而该部分特征值可以根据预设选取规则进行随机选取。对于具体的隐码,可以是将选取的特征值全部对应替换为某一个设置好的值,也可以是求取选取的所有特征值的平均值,利用该平均值对应替换选取的特征值,以隐藏选取的特征值本身对语音特征所产生的特性,从而实现隐码。而对于预设选取规则,则可以有多种,具体可以参阅图2,图2是本申请提供的一种对语音特征进行隐码操作的具体流程示意图。如图2所示,对语音特征进行隐码操作的具体过程可以包括:步骤s201、根据语音特征,生成语音特征频谱图。具体的,由于在语音特征提取过程中,其依据的是语音样本信号的时间帧,而在频率表示上,每个时间帧对应的特征值都会有对应的频率,因此,基于步骤s101中的语音特征,首先生成一个横坐标为时间,纵坐标为频率的频谱图,语音特征中的特征值,则根据其所在的时间帧以及对应的频率,分布在频谱图的对应位置上。为了配合后续步骤中对具体的特征值选取的说明,可以将频谱图中时间轴上的最大值记为σ,将频率轴上的最大值记为μ。在生成频谱图后,则依据频谱图,选取目标图像区域,然后对目标图像区域中的特征值进行隐码。具体执行时,可以采用如下几种方式中的一种或多种。具体参见步骤202至步骤204,步骤202至步骤204是分别介绍了3中不同的隐码操作步骤。步骤202至步骤204这三种操作并非按照序号顺序依次执行,而是如上所介绍的,可以在202至204中任意选择一种操作执行,也可以选择这三种中的多种叠加执行,具体如何操作根据实际情况设定,这里不做过多说明。步骤s202、从所述频谱图中随机选取目标图像区域,对所述目标图像区域中的特征值进行隐码。本步骤中,将频谱图视为一张图片,从图片中随机选取一个图像区域作为目标图像区域,然后对目标图像区域中的特征值进行隐码,最后将含有进行隐码后的特征值的语音特征确定为经过隐码操作后的语音特征。具体的,为了确定目标图像区域,可以先确定频谱图时间轴上的一个时间点,再确定以该时间点为中心点的宽度,从而将该宽度范围和频率0到μ范围重叠的图像区域确定为目标图像区域。在一种情况,首先任意取两个数值:时间步数t和最大时间栈参数w。其中,t和w处于频谱图时间维度之内,即0~σ,且t大于2w,然后从(w,t-w)的区间范围内取出一个随机数作为上述的时间点,再从(-w,w)的区间范围内取出一个随机数作为上述宽度。以该时间点为中心点,确定时间轴方向的宽度范围,比如时间点为a,宽度为b,则时间轴方向的宽度范围为(a-b/2,a+b/2)。最后,确定时间轴范围(a-b/2,a+b/2)与频率轴范围(0,μ)重叠的图像区域为目标图像区域。而目标图像区域中包含的特征值,即为选取的需要进行隐码的特征值。对于特征值的隐码,可以是将选取的特征值全部对应替换为某一个设置好的值,也可以是求取选取的所有特征值的平均值,利用该平均值对应替换选取的特征值,以隐藏选取的特征值本身对语音特征所产生的特性,从而实现隐码。步骤s203、以所述频谱图对应的时间维度为基准,随机选取目标时间区域,对处于所述目标时间区域中的特征值进行隐码。本步骤中,以频谱图的时间维度为基准,先确定一个目标时间区域,而该目标时间区域中涉及到的所有特征值即为步骤s102中提到的根据预设选取规则随机选取的特征值,在对处于该目标时间区域中的特征值进行隐码后,将含有进行隐码后的特征值的语音特征确定为经过隐码操作后的语音特征。具体的,可以先预先设定一个时间隐码参数,可以记为rtime,然后从时间的区间[0,rtime)中取一个随机数,可以记为t,然后从[0,σ-t)中再取一个随机数,可以记为t0,最后将区间[t0,t0+t)确定为目标时间区域。而目标时间区域中包含的特征值,即为选取的需要进行隐码的特征值。对于特征值的隐码,参见步骤202中所介绍的方式,这里不再过多说明。步骤s204、以所述频谱图对应的频率维度为基准,随机选取目标频率区域,对处于所述目标频率区域中的特征值进行隐码。本步骤中,以频谱图的频率维度为基准,先确定一个目标频率区域,而该目标频率区域中涉及到的所有特征值即为步骤s102中提到的根据预设选取规则随机选取的特征值,在对处于该目标频率区域中的特征值进行隐码后,将含有经过隐码后的特征值的语音特征确定为经过隐码操作后的语音特征。具体的,可以先预先设定一个频率隐码参数,可以记为rfreq,然后从频率的区间[0,rfreq)中取一个随机数,可以记为f,然后从[0,μ-f)中再取一个随机数,可以记为f0,最后将区间[f0,f0+f)确定为目标频率区域。而目标频率区域中包含的特征值,即为选取的需要进行隐码的特征值。对于特征值的隐码,同样参见步骤202的方式,这里不再过多说明。对于同一语音样本信号的语音特征,每次训练时,可以进行至少一次步骤s102中提到的隐码操作,比如对语音特征进行1次、2次或者3次隐码操作,进行大于1次隐码操作时,可以选择同一种选取特征值的方式,也可以选择不同种选取特征值的方式,比如直接利用步骤s202的方法对语音特征进行多次的隐码操作,也可以先利用步骤s202的方法对语音特征进行至少一次的隐码操作,再利用步骤s203的方法对语音特征进行至少一次的隐码操作。当然,步骤s202、步骤s203和步骤s204分别代表着一种隐码操作,需要多次隐码操作时,可以任意无序的搭配。由于上述隐码操作过程中的特征值选取为随机的,且隐码操作的次数也是可以预先设置的,因此,在只具有一般数量的语音样本信号时,可以通过本申请中的隐码操作,增加具有区别的语音特征的数量,以起到增多语音样本信号的作用。步骤s103、将经过隐码操作后的语音特征输入至预构建的语音语义识别模型,其中,预构建的语音语义识别模型包括:编码层、第一解码层以及第二解码层。本实施例中,预构建的语音语义识别模型设置有用于对隐码后的语音特征进行编码的编码层,而该编码层可以采用神经网络结构,比如可以选择双向长短期记忆模型循环神经网络(lstm,long-shorttermmemoryrnn)、循环神经网络(rnntransducer)、基于自注意力机制的翻译模型(transformer)等神经网络结构中的任意一种,作为语音语义识别模型的编码层。为了提高语音语义识别的准确率,避免单一解码方式带来的解码偏重某一方向而忽略别的方向的问题,本实施例中可以采用多个解码层对编码层的编码结果进行解码,比如可以设置同时设置第一解码层和第二解码层对编码层的编码结果进行解码,还可以设置第一解码层、第二解码层和第三解码层进行解码,解码层的数量和种类可以根据项目对语音语义识别准确性的要求而定。以同时设置第一解码层和第二解码层为例,第一解码层可以基于时序分类算法(connectionisttemporalclassfication,ctc)进行解码,在时序分类任务中,传统的做法是输入数据与给定标签必须要在时间上一一对齐,而ctc的做法是不需要标签在时间上一一对齐就可以进行训练,在对输入数据的任一时刻做出的预测不是很关心,而关心的是输入数据对应的整体上输出是否与标签一致,从而减少了对标签预划定时间帧的冗杂工作。也就是说,本实施例中,第一编码层采用ctc的方式进行解码,是从编码层的编码结果的整体上确定与预配置的第i语义标签的一致性的程度,因此,本实施例中,第一解码层采用ctc方式进行解码时,无需确定第i语义标签对应在编码结果中的哪一些时间帧,免去了对语音标签划定时间帧的过程,无需将给定标签与输入数据在时间帧上进行一一对齐,不用将标签划定到输入数据对应的时间帧上,减轻了模型训练过程中的工作量,加快了模型训练的速度。另外,第二解码层可以采用基于注意力机制(attention机制)的解码方式,attention机制是模仿人类注意力而提出的一种解决问题的办法,简单地说就是从大量信息中快速筛选出高价值信息。本实施例中,第二解码层采用attention机制的解码方式时,可以从编码层的编码结果中得到重点信息,减少后续过程的数据量,有效加快语音语义识别模型的训练速度以及模型训练完成后对语音进行识别的速度。具体的,可以采用attention机制中较为成熟的location-basedattention机制或点乘机制。在一个具体的例子中,第一解码层采用ctc的解码方式,第二解码层采用基于attention机制的解码方式,由于两个解码层的解码方式的侧重点不同,解码的结果也会因为其侧重点的不同而有所不同,利用两者各自的解码结果进行后续的步骤,可以考虑到两个不同的侧重点,有效提高模型进行语音语义识别的准确性。步骤s104、通过编码层对经过隐码操作后的语音特征进行编码,获取编码结果。本步骤中,编码层会将输入的语音特征转化为一个固定维度的稠密向量,从而使语音特征转化成可以利用数学方法进行运算处理的量,即上述稠密向量。另外,为了更好地表示语音特征的整体特性,减少数据量,再进行步骤s104之前,还可以先对经过隐码操作后的语音特征进行降采样操作。具体的,降采样操作可以是通过线性变换的方式,将语音特征进行降维,从而输出降维后的语音特征,然后将降维后的语音特征输入到编码层进行编码。具体的,本实施例中,编码层可以包含预处理层和编码子层,其中,预处理层可以是基于超分辨率测试序列(visualgeometrygroupnetwork,vgg)的卷积神经网络,对降维后的语音特征进行更为深度的抽取,以使局部特征有一个更好的表示,而编码子层即是将深度抽取后的语音特征转化为上述稠密向量。步骤s105、将编码结果输入至第一解码层,对编码结果解码后,基于解码结果生成语音特征属于预配置的第i语义标签对应的第一条件概率。需要说明的是,本实施例的方法中,对于语音样本信号的识别是基于多个不同维度进行的,而维度的数量和种类往往是由一类语音样本信号中所包含的多个信息部分决定,比如对于智能家居的语音控制中涉及到的语音,语音中往往会包含时间、操作对象、操作指令等,那么对于该类语音样本信号,就可以从时间维度、操作对象维度、操作指令维度进行语音语义识别。对于每一个维度,本实施例都会预先配置多个语义标签,一般会将该维度涉及到的所有可能的语义标签都配置到该维度下,本实施例的目的即从各维度对应预配置的所有语义标签中确定一个语义标签,作为对应维度的目标语义标签。假设语音样本信号一共有n个维度、预先对第n个维度配置了i个语义标签,那么步骤s105,是正在对第n个维度对应的第i个语义标签进行处理,以得到第i语义标签对应的基于第一编码层的编码结果第一条件概率。也就是说,本步骤中,将编码结果输入至第一解码层,对编码结果进行解码后,再基于解码结果生成语音特征相对于某个维度的预配置的语义标签组中的第i语义标签的第一条件概率。本实施例以同时设置第一解码层和第二解码层为例,那么本实施例的方法还需要包括:步骤s106、将编码结果输入至第二解码层,对编码结果解码后,基于解码结果生成语音特征属于第i语义标签对应的第二条件概率,i为正整数。生成第二条件概率的过程涉及到的第i语义标签的相关含义与步骤s105中的相同。本步骤中,将编码结果输入值第二解码层,对编码结果进行解码后,再基于解码结果生成语音特征相对于某个维度的预配置的语义标签组中的第i语义标签的第二条件概率。另外,在语音语义识别过程中,各维度之间的语义标签是具有一定的联系的,比如“去厨房吃饭”,地点维度已经确定了“厨房”为该维度的目标语义标签,那么在对动作维度进行语义标签的预测时(比如动作维度配置有“吃饭”、“洗澡”、“睡觉”这三个语义标签),相对于“厨房”这一语义标签,“吃饭”必然要比“洗澡”和“睡觉”的可能性大,因此,为了利用不同维度之间语义标签所具有的联系,对于第一条件概率的计算条件,可以是基于第一解码层的解码结果以及所有已经确定好的目标语义标签来确定,类似道理,对于第二条件概率的计算条件,可以是基于第二解码结果以及所有已经确定好的目标语义标签来确定。例如语音样本信号涉及到n个维度,当前正在确定第n个维度的目标语义标签,其中,前边第1到n-1维度都已经分别确定好了各自维度对应的目标语义标签。对于第一解码层而言,就可以是以第一解码层的解码结果和第1到n-1维度已经确定好了的所有目标语义标签为条件,确定第n维度的目标语义标签为第i语义标签的第一条件概率;对于第二解码层而言,就可以是以第二解码层的解码结果和第1到n-1维度已经确定好了的所有目标语义标签为条件,确定第n维度的目标语义标签为第i语义标签的第二条件概率。需要说明的是,目标语义标签为各个维度从自身维度对应的语义标签组中确定的一个语义标签。步骤s107、当根据第一条件概率和第二条件概率,确定语音语义识别模型满足预设要求时,确定语音语义识别模型构建完成。本步骤中,确定语音语义识别模型是否满足预设要求的确定过程可以有多种方式,比如,可以直接对得到的第一条件概率和第二条件概率进行验证,还可以是先根据第一条件概率和第二条件概率生成验证数据,再对验证数据进行验证。具体的,对于第一种方式,即直接对得到的第一条件概率和第二条件概率进行验证的方式,可以利用概率类型的参考值进行比较。需要说明的是,在本方式中,参考值指的是对预配置的语义标签预先标记的值,由于本实施例具有至少两个解码层(即第一解码层和第二解码层),模型会对应输出至少两个概率值,那么在对预配置的语义标签进行标记时,就会适应解码层的数量进行标记,比如,本实施例具有第一解码层和第二解码层,那么在对预配置的语义标签进行标记时,就会对应第一解码层和第二解码层标记两个参考值(比如,第一解码层对应的第一参考值和第二解码层对应的第二参考值)。基于此,本步骤中,若采用直接对得到的第一条件概率和第二条件概率进行验证的方式,可以先求取第一条件概率与第一参考值的差值(下称,第一差值),以及第二条件概率与第二参考值的差值(下称,第二差值),当第一差值和第二差值符合针对于本方式设置的预设要求时,确定语音语义识别模型满足预设要求,语音语义识别模型构建完成。在一个具体的例子中,若针对于本方式设置的预设要求为第一差值和第二差值均小于或等于0.02,那么对于第i语义标签,预先标记的第一参考值为0.1,第二参考值为0.15,第一条件概率0.08,第二条件概率为0.14,那么第一差值为0.02,第二差值为0.01,第一差值等于0.02,第二差值小于0.02,因此,第一差值和第二差值符合针对于本方式设置的预设要求,语音语义识别模型满足预设要求,语音语义识别模型构建完成。对于第二种方式,即先根据第一条件概率和第二条件概率生成验证数据,再对验证数据进行验证的方式,在根据第一条件概率和第二条件概率,确定语音语义识别模型是否满足预设要求时,可以先根据第一条件概率和第二条件概率生成验证数据。在生成验证数值后,可以确定验证数值和参考值之间的差值,当差值符合预设要求时,确定语音语义识别模型满足预设要求,语音语义识别模型构建完成。一般,参考值是对预配置的语义标签预先进行标记的内容,而参考值往往是根据验证数值来决定的,比如,验证数值只是由第一条件概率和第二条件概率进行简单的加权得到,那么此时的验证数值必然是0到1之间的概率值,那么参考值应当就是一个期望的概率值;又比如,验证数值是利用某些数学计算方式对第一条件概率和第二条件概率进行处理,比如,利用以下公式生成验证数值:l=-αlogpatt(y|x)-(1-α)pctc(y|x)其中,l为验证数值,α为参数,pctc(y|x)为第一条件概率,patt(y|x)为第二条件概率。那么验证数值肯定就不在是一个概率值,而是一个与概率相关的其他的值,而该验证数值的大小可能就不在0和1之间了,此时,参考值应当根据验证数值可能处于的范围,设置具体的值。需要说明的是,在标记时,可以仅对语义标签组中实际与语音样本信号的内容正确对应的语义标签进行标记,也可以对所有的语义标签进行标记。本实施例中,需要在得到当前维度对应的语义标签组中的所有语义标签的第一条件概率和第二条件概率后,再确定语音语义识别模型是否满足预设要求。若仅对正确对应的语义标签进行标记,具体的,则可以现根据该正确对应的语义标签的第一条件概率和第二条件概率生成验证数值,然后确定验证数值与标记的参考值之间的差值,当差值符合预设要求时,确定语音语义识别模型满足预设要求,语音语义识别模型构建完成。该预设要求则是差值低于预设阈值。若对所有的语义标签进行标记,具体的,可以求取每一个语义标签的验证数值,然后求取每个语义标签的验证数值与其参考值之间的差值,该预设要求为预设数目个语义标签的差值低于预设阈值,也可以是所有差值的平均值低于预设阈值。下面以一个实际的例子,对上述步骤s105~s107进行说明:例如,语音样本信号为“去厨房吃饭”,其涉及到的维度可能至少包括地点维度“厨房”和动作维度“吃饭”,且该语音样本信号的适用范围应当是生活范围,因此,在预先配置语义标签组时,可以根据前述的生活范围中的地点维度和动作维度进行配置,比如地点维度配置的语义标签组中可以有“厨房”、“卧室”、“客厅”、“阳台”等生活范围的表示地点的语义标签,而动作维度配置的语义标签组中可以有“吃饭”、“睡觉”、“洗脸”、“刷牙”等生活范围的表示动作的语义标签。根据项目需求或者用户习惯,可以先确定一个默认的维度顺序,比如此处以先“地点维度”再“动作维度”的顺序进行目标语义标签的确定。而语义标签组中的语义标签的顺序也可以自定义,比如地点维度的语义标签组中包括“1、厨房”、“2、卧室”、“3、客厅”、“4、阳台”,动作维度的语义标签组中包括“1、吃饭”、“2、睡觉”、“3、洗脸”、“4、刷牙”那么先是对于地点维度,步骤s105的实际过程可以是先对该语音样本信息对应的编码结果进行解码,得到第一编码层的解码结果,由于地点维度是第一个要确定目标语义标签的维度,前边并没有已经确定好的目标语义标签,因此,对于第一个维度,只能是以解码结果为条件,计算地点维度对应的语义标签组中的第i语义标签的第一条件概率,此时i=1,即第1语义标签“厨房”,此时计算出的“厨房”的条件概率可能是0.9。以此类推,以解码结果为条件,计算出地点维度对应的语义标签组中所有语义标签的第一条件概率,例如“卧室”为0.3,“客厅”为0.5、“阳台”为0.1。而步骤s106,也是会以同样的顺序,得到地点维度对应的语义标签组中所有的语义标签在解码结果为条件下的第二条件概率,例如,“厨房”为0.85、“卧室”为0.2,“客厅”为0.4、“阳台”为0.1。利用l=-αlogpatt(y|x)-(1-α)pctc(y|x),对第一条件概率和第二条件概率进行融合,得到各语义标签的验证数值,比如“厨房”的验证数值为0.87、“卧室”的验证数值为0.24,“客厅”的验证数值为0.46、“阳台”的验证数值为0.1。上述数值如表1所示。第一条件概率第二条件概率验证数值厨房0.90.850.87卧室0.30.20.24客厅0.50.40.46阳台0.10.10.1表1由于对地点维度的语义标签集中的标签进行标记,可以是仅对正确的语义标签进行标记,也可以是对所有语义标签进行标记,此处进行分情况的说明。若只是对正确的语义标签进行标记,也就是对“厨房”标记参考值,比如“厨房”的参考值为0.9,以预设要求为差值小于0.02,那么参考值和验证数值的差值就是0.03,需要说明的是,最终的差值可以是参考值与验证数值求差后的绝对值。由于0.03大于0.02,不满足预设要求,此时则需要对上述编码层、第一解码层和第二解码层中涉及到的权重参数和偏差参数进行调整,具体的方式可以采用利用差值的反向传播的调整方式。若对所有语义标签都进行标记,以预设要求为至少两个差值小于0.02和/或差值的平均值小于0.02,设,“厨房”的参考值为0.85、“卧室”的参考值为0.2,“客厅”的参考值为0.4、“阳台”的参考值为0.1,各自对应的差值即为“厨房”为0.02、“卧室”为0.04,“客厅”为0.06、“阳台”为0,其中,只有1个语义标签的差值小于0.02,平均值为0.03,大于0.02,因此,不满足预设条件,此时则需要对上述编码层、第一解码层和第二解码层中涉及到的权重参数和偏差参数进行调整,具体的方式可以采用利用差值的反向传播的调整方式。然后继续训练的过程。此时,还需要根据验证数值确定出地点维度的目标语义标签,具体的,可以选取最大的验证数值为地点维度的目标条件概率。本例中,“厨房”的验证数值最大,因此,“厨房”即为地点维度的目标语义标签。然后对动作维度的语义标签组中的语义标签进行处理,步骤s105的实际过程可以是先对该语音样本信息对应的编码结果进行解码,得到第一编码层的解码结果,由于前边的地点维度已经确定出目标语义标签,即“厨房”,因此,对于动作维度,是以解码结果和“厨房”这一目标语义标签为条件,计算动作维度对应的语义标签组中的第i语义标签的第一条件概率,此时i=1,即第1语义标签“吃饭”,此时计算出的“吃饭”的条件概率可能是0.9。以此类推,以解码结果为条件,计算出动作维度对应的语义标签组中所有语义标签的第一条件概率,例如“睡觉”为0.3,“洗脸”为0.5、“刷牙”为0.1。而步骤s106,也是会以同样的顺序,得到动作维度对应的语义标签组中所有的语义标签在解码结果为条件下的第二条件概率,例如,“吃饭”为0.93、“睡觉”为0.2,“洗脸”为0.4、“刷牙”为0.1。利用l=-αlogpatt(y|x)-(1-α)pctc(y|x),对第一条件概率和第二条件概率进行融合,得到各语义标签的验证数值,比如“吃饭”的验证数值为0.91、“睡觉”的验证数值为0.24,“洗脸”的验证数值为0.46、“刷牙”的验证数值为0.1。上述数值如表2所示。第一条件概率第二条件概率验证数值吃饭0.90.930.91睡觉0.30.20.24洗脸0.50.40.46刷牙0.10.10.1表2由于对动作维度的语义标签集中的标签进行标记,可以是仅对正确的语义标签进行标记,也可以是对所有语义标签进行标记,此处进行分情况的说明。若只是对正确的语义标签进行标记,也就是对“吃饭”标记参考值,比如“吃饭”的参考值为0.9,以预设要求为差值小于0.02,那么参考值和验证数值的差值就是0.01,需要说明的是,最终的差值可以是参考值与验证数值求差后的绝对值。由于0.01小于0.02,满足预设要求,此时完成对语音语义识别模型的构建。若对所有语义标签都进行标记,以预设要求为至少两个差值小于0.02和/或差值的平均值小于0.02,设,“吃饭”的参考值为0.9、“睡觉”的参考值为0.23,“洗脸”的参考值为0.44、“刷牙”的参考值为0.1,各自对应的差值即为“吃饭”为0.01、“睡觉”为0.01,“洗脸”为0.02、“舒雅”为0,其中,有3个语义标签的差值小于0.02,平均值为0.031,小于0.02,因此,满足预设条件,此时完成对语音语义识别模型的构建。此时,还需要根据验证数值确定出动作维度的目标语义标签,具体的,可以选取最大的验证数值为动作维度的目标条件概率。本例中,“吃饭”的验证数值最大,因此,“吃饭”即为动作维度的目标语义标签。输出所有维度的目标语义标签,即为语音语义识别的结果,本例中,语音语义识别结果为“厨房”“吃饭”。需要说明的是,对于非第一个维度的目标语义标签确定之前,还可以将已经确定的所有维度对应的目标语义标签输入到除第一解码层和第二解码层之外的语言子模型层中,用来确定当前需要确定目标语义标签的维度对应的第i语义标签在所有目标语义标签的条件下的第三条件概率,然后将第一条件概率、第二条件概率和第三条件概率融合,得到标签分值,在所有语义标签都得到各自对应的标签分值后,取标签分值最大的语义标签作为单签维度的目标语义标签。以第一解码层为ctc、第二解码层为attentiondecoder为例,利用以下公式,确定第i语义标签的标签分值。公式如下:logp(yn|y1:n-1,h1:t')=αlogpctc(yn|y1:n-1,h1:t')+(1-α)patt(yn|y1:n-1,h1:t')+βlogplm(yn|y1:n-1)其中,y1:n-1表示已经确定的目标语义标签,yn表示第i语义标签,h1:t'表示语音特征,α表示预设的参数值,β表示预设的参数值。从语音样本信号中提取语音特征后,首先对语音特征中根据预设选取规则随机选取的特征值进行隐码操作,将经过隐码操作后的语音特征输入到预构建的语音语义识别模型中,由于预构建的语音语义识别模型包括编码层、第一解码层以及第二解码层,输入到预构建的语音语义识别模型中经过隐码操作后的语音特征首先会通过编码层进行编码,获取到编码结果,将编码结果输入值第一解码层,对编码解码后,基于解码结果生成语音特征属于预配置的第i语义标签对应的第一条件概率,以及将编码结果输入至第二解码层,对编码结果解码后,基于解码结果生成语音特征属于第i语义标签对应的第二条件概率,其中,i为正整数;当根据第一条件概率和第二条件概率,确定语音语义识别模型满足预设要求时,确定语音语义识别模型构建完成。由于本申请中将语音特征输入到预构建的语音语义识别模型中之前,会对语音特征中随机选取的特征值隐码操作,隐藏部分特征值后的语音特征会与原本的语音特征具有一定的区别,且需要进行隐码操作的特征值是根据预设选取规则随机选取出来的,那么一段语音样本信号的语音特征就可以生成多个不同的经过隐码操作后的语音特征,可以有效减少原始的语音样本信号的数量,降低样本收集及标注所需的开销,降低语音语义识别模型的构建成本。请参阅图3,图3是本申请的一个实施例提供的一种语义识别方法的流程示意图。如图3所示,本实施例提供的语义识别方法可以包括:步骤s301、从待识别语音信号中提取语音特征。具体的,为了将待识别语音信号中的特性表达得更为详细,可以先通过对数梅尔滤波器组(log-melfilterbank)从待识别语音信号中提取80维的对数梅尔特征,再从待识别语音信号中提取3维的音高(pitch)特征,再对80维的对数梅尔特征和3维的音高特征进行归一化处理,从而得到步骤s101中的语音特征。另外,由于在实际环境中,利用设备录制待识别语音信号时,往往会受到不同设备自带的不同种类的麦克风以音频通道的影响,导致同一因素的特征相差较大,因此,在对80维对数梅尔特征和3维音高特征进行归一化处理时,可以采用倒谱均值方差归一化(cmvn,cepstralmeanandvariancenormalization)处理的方式,得到均值为0,方差为1的特征来作为步骤s301中的语音特征。步骤s302、将语音特征输入至利用如上述实施例提供的方法构建的语音语义识别模型的编码层中,获取编码结果。本步骤中,编码层会将输入的语音特征转化为一个固定维度的稠密向量,从而使语音特征转化成可以利用数学方法进行运算处理的量,即上述稠密向量。另外,更好地表示语音特征的整体特性,减少数据量,再进行步骤s104之前,可以先对经过隐码操作后的语音特征进行降采样操作。具体的,降采样操作可以是通过线性变换的方式,将语音特征进行降维,从而输出降维后的语音特征,然后将降维后的语音特征输入到编码层进行编码。具体的,本实施例中,编码层可以包含预处理层和编码子层,其中,预处理层可以是基于vgg的卷积神经网络,对降维后的语音特征进行更为深度的抽取,以使局部特征有一个更好的表示,而编码子层即是将深度抽取后的语音特征转化为上述稠密向量。步骤s303、在第一解码层中对上述编码结果进行解码,并基于解码结果确定语音特征在第n维度上的第i个语义标签,与编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第一条件概率。其中,预配置的第i语义标签指的是针对待识别语音信号的第n维度预先配置的语义标签组中的第i个语义标签。需要说明的是,待识别语音信号的某一维度指的是待识别语音信号中包含的多个部分中的一个部分,比如,待识别语音信号中包含时间部分、地点部分、动作部分、动作面对的对象部分等,那么本实施例中,时间部分可以为待识别语音信号的一个维度,地点部分也可以为待识别语音信号的一个维度,动作部分也可以为待识别语音信号的一个维度,动作面对的对象部分也可以为待识别语音信号的一个维度。针对待识别语音信号的各个维度,对于每一个维度,可以预先配置一个语义标签组,每个语义标签组中可以包括针对其对应维度的所有可能的语义标签。步骤s304、在第二解码层中对上述编码结果进行解码,并基于解码结果确定语音特征在第n维度上的第i个语义标签,与编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第二条件概率。为了利用不同维度之间语义标签的联系进行语音语义识别,本实施例中提到的条件概率的计算条件可以是解码结果以及已经确定好的维度的目标语义标签。例如语音样本信号涉及到n个维度,当前正在确定第n个维度的目标语义标签,其中,前边第1到n-1维度都已经分别确定好了各自维度对应的目标语义标签。对于第一解码层而言,就可以是以第一解码层的解码结果和第1到n-1维度已经确定好了的所有目标语义标签为条件,确定第n维度的目标语义标签为第i语义标签的第一条件概率;对于第二解码层而言,就可以是以第二解码层的解码结果和第1到n-1维度已经确定好了的所有目标语义标签为条件,确定第n维度的目标语义标签为第i语义标签的第二条件概率。需要说明的是,目标语义标签为各个维度从自身维度对应的语义标签组中确定的一个语义标签。以步骤s303中的第一解码层为例,编码特征输入到第一解码层进行解码,得到解码结果,针对第n维度对应的语义标签组中第i语义标签,以解码结果和与获取的第1维度到第n-1维度上所有的目标语义标签为条件,计算第i语义标签的第一条件概率。当然,对于第二编码层,仅仅是将计算条件中的第一解码层的解码结果替换为第二解码层的解码结果即可,其他部分相同,得到第二条件概率。步骤s305、根据第一条件概率和第二条件概率,确定语音特征在第n维度上的第i个语义标签对应的标签分值。需要说明的是,根据第一条件概率和第二条件概率,确定语音特征在第n维度上的第i个语义标签对应的标签分值可以利用权重的方式得到,比如分别对第一条件概率和第二条件概率设定各自的权重值,概率与各自的权重值相乘后求和,即为标签分值。步骤s306、从所有语义标签分别对应的标签分值中,确定标签分值最大的语义标签为语音特征在第n维度上的目标语义标签,其中,i为正整数,n为大于2的正整数,第一维度上的目标语义标签直接根据语音特征获取。在对第n维度对应的语义标签组中的所有语义标签计算过第一条件概率和第二条件概率后,每个语义标签都会对应有一个标签分值,此时,确定标签分值最大的语义标签为语音特征在第n维度上的目标语义标签即可。需要说明的是,对于语音特征的第一个维度,由于前边并没有已经确定好的目标语义标签,因此,对于第一个维度,以语音特征的解码结果为条件计算第一个维度对应的语义标签组中各语义标签的条件概率即可。需要说明的是,从第二个维度开始,在确定目标语义标签之前,还可以将已经确定的所有维度对应的目标语义标签输入到除第一解码层和第二解码层之外的语言子模型层中,用来确定当前需要确定目标语义标签的维度对应的第i语义标签在所有目标语义标签的条件下的第三条件概率,然后将第一条件概率、第二条件概率和第三条件概率融合,得到标签分值,在所有语义标签都得到各自对应的标签分值后,取标签分值最大的语义标签作为单签维度的目标语义标签。以第一解码层为ctc、第二解码层为attentiondecoder为例,利用以下公式,确定第i语义标签的标签分值。公式如下:logp(yn|y1:n-1,h1:t')=αlogpctc(yn|y1:n-1,h1:t')+(1-α)patt(yn|y1:n-1,h1:t')+βlogplm(yn|y1:n-1)其中,y1:n-1表示已经确定的目标语义标签,yn表示第i语义标签,h1:t'表示语音特征,α表示预设的参数值,β表示预设的参数值,pctc表示基于第一解码层得到的概率,patt表示基于第二解码层得到果的概率,plm表示基于语言子模型层得到的概率。需要说明的是,本实施例中涉及到的概率计算的过程,可以参考上述实施例中提到的概率计算的过程。请参阅图4,图4是本申请的另一个实施例提供的一种语音语义识别模型构建装置的结构示意图。如图4所示,本实施例提供的装置可以包括:特征提取模块401,用于从语音样本信号中提取语音特征;隐码模块402,用于对语音特征进行隐码操作;输入模块403,用于将经过隐码操作后的语音特征输入至预构建的语音语义识别模型,其中,预构建的语音语义识别模型包括:编码层、第一解码层以及第二解码层;编码模块403,用于通过编码层对经过隐码操作后的语音特征进行编码,获取编码结果;第一解码模块405,用于将编码结果输入至第一解码层,对编码结果解码后,基于解码结果生成语音特征属于预配置的第i语义标签对应的第一条件概率;以及第二解码模块406,用于将编码结果输入至第二解码层,对编码结果解码后,基于解码结果生成语音特征属于第i语义标签对应的第二条件概率,i为正整数;确定模块407,用于当根据第一条件概率和第二条件概率,确定语音语义识别模型满足预设要求时,确定语音语义识别模型构建完成。本实施例的装置在编码模块之前,还可以包括降采样模块,用于对经过隐码操作后的语音特征进行降采样操作。其中,确定模块的具体结构可以参阅图5,图5是本申请的另一个实施例提供的确定模块的具体结构示意图。隐码模块的具体结构可以参阅图5,图5是本申请的另一个实施例提供的一种隐码模块的具体结构示意图。如图5所示,隐码模块可以包括:生成单元501,用于根据语音特征,生成语音特征频谱图;第一隐码单元502,用于从频谱图中随机选取目标图像区域,确定目标图像区域中的语音特征为经过隐码操作后的语音特征;或者第二隐码单元503,用于以频谱图对应的时间维度为基准,随机选取目标时间区域,确定属于目标时间区域内的语音特征为经过隐码操作后的语音特征;或者第三隐码单元504,用于以频谱图对应的频率维度为基准,随机选取目标频率区域,确定属于目标频率区域内的语音特征为经过隐码操作后的语音特征。请参阅图6,图6是本申请的另一实施例提供的语音语义识别装置的结构示意图。如图6所示,语音语义识别装置可以包括:特征提取模块601,用于从待识别语音信号中提取语音特征;输入模块602,用于将语音特征输入至如权利要求1-4任一项的方法构建的语音语义识别模型的编码层中,获取编码结果;第一解码模块603,用于在第一解码层中对上述编码结果进行解码,并基于解码结果确定语音特征在第n维度上的第i个语义标签,与编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第一条件概率;第二解码模块604,用于在第二解码层中对上述编码结果进行解码,并基于解码结果确定语音特征在第n维度上的第i个语义标签,与编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第二条件概率;概率确定模块605,用于根据第一条件概率和第二条件概率,确定语音特征在第n维度上的第i个语义标签对应的标签分值;标签确定模块606,用于从所有语义标签分别对应的标签分值中,确定标签分值最大的语义标签为语音特征在第n维度上的目标语义标签,其中,i为正整数,n为大于2的正整数,第一维度上的目标语义标签直接根据语音特征获取。请参阅图7,图7是本申请的另一个实施例提供的一种语音语义识别设备的结构示意图。如图7所示,本实施例提供的语音语义识别设备可以包括:处理器701和存储器702,处理器用于执行存储器中存储的应用程序启动程序,以实现上述实施例提供的语音语义识别模型构建方法或语义识别方法。其中语音语义识别模型构建方法可以包括:从语音样本信号中提取语音特征;根据预设选取规则在所述语音特征中随机选取特征值进行隐码操作;将经过隐码操作后的语音特征输入至预构建的语音语义识别模型,其中,所述预构建的语音语义识别模型包括:编码层、第一解码层以及第二解码层;通过所述编码层对经过隐码操作后的语音特征进行编码,获取编码结果;将所述编码结果输入至所述第一解码层,对所述编码结果解码后,基于解码结果生成所述语音特征属于预配置的第i语义标签对应的第一条件概率;以及,将所述编码结果输入至所述第二解码层,对所述编码结果解码后,基于解码结果生成所述语音特征属于所述第i语义标签对应的第二条件概率,i为正整数;当根据所述第一条件概率和所述第二条件概率,确定所述语音语义识别模型满足预设要求时,确定所述语音语义识别模型构建完成。可选的,根据所述第一条件概率和所述第二条件概率,确定所述语音语义识别模型是否满足预设要求,具体包括:根据所述第一条件概率和所述第二条件概率,生成验证数值;确定所述验证数值与参考值之间的差值,当所述差值符合所述预设要求时,确定所述语音语义识别模型满足预设要求,所述语音语义识别模型构建完成。可选的,所述根据预设选取规则在所述语音特征中随机选取特征值进行隐码操作,具体包括:根据所述语音特征,生成语音特征频谱图;从所述频谱图中随机选取目标图像区域,对所述目标图像区域中的特征值进行隐码;和/或,以所述频谱图对应的时间维度为基准,随机选取目标时间区域,对处于所述目标时间区域中的特征值进行隐码;和/或,以所述频谱图对应的频率维度为基准,随机选取目标频率区域,对处于所述目标频率区域中的特征值进行隐码。可选的,所述通过所述编码层对经过隐码操作后的语音特征进行编码,获取编码结果之前,所述方法还包括:对经过隐码操作后的语音特征进行降采样操作。语义识别方法可以包括:从待识别语音信号中提取语音特征;将所述语音特征输入至如权利要求1-4任一项所述的方法构建的语音语义识别模型的编码层中,获取编码结果;在第一解码层中对上述编码结果进行解码,并基于解码结果确定所述语音特征在第n维度上的第i个语义标签,与所述编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第一条件概率;在第二解码层中对上述编码结果进行解码,并基于解码结果确定所述语音特征在第n维度上的第i个语义标签,与所述编码结果以及预获取的第1维度到第n-1维度上所有目标语义标签之间的第二条件概率;根据所述第一条件概率和所述第二条件概率,确定所述语音特征在第n维度上的第i个语义标签对应的标签分值;从所有语义标签分别对应的标签分值中,确定标签分值最大的语义标签为所述语音特征在第n维度上的语义标签,其中,所述i为正整数,n为大于2的正整数,第一维度上的目标语义标签直接根据所述语音特征获取。另外,本申请还提供一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被如本申请第五方面所述的语音语义识别设备执行,以实现本申请上述实施例提供的语音语义识别模型构建方法或本申请上述实施例提供的语义识别方法。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属
技术领域:
的技术人员所理解。应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。本
技术领域:
的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页1 2 3 

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips