HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

网络的训练方法、装置、设备以及存储介质与流程

2021-01-28 12:01:51|292|起点商标网
网络的训练方法、装置、设备以及存储介质与流程

本公开实施例涉及计算机技术领域,具体涉及深度学习和语音分析等人工智能技术领域,尤其涉及网络的训练方法、装置、设备以及存储介质。



背景技术:

随着语音技术日渐成熟,越来越多家电设备都开始支持语音控制,智能家居开始真正走入人们的家庭。而芯片端的语音识别方案,成为我们面临的一个新挑战。

目前,语音识别技术基本上都是基于传统的三级级联方案。即声学模型,语言模型和语义模型进行分级串联,来实现语音到文本再到语义的转化。且在声学到文本转化的过程中,需要通过集束搜索/束搜索(beamsearch)或者加权有限状态转换器(weightedfinite-statetransducer,wfst)等方式进行解码来将语音和语言信息进行融合,以实现语音识别。



技术实现要素:

本公开实施例提出了网络的训练方法、装置、设备以及存储介质。

第一方面,本公开实施例提出了一种网络的训练方法,其中,初始的语义预测网络包括:编码器网络和至少一个解码器网络,编码器网络包括卷积层和长短期记忆网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令中的槽位相对应;该网络的训练方法还包括:获取目标语音样本的第一语音特征;其中,目标语音样本为合成语音样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标签,真实语义样本附有样本音节标签;将第一语音特征输入卷积层,将卷积层的输出特征输入至长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。

第二方面,本公开实施例提出了一种语义识别方法,包括:获取待识别语音信号;将待识别语音信号输入第一方面所述的方法训练的已训练的语义预测网络,得到待识别语音信号的语义标签。

第三方面,本公开实施例提出了一种网络的训练装置,其中初始的语义预测网络包括:编码器网络和至少一个解码器网络,编码器网络包括卷积层和长短期记忆网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令中的槽位相对应;该网络的训练装置包括:样本获取模块,被配置为获取目标语音样本的第一语音特征;其中,目标语音样本为合成语音样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标签,真实语义样本附有样本音节标签;联合训练模块,被配置为将第一语音特征输入卷积层,将卷积层的输出特征输入至长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。

第四方面,本公开实施例提出了一种语义识别装置,该语义识别装置包括:语音获取模块,被配置为获取待识别语音信号;标签预测模块,被配置为将待识别语音信号输入第一方面所述的方法训练的已训练的语义预测网络,得到待识别语音信号的语义标签。

第五方面,本公开实施例提出了一种芯片,芯片中配置有采用第一方面所述的方法训练的已训练的语义预测网络。

第六方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面中任一实现方式描述的方法。

第七方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面中任一实现方式描述的方法。

本公开实施例提供的网络的训练方法、装置、设备以及存储介质,其中,初始的语义预测网络包括:编码器网络和至少一个解码器网络,编码器网络包括卷积层和长短期记忆网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令中的槽位相对应;首先获取目标语音样本的第一语音特征;其中,目标语音样本为合成语音样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标签,真实语义样本附有样本音节标签;然后将第一语音特征输入卷积层,将卷积层的输出特征输入至长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。这一过程中,与背景技术中采用三级级联的语音识别技术相比;本申请中由于在初始的语义预测网络的训练过程中,可以在编码器网络的输出侧加入音节分类网络的训练,以便在联合训练过程中,采用语义标签和样本音节标签分别作为对初始的语义预测网络的输出、音节分类网络的输出的约束,对初始的语义预测网络中的参数的调整,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测网络的预测精度;在本申请中可以基于语音分析出语音的语义,因而可以减小背景技术中将语音转换为文本,再识别出文本的语义的资源开销,且本申请摒弃了三级级联方案中的传统声学解码,减小了计算量。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是本公开可以应用于其中的示例性系统架构;

图2是根据本公开的网络的训练方法的一个实施例的流程图;

图3是根据本公开的联合训练的流程图;

图4是根据本公开的预训练编码器网络的流程图;

图5是根据本公开的实施例的进行联合训练的语义预测网络和音节分类网络的一个示例性结构图;

图6是根据本公开的语义识别方法的一个实施例的流程图;

图7是根据本公开的网络的训练装置的一个实施例的结构示意图;

图8是根据本公开的语义识别装置的一个实施例的结构示意图;

图9是设置芯片的一个应用场景。

图10是用来实现本公开实施例的网络的训练方法或语义识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的网络的训练方法或网络的训练装置或语义识别方法或语义识别装置的实施例的示例性系统架构100。

如图1所示,系统架构100中可以包括客户端101、网络102和服务器103。网络102用以在客户端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

在训练语义预测网络阶段,服务器103可以提供各种服务,例如服务器103可以从客户端101获取目标语音样本;并可以采用目标语音样本对初始的语义预测网络和音节分类网络进行联合训练,得到已训练的语义预测网络。

在通过已训练的语义预测网络预测语义标签阶段,客户端101可以用于获取待识别语音信号,并可以由部署在客户端101中的芯片通过已训练的语义预测网络对获取的待识别语音信号进行预测,得到待识别语音信号的语义标签;或者,

客户端101可以用于获取待识别语音信号,并可以由部署在服务器103中的芯片通过已训练的语义预测网络对经由客户端101获取的待识别语音信号进行预测,得到待识别语音信号的语义标签。

需要说明的是,在通过语义预测网络对待识别语音信号的语义标签进行预测之前,还可以由服务器103将已训练的语义预测网络部署至客户端101中的芯片或服务端103中的芯片。其中,该芯片可以为微电路(microcircuit)、微芯片(microchip)、集成电路(integratedcircuit,ic)或数字信号处理(digitalsignalprocessing,dsp)芯片。该芯片还可以指内含集成电路的硅片,可以是计算机或其他电子设备的一部分。

需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解,图1中的客户端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端、网络和服务器。

继续参考图2,其示出了根据本公开的网络的训练方法的一个实施例的流程200。

其中,初始的语义预测网络可以包括:编码器网络和至少一个解码器网络,编码器网络包括卷积层和长短期记忆网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令中的槽位相对应。

初始的语义预测网络可以包括编码器网络和至少一个解码器网络。其中,该编码器网络可以包括:卷积层和长短期记忆网络层,编码器网络的输入特征为编码器网络的卷积层的输入,编码器网络的卷积层的输出特征为编码器网络的长短期记忆网络层的输入,编码器网络的长短期记忆网络层的输出特征为至少一个编码器网络的输入。

将目标语音样本的第一语音特征输入至卷积层,可以得到卷积层输出的语音特征;将卷积层输出的语音特征经由长短期记忆网络层提取特征,长短期记忆网络层采用历史提取的特征帮助决策本次提取的特征,从而得到长短期记忆网络层的输出的中间特征,也即得到预训练的编码器网络输出的中间特征。长短期记忆网络层的数量可以根据语义预测网络的预测精度、应用场景和本领域技术人员的经验确定。

初始的语义预测网络的至少一个解码器网络中的每一个解码器网络,可以为现有技术或未来发展的技术中的解码器网络结构。每一个解码器对某一特定场景涉及的指令所对应的所有槽位中的一个槽位进行解码。每一个解码器网络对应的域,可以与该特定场景所涉及的指令中的槽位相对应。经由至少一个解码器网络中的每一个解码器网络分别对一个槽位进行解码,可以得到输入语音所命中的所有槽位的内容,从而得到输入语音的语义标签。

在一个具体的示例中,语义预测网络用于进行空调控制场景的语义识别。该语义预测网络包括n个(n的值为空调控制场景所涉及的控制指令命中的语义槽位数量值)解码器网络。在针对空调控制的场景下,用户可能用到的语音指令为“请九点打开主卧的空调”,该语音指令所涉及的所有槽位为:“时间槽位”、“意图槽位”、“位置槽位”。n个解码器网络中的解码器网络a的域与“时间槽位”对应,该解码器网络a对“时间槽位”进行解码,得到“请九点打开主卧的空调”所命中的“时间槽位”的内容,即“九点”;至少一个解码器网络中的解码器网络d的域与“意图槽位”对应,该解码器网络d对“意图槽位”进行解码,得到“请九点打开主卧的空调”所命中的“意图槽位”的内容,即“打开空调”;至少一个解码器网络中的解码器网络h的域与“位置槽位”对应,该解码器网络h对“位置槽位”进行解码,得到“请九点打开主卧的空调”所命中的“位置槽位”的内容,即“主卧”;通过解码器网络a的解码输出、解码器网络d和解码器网络h的解码输出,得到输入语音的语义标签“请九点打开主卧的空调”。

其中,该网络的训练方法包括以下步骤:

步骤201,获取目标语音样本的第一语音特征。

在本实施例中,网络的训练方法的执行主体(例如图1所示的服务器103)可以获取目标语音样本的第一语音特征。其中,目标语音样本可以为包括合成语音样本和真实语音样本的目标语音样本集合中的语音样本,也即该目标语音样本可以为合成语音样本或真实语音样本。对于目标语音样本集合中的目标语音样本,上述执行主体可以将目标语音样本输入至初始的语义预测网络的语音样本,从而将合成语音样本或真实语音样本输入至初始的语义预测网络。可选的,获取目标语音样本的第一语音特征的方法,可以为现有技术或未来发展技术中获取目标语音样本的第一语音特征的方法,本公开对此不做限定。例如,获取目标语音样本的第一语音特征的方法可以通过具有特征提取的模块或网络的方法来实现。该第一语音特征可以用于表征目标语音样本的语音特性。

在这里,目标语音样本为合成语音样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标签,真实语义样本附有样本音节标签。

其中,目标语音样本可以为合成语音样本或真实语音样本。该合成语音样本可以基于现有技术或未来发展技术中语音合成技术进行合成确定,本公开对此不做限定。例如,该语音合成技术可以为端到端语音合成技术(tts)或传统tts。

其中,包括域的值的语义标签可以用于标记合成语音样本的语义。该语义标签可以基于现有技术或未来发展技术中确定语义标签的方法进行确定,本公开对此不做限定;例如,确定语义标签的方法可以通过合成语音样本的文本表达和句式的关键词的方法或人工标记的方法来实现。其中,域的值可以用于表征槽位对应的内容。例如,“意图槽位”对应的内容为“打开空调”,该域的值为“打开空调”。

其中,该样本音节标签可以用于标记合成语音样本的文本表达和句式的关键词中的各个音节;合成语音样本附有的样本音节标签可以基于现有技术或发展技术中确定合成语音样本附有的样本音节标签的方法进行确定,例如,确定合成语音样本附有的样本音节标签的方法可以通过合成语音样本的文本表达和句式的关键词的方法或人工标记的方法来实现。

其中,真实语音样本可以包括未处理过的语音样本和对未处理过的语音样本进行识别所得到的样本音节标签。其中,该未处理过的语音样本可以为真实采集的语音样本。真实语音样本所附有的样本音节标签可以用于标记真实语音样本的各个音节;真实语音样本的样本音节标签可以基于现有技术或未来发展技术中确定真实语音样本的样本音节标签的方法进行确定,例如,采用用于识别音节标签的声学模型对真实语音样本进行识别,得到真实语音样本的样本音节标签。

步骤202,将第一语音特征输入卷积层,将卷积层的输出特征输入至长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。

本实施例中,上述执行主体可以先将第一语音特征输入卷积层,将卷积层的输出特征输入至长短期记忆网络层,得到长短期记忆网络层输出的第一中间特征,之后,上述执行主体可以将第一中间特征分别输入至少一个解码器网络中的每一个解码器网络和音节分类网络,并将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将与第一语音特征对应的样本音节标签作为音节分类网络的输出,从而采用第一语音特征联合训练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。

本公开实施例提供的网络的训练方法,可以在编码器网络的输出侧加入音节分类网络的训练,以便在联合训练过程中,采用语义标签和样本音节标签分别作为对初始的语义预测网络的输出、音节分类网络的输出的约束,对初始的语义预测网络中的参数的调整,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测网络的预测精度;在本申请中可以基于语音分析出语音的语义,因而可以减小背景技术中将语音转换为文本,再识别出文本的语义的资源开销,且本申请摒弃了三级级联方案中的传统声学解码,减小了计算量。

其中,联合训练可以为在训练语义预测网络过程中,还可以对音节分类网络进行训练,以实现对初始的语义预测网络中参数的调整。

在一个具体的示例中,联合训练可以包括:初始的语义预测网络的训练过程和音节分类网络的训练过程。也即,在初始的语义预测网络的训练过程中,可以在编码器网络的输出侧加入音节分类网络的训练,以便在联合训练过程中,采用语义标签和样本音节标签分别作为对初始的语义预测网络的输出、音节分类网络的输出的约束,对初始的语义预测网络中的参数的调整,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测网络的预测精度。

为了便于理解,图3示出了联合训练的示意图。参照图3,该联合训练的步骤可以包括:

步骤301:获取目标语音样本的第一语音特征。

步骤302:将第一语音特征输入初始的编码器网络,得到初始的编码器网络输出的第一中间特征;将第一中间特征输入至音节分类网络,得到音节分类网络出书的预测音节标签。

步骤303:判断预测音节标签与样本音节标签之间的差值是否符合预设的截止条件。

步骤304:在差值不符合预设的截止条件时,调整初始的语义预测网络的参数,并执行步骤302~304。

步骤305:在差值符合预设的截止条件时,得到已训练的语义预测网络。

需要说明的是,可以在初始的语义预测网络训练过程中的任意训练阶段,在编码器网络的输出侧加入音节分类网络的训练。在初始的语义预测网络训练过程中,一般会输入多个目标语音样本,针对每个目标语音样本执行步骤301~步骤304;直至多个目标语音样本对应的差值符合预设的截止条件才执行步骤305,以得到已训练的语义预测网络。其中,预设的截止条件可以由用户根据对语义预测网络的预测精度要求进行设置。

本公开的上述实施例提供的网络的训练方法,在初始的语义预测网络的训练过程中,可以在编码器网络的输出侧加入音节分类网络的训练,以便在联合训练过程中,在预测音节标签与样本音节标签之间的差值符合预设的截止条件时停止调整初始的语义预测网络的参数,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测网络的预测精度。

在本公开的一些可选实现方式中,该初始的语义预测网络可以基于以下步骤确定:将合成语音样本作为原始的语义预测网络的输入,将与合成语音样本对应的语义标签作为原始的语义预测网络的输出,训练原始的语义预测网络,得到初始的语义预测网络。

在本实现方式中,上述执行主体可以先构建原始的语义预测网络;之后,将合成语音样本输入至该原始的语义预测网络,得到该原始的语义预测网络的预测输出;之后,在该原始的语义预测网络的预测输出与合成语音样本对应的语义标签的差值不满足预设的截止条件时,调整该原始的语义预测网络中的参数;直至,将合成语音样本输入至调整参数后的语义预测网络中得到的预测输出与合成语音样本对应的语义标签的差值满足预设的截止条件,得到初始的语义预测网络。

在一个具体的示例中,假设合成语音样本为第i个合成语音样本(i为正整数);将第i个合成语音样本输入至原始的语义预测网络,得到与第i个合成语音样本对应的预测输出,在第i个合成语音样本对应的预测输出和第i个合成语音样本对应的样本音节标签的差值,不满足预设的截止条件时,调整原始的语义预测网络中的参数,在每次调整原始的语义预测网络中的参数之后,再次将该第i个合成语音样本输入至调整参数后的原始语义预测网络,得到的预测输出;并再次将该的预测输出和预设的截止条件的差值,与第i个合成语音样本对应的样本音节标签进行比较;在差值满足预设的截止条件时,停止对原始的语义预测网络的参数调整,得到参数调整后的语义预测网络i;接下来,将第(i+1)个合成语音样本输入参数调整后的语义预测网络i,通过判断第(i+1)个合成语音样本对应的预测输出与第(i+1)个合成语音样本对应的语义标签的差值判断是否满足预设的截止条件;在差值不满足预设的截止条件时,调整参数调整后的语义预测网络i,直至该差值满足预设的截止条件;…,将第n个(n为大于1的正整数)合成语音样本输入参数调整后的语义预测网络(n-1),判断第n个合成语音样本对应的预测输出与第n个合成语音样本对应的语义标签的差值是否满足预设的截止条件,在差值不满足预设的截止条件时,调整参数调整后的语义预测网络(n-1),直至该差值满足预设的截止条件,得到初始的语义预测网络。其中,原始的语义预测网络可以为未进行参数调整的语义预测网络。

在本实现方式中,在联合训练之前,可以采用合成语音样本和合成语音样本附有的语义标签对原始的语义预测网络进行训练,以确定初始的语义预测网络;以便在联合训练过程中,采用音节分类网络对经由原始的语义预测网络训练得到的初始的语义预测网络进行辅助训练,从而可以提高已训练的语义预测网络的预测精度。

在本公开的一些可选实现方式中,初始的语义预测网络还可以包括:多通道语音增强网络;步骤201中的获取目标语音样本的第一语音特征可以包括:将目标语音样本输入多通道语音增强网络,得到多通道语音增强网络输出的目标语音样本的第一语音特征。

在本实现方式中,在语义预测网络还可以包括多通道语音增强网络时,可以通过将目标语音样本输入至多通道语音增强网络中得到目标语音样本的第一语音特征。上述多通道语音增强网络可以用于提取目标语音样本的语音特征。

本实现方式中的语义预测网络,可以通过多通道语音增强网络中的复合卷积层实现特征的提取,以及通过复合全连接层将复合卷积层提取的特征进行整合来获取目标语音样本中更具有区分性的语音特征,进而可以实现对目标语音样本中的第一语音特征的准确获取。

在本公开的一些可选实现方式中,编码器网络为预训练的编码器网络。预训练的编码器网络基于以下步骤预先训练得到:获取真实语音样本的第二语音特征;对第二语音特征执行以下训练步骤:将第二语音特征输入初始的编码器网络,得到初始的编码器网络输出的第二中间特征;将第二中间特征输入至音节分类网络,得到音节分类网络输出的预测音节标签;响应于预测音节标签与样本音节标签之间的差值不符合预设的截止条件,调整初始的编码器网络的参数,并跳转至执行训练步骤直至差值满足预设的截止条件,得到预训练的编码器网络。

在本实现方式中,获取真实语音样本的第二语音特征可以为现有技术或未来发展技术中的获取真实语音样本的第二语音特征,例如,通过具有特征提取的模块或网络获取真实语音样本的第二语音特征。该第二语音特征可以表征真实语音样本的语音特性。

在一个具体的示例中,假设真实语音样本的第二语音特征为第j个第二语音特征(j为正整数);将第j个第二语音特征输入至初始的编码器网络,得到与第j个第二语音特征对应的预测输出,在第j个第二语音特征对应的预测输出和第j个第二语音特征对应的样本音节标签的差值,不满足预设的截止条件时,调整初始的编码器网络中的参数,在每次调整初始的编码器网络中的参数之后,再次将该第j个第二语音特征输入至调整参数后的编码器网络,得到的预测输出;并再次将该的预测输出和第j个第二语音特征对应的样本音节标签的差值,与第j个第二语音特征对应的样本音节标签进行比较;在差值满足预设的截止条件,停止对初始的编码器网络中的参数调整,得到参数调整后的编码器网络j;接下来,将第(j+1)个第二语音特征输入参数调整后的编码器网络j,通过第(j+1)个第二语音特征对应的预测输出与第(j+1)个第二语音特征对应的样本音节标签的差值判断是否满足预设的截止条件,在差值不满足预设的截止条件时,调整参数调整后的编码器网络j中的参数,在该差值满足预设的截止条件,得到参数调整后的编码器网络(j+1);…,将第m个(m为大于1的正整数)第二语音特征输入参数调整后的编码器网络(m-1),通过第m个第二语音特征对应的预测输出与第m个第二语音特征对应的样本音节标签的差值判断是否满足预设的截止条件,在差值不满足预设的截止条件时,调整参数调整后的编码器网络(m-1)中的参数,直至该差值满足预设的截止条件,得到预训练的编码器网络。

为了便于理解,图4示出了训练预训练的编码器网络的流程图。如图4所示,该训练预训练的编码器网络的步骤可以包括:

步骤401:获取真实语音样本的第二语音特征。

步骤402:将第二语音特征输入初始的编码器网络,得到初始的编码器网络输出的第二中间特征;将第二中间特征输入至音节分类网络,得到音节分类网络输出的预测音节标签。

步骤403:判断预测音节标签与样本音节标签之间的差值是否符合预设的截止条件;

步骤404:差值不符合预设的截止条件,调整初始的编码器网络的参数,并执行步骤402~步骤404。

步骤404:差值符合预设的截止条件,得到预训练的编码器网络。

需要说明的是,在预训练过程中,一般会输入多个真实语音样本的第二语音特征,需要针对每个真实语音样本的第二语音特征执行步骤401~步骤404,直至多个真实语音样本的第二语音特征对应的差值都符合预设的截止条件才执行步骤404,得到预训练的编码器网络。

在本实现方式中,在联合训练之前,可以对编码器网络进行预训练,以提高编码器网络提取特征的准确率。

在本公开的一些可选实现方式中,步骤201中的每一个解码器网络包括:依次串联的注意力机制层、全连接层和softmax层。

在本实现方式中,注意力机制层将编码器网络输出的中间特征进行加权、降维度处理,得到注意力机制层输出的多个具有不同权重的特征;将多个具有不同权重的特征分别经全连接层输入softmax层,该全连接层中的每个神经元与注意力机制层的所有神经元进行全连接,该全连接层可以连接多个具有不同权重的特征,得到输出特征;然后,softmax层输出该输出特征所属的分类结果。

需要说明的是,解码器网络中的注意力机制层和解码器网络中的注意力机制层对应的权重可以不同。

本实现方式中的至少一个解码器网络,可以将目标语音样本的第一语音特征分别经至少一个解码器网络中每一个解码器网络包括的注意力机制层、全连接层输入该解码器网络的softmax层,以实现对第一语音特征的准确输出(即预测语义标签),使得预测语义标签和语义标签的差值更准确,从而在训练初始的语义预测网络过程中,可以根据该差值准确地调整初始的语义预测网络的参数,因而提高了语义预测网络的预测精度。

在本公开的一些可选实现方式中,步骤202中的音节分类网络可以包括全连接层和softmax层。

在本实现方式中,该音节分类网络包括的全连接层,整合编码器网络输出的中间特征中具有类别区分性的局部信息,得到具有区分性的区别语音特征,进而可以实现对真实语音样本的准确学习,使得在联合训练过程中,可以通过该音节分类网络对初始的语义预测网络的进行辅助训练,可以提高语义预测网络的预测精度。

在本公开的一些可选的实现方式中,步骤201中的合成语音样本基于以下步骤确定:获取针对目标场景的文本表达和句式;对针对目标场景的文本表达和句式进行语音合成,得到针对目标场景的语音信号;基于针对目标场景的文本表达和句式的关键词,确定针对目标场景的语音信号的样本音节标签和包括域的值的语义标签;将附加针对目标场景的语音信号的样本音节标签和包括域的值的语义标签的针对目标场景的语音信号,作为合成语音样本。

在本实现方式中,首先可以获取针对目标场景的文本表达和句式;之后,对针对目标场景的文本表达和句式进行语音合成,得到针对目标场景的语音信号;之后,基于针对目标场景的文本表达和句式的关键词,确定针对目标场景的语音信号的样本音节标签和包括域的值的语义标签;之后将附加针对目标场景的语音信号的样本音节标签和包括域的值的语义标签的针对目标场景的语音信号,作为合成语音样本。

其中,获取针对目标场景的文本表达和句式中的目标场景可以为需要预测的语音的使用场景。可选的,获取针对目标场景的文本表达和句式可以为从上述执行主体本地或远程获取。对针对目标场景的文本表达和句式进行语音合成,可以得到针对目标场景的语音信号。进行语音合成的方法,可以为采用现有技术或未来发展的技术,例如采用端到端语音合成技术或传统语音合成技术。

在本实现方式,通过对获取针对目标场景的表达和句式进行合成,得到针对目标场景的语音信号;之后,基于针对目标场景的文本表达和句式的关键词,确定针对目标场景的语音信号的样本音节标签和包括域的值的语义标签;之后将附加针对目标场景的语音信号的样本音节标签和包括域的值的语义标签的针对目标场景的语音信号,作为合成语音样本,进而可以提高合成语音样本的精度;在联合训练过程,将该合成语音样本作为训练样本,进而可以提高语义预测网络的预测精度。

请参考图5,图5示出了根据本公开的实施例的进行联合训练的语义预测网络和音节分类网络的一个示例性结构图。

如图5所示,图5包括:多通道语音增强网络501、预训练的编码器网络502、解码器网络5031至解码器网络503n,以及音节分类网络505。

多通道语音增强网络501可以包括复合卷积层5011和复合全连接层5012。将多个通道的真实语音样本,输入至复合卷积层5011,得到真实语音样本的语音特征;将真实语音样本的语音特征输入至复合全连接层5012,该复合全连接层5012中的每个神经元与复合卷积层5011的所有神经元进行全连接,该复合全连接层5012可以整合复合卷积层5011中具有类别区分性的局部信息,得到更能表征真实语音样本的特征的语音特征。

编码器网络502可以包括卷积层5021、长短期记忆网络层5022和长短期记忆网络层5023。将目标语音样本的第一语音特征,输入至卷积层5021,得到卷积层5021输出的语音特征;将卷积层5021输出的语音特征分别经由长短期记忆网络层5022和长短期记忆网络层5023提取特征,其中,长短期记忆网络层5022和长短期记忆网络层5023分别采用历史提取的特征帮助决策本次提取的特征,从而得到长短期记忆网络层5023的输出的中间特征,也即得到预训练的编码器网络输出的中间特征。需要说明的是,长短期记忆网络层的数量可以根据语义预测网络的预测精度、应用场景和本领域技术人员的经验确定。

解码器网络5031至解码器网络503n(n为正整数)中的每一个解码器网络,解码器网络5031,可以包括注意力机制层50311、全连接层50312和softmax层50313。其中,注意力机制层50311还可以具备池化功能。解码器网络503n包括注意力机制层503n1、全连接层503n2和softmax层503n3。

下文中以解码器网络5031为示例。注意力机制层50311将编码器网络502输出的中间特征进行加权,降维度处理,得到注意力机制层50311输出的多个具有不同权重的特征;将多个具有不同权重的特征分别经全连接层50312输入softmax层50313,该全连接层50312中的每个神经元与注意力机制层50311的所有神经元进行全连接,该全连接层50312可以连接多个具有不同权重的特征,得到输出特征;然后,softmax层50313输出该输出特征所属的分类结果。需要说明的是,解码器网络5031中的注意力机制层50311和解码器网络503n中的注意力机制层503n1对应的权重可以不同。

音节分类网络504可以包括:全连接层5041和softmax层5042。将编码器网络502的输出特征分别经全连接层5041和softmax层5042,该全连接层5041中的每个神经元与编码器502网络中的长短期记忆网络层5023的所有神经元进行全连接,该全连接层5041可以整合长短期记忆网络层5023输出的中间特征中具有类别区分性的局部信息,得到更能表征真实语音样本的特征的语音特征;然后,该softmax层5042输出更能表征真实语音样本的特征所属的分类结果。

在完成预训练的编码器网络之后,可以将音节分类网络中的全连接层和softmax层裁剪掉,然后将编码器网络与至少一个解码器网络进行拼接,得到初始的语义预测网络。

上述图5中所示的示例性结构图,采用了上述实施例中的语义预测网络的方法,对初始的语义预测网络和音节分类网络进行联合训练,得到了已训练的语义预测网络,这一过程中,与背景技术中采用三级级联的语音识别技术相比;本申请中由于在初始的语义预测网络的训练过程中,可以在编码器网络的输出侧加入音节分类网络的训练,以便在联合训练过程中,采用语义标签和样本音节标签分别作为对初始的语义预测网络的输出、音节分类网络的输出的约束,对初始的语义预测网络中的参数的调整,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测网络的预测精度;在本申请中可以基于语音分析出语音的语义,因而可以减小背景技术中将语音转换为文本,再识别出文本的语义的资源开销,且本申请摒弃了三级级联方案中的传统声学解码,减小了计算量。

进一步参考图6,其示出了语义识别方法的一个实施例的流程600。该语义识别方法包括以下步骤:

步骤601:获取待识别语音信号。

在本实现方式中,语义识别方法的执行主体(例如图1中的客户端101或服务器103)

步骤602:将待识别语音信号输入采用已训练的语义预测网络,得到待识别语音信号的语义标签。

本公开的上述实施例提供的语义识别方法,通过语义预测网络可以实现对待识别语音信号的语义标签的准确确定。

进一步参考图7,作为对上述各图所示方法的实现,本公开提供了一种网络的训练方法装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图7所示,初始的训练语义预测网络包括:编码器网络和至少一个解码器网络,编码器网络包括卷积层和长短期记忆网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令中的槽位相对应;本实施例的网络的训练装置700可以包括:样本获取模块701,被配置为获取目标语音样本的第一语音特征;其中,目标语音样本为合成语音样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标签,真实语义样本附有样本音节标签;联合训练模块702,被配置为将第一语音特征输入卷积层,将卷积层的输出特征输入至长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。

在本实施例中,网络的训练装置700中:样本获取模块701和联合训练模块702的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-202的相关说明,在此不再赘述。

在本实施例的一些可选的实现方式中,网络的训练装置700还包括:语义训练模块(图中未示出),被配置为将合成语音样本作为原始的语义预测网络的输入,将与合成语音样本对应的语义标签作为原始的语义预测网络的输出,训练原始的语义预测网络,得到初始的语义预测网络。

在本实施例的一些可选的实现方式中,其中,初始的语义预测网络还包括:多通道语音增强网络;样本获取模块701,进一步被配置为:将目标语音样本输入多通道语音增强网络,得到多通道语音增强网络输出的目标语音样本的第一语音特征。

在本实施例的一些可选的实现方式中,编码器网络为预训练的编码器网络,网络的训练装置700还包括:特征获取模块(图中未示出),被配置为获取真实语音样本的第二语音特征;预训练模块(图中未示出),被配置为对第二语音特征执行以下训练步骤:将第二语音特征输入初始的编码器网络,得到初始的编码器网络输出的第二中间特征;将第二中间特征输入至音节分类网络,得到音节分类网络输出的预测音节标签;响应于预测音节标签与样本音节标签之间的差值不符合预设的截止条件,调整初始的编码器网络的参数,并跳转至执行训练步骤直至差值满足预设的截止条件,得到预训练的编码器网络。

在本实施例的一些可选的实现方式中,每一个解码器网络包括:依次串联的注意力机制层、全连接层和softmax层。

在本实施例的一些可选的实现方式中,音节分类网络包括全连接层和softmax层。

在本实施例的一些可选的实现方式中,网络的训练装置700还包括:文本获取模块(图中未示出),被配置为获取针对目标场景的文本表达和句式;合成语音模块(图中未示出),被配置为对针对目标场景的文本表达和句式进行语音合成,得到针对目标场景的语音信号;标签确定模块(图中未示出),被配置为基于针对目标场景的文本表达和句式的关键词,确定针对目标场景的语音信号的样本音节标签和包括域的值的语义标签;语音作为模块(图中未示出),被配置为将附加针对目标场景的语音信号的样本音节标签和包括域的值的语义标签的针对目标场景的语音信号,作为合成语音样本。

进一步参考图8,作为对上述各图所示方法的实现,本公开提供了一种语义识别装置的一个实施例,该装置实施例与图6所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图8所示,本实施例的语义识别装置800可以包括:语音获取模块801,被配置为获取待识别语音信号;标签预测模块802,被配置为将待识别语音信号输入采用如图2的方法训练的已训练的语义预测网络,得到待识别语音信号的语义标签。

在本实施例中,语义识别装置800中:语音获取模块801和标签预测模块802的具体处理及其所带来的技术效果可分别参考图6对应实施例中的步骤601-602的相关说明,在此不再赘述。

进一步参考图9,本公开提供了一种设置芯片的应用场景的一个实施例。如图9所示,该设置芯片的应用场景可以包括:客户端901和设置在客户端901中的芯片9011。

在通过已训练的语义预测网络预测语义标签阶段,客户端901可以获取待识别语音信号,芯片9011可以通过已训练的语义预测网络对客户端901获取的待识别语音信号进行预测,得到待识别语音信号的语义标签。

需要说明的是,在通过语义预测网络对待识别语音信号的语义标签进行预测之前,还可以将训练的语义预测网络部署至芯片9011中。可选的,服务器103将已训练的语义预测网络部署至芯片9011的方法可以为现有技术或未来发展的技术中的部署方法。

在本实现方式中,设置在客户端中的芯片,由于芯片中已训练的语义预测网络的预测精度较高,因此,可以提高在离线状态下识别待识别语音信息号的语义标签进行识别的准确度。此外,由于布置在芯片中的已训练的语义预测网络的体量较小,可以减少语义预测的硬件损耗并减少预测过程中的资源开销。

根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。

如图10所示,是根据本公开实施例眼底图像识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的网络的训练方法或语义识别方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的网络的训练方法或语义识别方法。

存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的网络的训练方法或语义识别方法对应的程序指令/模块(例如,附图7所示的样本获取模块701和联合训练模块702;或,附图8所示的语音获取模块801和标签预测模块802)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的网络的训练方法或语义识别方法。

存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据网络的训练方法或语义识别方法的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至网络的训练方法或语义识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

网络的训练方法或语义识别方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息,以及产生与网络的训练方法或语义识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本公开实施例提供的网络的训练方法、装置、设备以及存储介质,其中,初始的语义预测网络包括:编码器网络和至少一个解码器网络,编码器网络包括卷积层和长短期记忆网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令中的槽位相对应;首先获取目标语音样本的第一语音特征;其中,目标语音样本为合成语音样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标签,真实语义样本附有样本音节标签;然后将第一语音特征输入卷积层,将卷积层的输出特征输入至长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。这一过程中,与背景技术中采用三级级联的语音识别技术相比;本申请中由于在初始的语义预测网络的训练过程中,可以在编码器网络的输出侧加入音节分类网络的训练,以便在联合训练过程中,采用语义标签和样本音节标签分别作为对初始的语义预测网络的输出、音节分类网络的输出的约束,对初始的语义预测网络中的参数的调整,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测网络的预测精度;在本申请中可以基于语音分析出语音的语义,因而可以减小背景技术中将语音转换为文本,再识别出文本的语义的资源开销,且本申请摒弃了三级级联方案中的传统声学解码,减小了计算量。

人工智能是研究计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips