语音识别方法、装置、电子设备以及存储介质与流程
2021-01-28 12:01:08|284|起点商标网
本申请涉及计算机技术中的自动驾驶、语音技术、智能搜索等人工智能
技术领域:
,尤其涉及一种语音识别方法、装置、电子设备以及存储介质。
背景技术:
:当车辆无法接入网络时,为了使车辆可以根据语音信息(例如:打开车窗)执行相应的操作(例如:把车窗打开),通常采用车辆中预先设置的离线语音识别模型对用户语音进行识别。在现有的语音识别方法中,通常采用车辆型号对应的离线语音识别模型对车辆型号对应的车辆中的语音信息进行识别,而且为了获得车辆型号对应的离线语音识别模型,通常需要采集车辆型号对应的多个语音信息,并通过采集的多个语音信息对离线语音识别模型进行训练,从而得到车辆型号对应的离线语音识别模型,进而通过车辆型号对应的离线语音识别模型对车辆型号对应的车辆中的语音信息进行识别,若语音识别错误,则根据重新采集的多个语音信息,继续对离线语音识别模型进行训练。在上述方法中,当语音识别错误时,根据重新采集多个语音信息,继续对离线语音识别模型进行训练,会降低语音识别效率,进而降低车辆根据用户语音执行相应操作的及时性。技术实现要素:本申请提供了一种用于提高语音识别效率和准确率、提高智能车辆根据语音信息执行相应操作的及时性的语音识别方法、装置、电子设备以及存储介质。第一方面,本申请实施例提供了一种语音识别方法,包括:获取语音信息;确定语音信息对应的第一音节数组,第一音节数组包括至少一个音节元素;根据预设音节树和第一音节数组确定语音信息对应的语音识别结果,预设音节树中包括多层音节元素,每层音节元素中包括至少一个音节元素,不同层的音节元素用于形成音节数组。第二方面,本申请实施例提供了一种语音识别装置,包括:获取模块、第一确定模块和第二确定模块,其中,获取模块用于,获取语音信息;第一确定模块用于,确定语音信息对应的第一音节数组,第一音节数组包括至少一个音节元素;第二确定模块用于,根据预设音节树和第一音节数组确定语音信息对应的语音识别结果,预设音节树中包括多层音节元素,每层音节元素中包括至少一个音节元素,不同层的音节元素用于形成音节数组。第三方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面中任一项的方法。第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述第一方面中任一项的方法。根据本申请的技术解决了当语音识别错误时,根据重新采集的多个语音信息,继续对离线语音识别模型进行训练,会降低语音识别效率,进而降低车辆根据用户语音执行相应操作的及时性。提高语音识别的效率和准确率,提高智能车辆执行相应操作的及时性。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例提供的语音识别方法的应用场景示意图;图2为本申请实施例提供的语音识别方法的流程示意图一;图3为本申请实施例提供的一种预设音节树的结构示意图;图4为本申请实施例提供的语音识别方法的流程示意图二;图5为本申请实施例提供的得到第一查询信息的一种方法流程图;图6为本申请实施例提供的得到第一查询信息的另一种方法流程图;图7为本申请实施例提供的语音识别方法的流程示意图三;图8为本申请实施例提供的离线牵引力控制系统优化模型的结构示意图;图9为本申请实施例提供的语音识别装置的结构示意图一;图10为本申请实施例提供的语音识别装置的结构示意图二;图11为本申请实施例提供的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本申请提供一种语音识别方法,应用于计算机
技术领域:
中的自动驾驶、智能交通、语音识别等工人智能
技术领域:
,以达到提高语音识别效率和准确率,进而提高智能车辆根据语音信息执行相应操作的及时性,避免现有技术中,在语音识别错误时,需要根据重新采集的多个语音信息继续对离线语音识别模型进行训练,导致语音识别效率低,影响车辆根据语音信息执行相应操作的及时性的问题。图1为本申请实施例提供的语音识别方法的应用场景示意图。如图1所示,包括:处理器10,处理器10可以设置在智能设备中。例如,智能设备可以为智能家具(例如:空调、窗帘、厨具等)、或者智能车辆等。其中,处理器10可以用于执行本申请提供的语音识别方法。在处理器10执行语音识别方法的过程中,可以实现:获取语音信息(例如:语音信息为中文:我冷了);根据预设音节树和语音信息对应的第一音节数组(例如第一音节数组为拼音数组:[wo,deng,le])确定语音识别结果(例如语音识别结果为拼音数组:[wo,leng,le]);根据语音识别结果执行相应的操作(例如:提高温度)。例如,当智能车辆中设置有处理器10时,在智能车辆无法接入网络、或者网络质量较差时,处理器10执行语音识别方法,可以提高语音识别的效率和准确率,进而提高智能车辆根据语音信息执行相应操作的及时性。下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。图2为本申请实施例提供的语音识别方法的流程示意图一。如图2所示,本实施例提供的语音识别方法包括:s201、获取语音信息。可选地,本申请中提供的实施例的执行可以为智能车辆,也可以为设置在智能车辆中的语音识别装置,该语音识别装置可以通过软件和/或硬件的结合来实现。可选地,可以通过语音采集装置对用户语音进行采集得到语音信息,使得语音识别装置可以从语音采集装置中获取语音信息。其中,语音采集装置设置在智能车辆中设置中。可选地,本申请中的语音信息可以为各种语言(例如:中文、英文等)的语音信息。s202、确定语音信息对应的第一音节数组,第一音节数组包括至少一个音节元素。需要说明的是,不同语音的语音信息对应的音节元素不同。例如,中文对应的音节元素为拼音,英文对应的音节元素为音标。例如,语音信息为中文的语音信息,当语音信息为:我冷了时,对应的第一音节数组可以为[wo,leng,le]、[wo,deng,le]、或者[e,deng,le]等中的任意一个数组。例如,第一音节数组为[wo,deng,le],第一音节数组中包括3的个音节元素依次分别为wo、deng、le。例如,语音信息为英文的语音信息,当语音信息为:iamcold时,对应的第一音节数组可以为或者等中的任意一个数组。例如,第一音节数组为第一音节数组中包括3的个音节元素依次分别为ai、s203、根据预设音节树和第一音节数组确定语音信息对应的语音识别结果,预设音节树中包括多层音节元素,每层音节元素中包括至少一个音节元素,不同层的音节元素用于形成音节数组。具体的,本申请示例性的提供一种预设音节树,请参见图3。图3为本申请实施例提供的一种预设音节树的结构示意图。需要说明的是,图3实施例中所示的预设音节树是以中文对应的拼音为例进行说明的,如图3所示,预设音节树20中包括:第1层音节元素、第2层音节元素和第3层音节元素。其中,第1层音节元素、第2层音节元素和第3层音节元素可以形成3个音节数组,3个音节数组分别为[wo,leng,le]、[wo,ke,le]、或者[wo,lei,le]。可选地,可以根据第一音节数组,遍历查找预设音节树,从而确定预设音节树中是否包括第一音节数组;若是,则将第一音节数组确定为语音识别结果;若否,则对第一音节数组进行纠错处理,得到语音识别结果。例如,在图3的基础上,当第一音节数组为[wo,leng,le]时,由于预设音节树中包括第一音节数组,因此可以将第一音节数组确定为语音识别结果;当第一音节数组为[wo,deng,le]时,由于预设音节树中不包括第一音节数组,因此可以对第一音节数组进行纠错处理,将纠错后得到的[wo,leng,le]确定为语音识别结果。可选地,在确定语音信息对应的语音识别结果之后,还可以通过显示屏显示该语音识别结果对应的文本信息。本实施例提供的语音识别方法包括:获取语音信息;确定语音信息对应的第一音节数组,第一音节数组包括至少一个音节元素;根据预设音节树和第一音节数组确定语音信息对应的语音识别结果。在上述方法中,根据预设音节树和第一音节数组确定语音信息对应的语音识别结果,可以提高语音识别结果的准确性,提高语音识别的效率和准确率,进而提高智能车辆根据语音信息执行相应操作的及时性。进一步地,由于本申请中的语音识别方法,无需通过大量的语音信息对离线语音识别模型进行训练,因此减少应用程序的厚重性,节省语音识别装置的负载资源,提高语音识别的处理速度。在上述实施例的基础上,下面结合图4实施例,对本申请提供的语音识别方法做进一步地说明。具体的,请参见图4。图4为本申请实施例提供的语音识别方法的流程示意图二。如图4所示,本实施例提供的语音识别方法包括:s401、获取语音信息。具体的,s401的执行方法与s201的执行方法相同,此处不再赘述s401的执行过程。s402、通过语音引擎对语音信息进行文本识别处理,得到文本信息。可选地,语音引擎为预先设置在智能车辆中的搜索引擎,该语音引擎可以将语音信息转换为能够通过视觉观察到的文本信息。其中,文本信息中可以包括至少一个文字。s403、对文本信息进行音节转换处理,得到语音信息对应的第一音节数组。具体的,可以将文本信息中的每个文字转换为其对应的音节元素,进而对每个文字对应的音节元素进行组合,得到第一音节数组。例如,文本信息为:打开窗户,打、开、窗、户各自对应的音节元素依次分别为:da、kai、chuang、hu,对da、kai、chuang和hu进行组合,得到的第一音节数组为[da,kai,chuang,hu]。s404、在预设音节树中查询第一音节数组,得到第一查询信息。具体的,对s404的详细说明,请参见图5实施例或图6实施例。s405、根据第一查询信息判断在预设音节树中是否存在第一音节数组。若是,则执行s406。若否,则执行s407。s406、根据第一音节数组确定语音识别结果。具体的,将第一音节数组确定为语音识别结果。例如,当第一音节数组为[wo,leng,le],预设音节树中的音节数组包括[wo,leng,le]、[wo,ke,le]和[wo,lei,le]时,由于第一音节数组包括在预设音节树中,因此可以将第一音节数组确定为语音识别结果。s407、根据预设音节树对第一音节数据进行纠错处理,得到第二音节数组,并根据第二音节数组确定语音识别结果。例如,当第一音节数组为[wo,deng,le],预设音节树中的音节数组包括[wo,leng,le]、[wo,ke,le]和[wo,lei,le]时,由于第一音节数组不包括在预设音节树中,因此对第一音节数组[wo,deng,le]进行纠错处理,得到第二音节数组[wo,leng,le],进而将第二音节数组[wo,leng,le]确定为语音识别结果。s408、根据语音识别结果,执行与语音信息对应的操作。例如,当语音识别结果为[wo,deng,le]时,执行调整温度操作。例如,当语音识别结果为[da,kai,che,chuang]时,执行开窗操作。在本实施例提供的语音识别方法中,根据第一查询信息确定在预设音节树中存在第一音节数组,根据第一音节数组确定语音识别结果,根据第一查询信息确定在预设音节树中不存在第一音节数组,根据预设音节树对第一音节数据进行纠错处理,得到第二音节数组,并根据第二音节数组确定语音识别结果,可以提高语音识别的效率和准确率,提高智能车辆根据语音信息执行相应操作的及时性。进一步地,当预设音节树中不存在第一音节数组时,对第一音节数据进行纠错处理得到第二音节数组,根据第二音节数组确定语音识别结果,可以提高语音识别结果的准确性。在上述实施例的基础上,下面以如图3所示的预设音节树、第一音节数组为[wo,deng,le]为例,结合图5实施例,对图4实施例中s404(在预设音节树中查询第一音节数组得到第一查询信息)的方法进行说明。图5为本申请实施例提供的得到第一查询信息的一种方法流程图。如图5所示,本实施例提供的得到第一查询信息的方法包括:s501:初始设置:i=1、索引值为0。具体的,查询开始时,将i设置为1,将索引值设置为0。s502:判断预设音节树的第i层音节元素中是否存在第一音节数组中第i个音节元素。若是,则执行s503。若否,则执行s504。s503:将索引值加1得到第i个索引值。s504:将当前的索引值确定为第i个索引值。s505:将第i个索引值存储至索引数组。s506:判断i是否大于或等于m。其中,m为第一音节数组中包括的音节元素的个数,m为大于或等于1的整数。若否,则执行s507。若是,则执行s508。s507:更新i,i=i+1,并重新执行s502。s508:得到第一查询信息,第一查询信息包括索引数组。在本实施例中,m=3。可选地,索引数组可以索引数据栈或者索引数据队列。具体的,当i=1、索引数组为索引数据栈时,预设音节树的第1层音节元素(包括:wo)中存在第一音节数组中第1个音节元素wo,因此依次执行s502、s503、s505之后,索引数据栈可以具有如下表1所示的格式。进一步地,由于i(等于1)小于m(等于3),因此在执行s506和s507之后,i=2,接着继续执行s502。表11进一步地,当i=2、索引数组为索引数据栈时,预设音节树的第2层音节元素(包括:leng,ke,lei)中不存在第一音节数组中第2个音节元素deng,因此依次执行s502、s504、s505之后,索引数据栈可以具有如下表2所示的格式。进一步地,由于i(等于2)小于m(等于3),因此在执行完s506和s507之后,i=3,接着继续执行s502。表211进一步地,当i=3、索引数组为索引数据栈时,预设音节树的第3层音节元素(包括:le,le,le)中存在第一音节数组中第3个音节元素le,因此依次执行s502、s503、s505之后,索引数据栈可以具有如下表3所示的格式。进一步地,由于i(等于3)等于m(等于3),因此在执行完s506和s508之后,得到第一查询信息,第一查询信息如下表3所示。表3211可选地,上述s501~s507中的方法为语音识别装置执行第一操作的具体的方法。进一步地,在本申请中,由于在s506中可以判断i是否大于或等于m。当i等于m时,可以得到第一查询信息,因此使得保障语音识别装置重复执行m次第一操作,得到第一查询信息。在上述实施例的基础上,下面以如图3所示的预设音节树、第一音节数组为[wo,deng,le]为例,结合图6实施例,对图4实施例中s404(在预设音节树中查询第一音节数组得到第一查询信息)的方法进行说明。图6为本申请实施例提供的得到第一查询信息的另一种方法流程图。如图6所示,本实施例提供的得到第一查询信息的方法包括:s601、初始设置:i=1。具体的,查询开始时,将i设置为1。s602:判断预设音节树的第i层音节元素中是否存在第一音节数组中第i个音节元素。若是,则执行s603~s604。若否,则执行s605。s603:更新i,i=i+1。s604:将第i个音节元素存储至元素数组。s605:结束。进一步地,在结束之后,可以将元素数组确定为第一查询信息,第一查询信息包括元素数组。可选地,元素数组可以为元素数据栈或者元素数据队列。具体的,当i=1、元素数组为元素数据栈时,预设音节树的第1层音节元素(包括:wo)中存在第一音节数组中第1个音节元素wo,在执行s602、s603、s604之后,该元素数据栈可以具有如下表4所示的格式,且i=2,继续执行s602。表4wo进一步地,当i=2、元素数组为元素数据栈时,预设音节树的第2(j=2)层音节元素(包括:leng,ke,lei)中不存在第一音节数组中第2个音节元素deng,因此结束,得到的第一查询信息如表4所示。需要说明的是,上述s601~s605中的方法为语音识别装置执行第二操作的具体的方法。在图5实施例或图6实施例的基础上,下面结合图7对本申请提供的语音识别方法做进一步地详细说明,具体的,请参见图7。图7为本申请实施例提供的语音识别方法的流程示意图三。如图7所示,本实施例提供的语音识别方法包括:s701、获取语音信息。s702、通过语音引擎对语音信息进行文本识别处理,得到文本信息。s703、对文本信息进行音节转换处理,得到语音信息对应的第一音节数组。具体的,s701~s703的执行方法与s401~s403的执行方法相同,此处不再赘述s701~s703的执行过程。s704、在预设音节树中查询第一音节数组,得到第一查询信息包括索引数组,索引数组中包括索引值。或者,在预设音节树中查询第一音节数组,得到第一查询信息包括元素数组,索引数组中包括音节元素。s705、根据第一查询信息确定预设音节树中是否存在第一音节数组。若是,则执行s706。若否,则执行s707。在图5的基础上,当第一查询信息包括索引数组为索引数据栈时,若栈顶的索引值与m(即第一音节数组中的音节元素的个数)相同,则可以确定预设音节树中存在第一音节数组;若栈顶的索引值与m不同,则可以确定预设音节树中不存在第一音节数组。或者,当第一查询信息包括索引数组为索引数据队列时,若队尾的索引值与m(即第一音节数组中的音节元素的个数)相同,则可以确定预设音节树中存在第一音节数组;若队尾的索引值与m不同,则可以确定预设音节树中不存在第一音节数组。在图6的基础上,当第一查询信息包括元素数组为元素数据栈时,若元素数据栈的长度与m相同,则可以确定预设音节树中存在第一音节数组;若元素数据栈的长度与m不同,则可以确定预设音节树中不存在第一音节数组。或者,当第一查询信息包括元素数组为元素数据队列时,若元素数据队列的长度与m相同,则可以确定预设音节树中存在第一音节数组;若元素数据队列的长度与m不同,则可以确定预设音节树中不存在第一音节数组。s706、将第一音节数组确定为语音识别结果。s707、在第一音节数组中确定第一音节元素,第一音节元素为第一音节数组中的第n个音节元素,预设音节树的第n层音节元素中不存在第一音节元素,n为大于或等于1的整数。在一种可能的设计中,当第一查询信息包括索引数组时,若索引素组中第j个索引值与第j+1个索引值相同,则将第一音节数组中第j+1个音节元素确定为第一音节元素,j为大于或等于1的整数,j的取值依次从小到大。例如,索引素组如表3所示,j=1,由于第1个索引值(a=1)与第2个索引值(a=2)相同,因此可以将第一音节数组中第j+1个音节元素确定为第一音节元素。例如,预设音节树如图3所示、第一音节数组为[wo,deng,le],第一音节元素为deng。在一种可能的设计中,当第一查询信息包括元素数组时,获取元素数组中的第二音节元素,第二音节元素为元素数组中的最后一个音节元素;将第一音节数组中的第三音节元素确定为第一音节元素,在第一音节数组中,第三音节元素位于第二音节元素之后。例如,元素数组为元素数据栈(或者元素数据队列)时,最后一个音节元素为栈顶元素(或者队尾元素)。例如,元素素组如表4所示,可以将栈顶元素wo确定为第二音节元素,由于第二音节元素之后的第三音节元素为deng,因此将第三音节元素deng确定为第一音节元素。s708、在预设音节树的第n层音节元素中确定第一音节元素对应的目标音节元素。在一种可能的设计中,确定第一音节元素对应的目标音节元素的方法可以包括:获取第一音节元素与第n层音节元素中各音节元素的相似度;根据第一音节元素与第n层音节元素中各音节元素的相似度,在第n层音节元素中确定目标音节元素。在一种可能的设计中,针对第n层音节元素中的任意一个第二音节元素,获取第一音节元素与第二音节元素的相似度,包括:获取第一音节元素和第二音节元素的声母相似度和韵母相似度;根据预设声母权重、预设韵母权重、声母相似度和韵母相似度,确定第一音节元素与第二音节元素的相似度。可选地,第一音节元素和第二音节元素的声母相同时,声母相似度为1,第一音节元素和第二音节元素的声母不同时,声母相似度为0;第一音节元素和第二音节元素的韵母相同时,韵母相似度为1,第一音节元素和第二音节元素的韵母不同时,韵母相似度为0。例如,第一音节元素为deng,第二音节元素为leng(第2(n=2)层音节元素包括leng、ke、lei),则声母(d和l不同)相似度为0、韵母(eng和eng相同)相似度为1。例如,第一音节元素为deng,第二音节元素为ke,则声母(d和k不同)相似度为0、韵母(eng和e不同)相似度为0。例如,第一音节元素为deng,第二音节元素为lei,则声母(d和l不同)相似度为0、韵母(eng和ei不同)相似度为0。可选地,预设声母权重可以大于预设韵母权重。例如,预设声母权重为0.6、预设韵母权重为0.4,第一音节元素deng和第二音节元素leng的相似度为0.6*0+0.4*1=0.4;第一音节元素deng和第二音节元素ke的相似度为0.6*0+0.4*0=0;第一音节元素deng和第二音节元素lei的相似度为0.6*0+0.4*0=0。因此,可以将第二音节元素leng确定为第一音节元素对应的目标音节元素。在另一种可能的设计中,针对第n层音节元素中的任意一个第二音节元素,获取第一音节元素与第二音节元素的相似度,包括:获取第一音节元素和第二音节元素中对应位置处的字母相似度;根据每个对应位置处对应的预设权重、以及每个对应位置处的字母相似度,确定第一音节元素与第二音节元素的相似度。可选地,在第一音节元素和第二音节元素中,若对应位置处均有字母,则字母相同时,字母相似度为1,字母不同时,字母相似度为0;若在对应位置处,一个音节元素中没有该对应位置处的字母,则该对应位置处的的字母相似度为预设负数值(例如:-0.5、-0.4等)。可选地,根据每个对应位置处对应的预设权重值可以由左向由依次减小。例如,预设权重值由左向由依次为:0.4、0.3、0.2、0.1。例如,第一音节元素为deng,第二音节元素为leng,则对应位置处的字母相似度分别为:0、1、0、0。例如,第一音节元素为deng,第二音节元素为ke,则对应位置处的字母相似度分别为:0、1、-0.5、-0.5。例如,第一音节元素为deng,第二音节元素为lei,则则对应位置处的字母相似度分别为:0、1、0、-0.5。可选地,预设声母权重可以大于预设韵母权重。例如,当预设权重值由左向由依次为:0.4、0.3、0.2、01,预设负数值为-0.5时,第一音节元素deng和第二音节元素leng的相似度为0.4*0+0.3*1+0.2*0+0.1*0=0.3;第一音节元素deng和第二音节元素ke的相似度为0.4*0+0.3*1+0.2*(-0.5)+0.1*(-0.5)=0.15;第一音节元素deng和第二音节元素lei的相似度为0.4*0+0.3*1+0.2*0+0.1*(-0.5)=0.25。因此,可以将第二音节元素leng确定为第一音节元素对应的目标音节元素。s709、在第一音节数组中,将第一音节元素更新为目标音节元素,得到第二音节数组。进一步地,将第一音节数组为[wo,deng,le]中的第一音节元素deng更新为目标音节元素leng,以得到第二音节数组[wo,leng,le]。s710、将第二音节数组确定为语音识别结果。在本实施例中,根据第一音节元素与第n层音节元素中各音节元素的相似度,在第n层音节元素中确定目标音节元素,可以实现当第一音节元素为模糊音时,准确地确定出其对应的目标音节元素,从而提高第二音节数组的准确性,进而提高语音识别结果的准确性。在实际应用中,当用户具有当地口音、或者存在语言障碍时,可能导致第一音节数组中存在错误的第一音节元素,此时,通过s708~s710可以对第一音节元素进行纠错,得到正确的语音识别结果。s711、获取语音识别结果对应的指令类型。可选地,可以为预设音节树中多层音节元素形成的音节数组配置对应的指令类型,从而使得可以根据语音识别结果对应的指令类型。指令类型包括:车控指令类型、电话指令类型、音乐指令类型、无法识别指令类型等。其中,车控指令类型例如可以为:打开车窗、打开空调等,电话指令类型例如可以为:播放张某伦的歌、暂停播放等(在离线下预先配置歌手和歌名)、音乐指令类型例如可以为:打电话给王某等(在离下线注册联系人和联系人电话)。需要说明的是,无法识别指令类型为上述多层音节元素形成的音节数组中没有配置指令类型的音节数组对应的指令类型。s712、在确定指令类型为预设类型之后,指令类型对应的至少一个预设解析结果中获取语音识别结果对应的预设解析结果。其中,预设类型为上述指令类型中除无法识别指令类型之外的任意一种类型。可选地,指令类型对应的至少一个预设解析结果具有各自对应的解析标识。可选地,可以为每个语音识别配置对应的识别标识,在确定指令类型为预设类型之后,可以根据语音识别结果的识别标识,确定解析标识,进而将解析标识对应的预设解析结果,确定为语音识别结果对应的预设解析结果。其中,识别标识可以与解析标识相同,或者对应。可选地,在确定指令类型不为预设类型之后,则进入nlu解析流程(具体请参见现有技术此处不再进行赘述),从而得到解析结果。s713、根据预设解析结果,执行与语音信息对应的操作。其中,预设解析结果用于指示语音识别结果对应的意图。例如:语音识别结果为[da,kai,che,chuang],则语音识别结果对应的意图(即预设解析结果)为开窗。在确定指令类型为预设类型之后,指令类型对应的至少一个预设解析结果中获取语音识别结果对应的预设解析结果,可以提高对语音识别信息的解析速度,提高智能车辆执行相应操作的及时性,进而提高用户体验。图8为本申请实施例提供的离线牵引力控制系统优化模型的结构示意图。如图8所示,该离线牵引力控制系统(accelerationslipregulation,asr)优化模型包括:离线指令模型文件、离线指令文件构建模型和匹配离线指令模型。其中,离线指令模型文件用于配置各种常用指令,或者根据用户需求定制常用指令。该文件中包括解析结果、指令文本、指令音节(包括模糊音)。例如,当用户定制常用指令“打开屏保”时,该文件包括的解析结果为app_open_screen,指令文本为打开屏保,指令音节为:da-kai-ping-bao。其中,离线指令文件构建模型主要是在初始化加载时,用于读取预先配置的离线指令模型文件,将离线指令模型文件中的数据插入到音节树中,构建预设音节树。其中,匹配离线指令模型,用于将文本信息转换成音节数组,根据预设音节树和第一音节数组确定语音信息对应的语音识别结果。同时,针对语音识别结果的指令类型,如果指令类型为预设类型,语音识别结果具有对应的解析结果,在匹配离线指令模型中,将直接返回解析结果,无需重复进入nlu解析过程,从而提高语音识别解析速度。图9为本申请实施例提供的语音识别装置的结构示意图一。如图9所示,语音识别装置20包括:获取模块201、第一确定模块202和第二确定模块203,其中,获取模块201用于,获取语音信息;第一确定模块202用于,确定语音信息对应的第一音节数组,第一音节数组包括至少一个音节元素;第二确定模块203用于,根据预设音节树和第一音节数组确定语音信息对应的语音识别结果,预设音节树中包括多层音节元素,每层音节元素中包括至少一个音节元素,不同层的音节元素用于形成音节数组。本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。图10为本申请实施例提供的语音识别装置的结构示意图二。在图9的基础上,如图10所示,语音识别装置20还包括:执行模块204,其中,执行模块204用于,根据语音识别结果,执行与语音信息对应的操作。本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。在一种可能的设计中,第二确定模块203具体用于:在预设音节树中查询第一音节数组,得到第一查询信息;若根据第一查询信息确定预设音节树中存在第一音节数组,则根据第一音节数组确定语音识别结果;若根据第一查询信息确定预设音节树中不存在第一音节数组,则根据预设音节树对第一音节数据进行纠错处理,得到第二音节数组,并根据第二音节数组确定语音识别结果。在一种可能的设计中,第二确定模块203具体用于:在第一音节数组中确定第一音节元素,第一音节元素为第一音节数组中的第n个音节元素,预设音节树的第n层音节元素中不存在第一音节元素,n为大于或等于1的整数;在预设音节树的第n层音节元素中确定第一音节元素对应的目标音节元素;在第一音节数组中,将第一音节元素更新为目标音节元素,得到第二音节数组。在一种可能的设计中,第二确定模块203具体用于:获取第一音节元素与第n层音节元素中各音节元素的相似度;根据第一音节元素与第n层音节元素中各音节元素的相似度,在第n层音节元素中确定目标音节元素。在一种可能的设计中,第二确定模块203具体用于:执行第一操作,第一操作包括:判断预设音节树的第i层音节元素中是否存在第一音节数组中第i个音节元素;若是,则将索引值加1得到第i个索引值;若否,将当前的索引值确定为第i个索引值;将第i个索引值存储至索引数组;初始时,i为1,索引值为0;重复执行m次第一操作,得到第一查询信息,第一查询信息包括索引数组,m为第一音节数组中包括的音节元素的个数,m为大于或等于1的整数。在一种可能的设计中,第二确定模块203具体用于:若索引素组中第j个索引值与第j+1个索引值相同,则将第一音节数组中第j+1个音节元素确定为第一音节元素,j为大于或等于1的整数。在一种可能的设计中,第二确定模块203具体用于:执行第二操作,第二操作包括:判断预设音节树的第i层音节元素中是否存在第一音节数组中第i个音节元素;若是,则将第i个音节元素存储至元素数组,并将i加1;重复执行第二操作,直至预设音节树的第j层音节元素中不存在第一音节数组中第j个音节元素,得到第一查询信息,第一查询信息包括元素数组,j为大于或等于i的正整数;初始时,i为1。在一种可能的设计中,第二确定模块203具体用于:获取元素数组中的第二音节元素,第二音节元素为元素数组中的最后一个音节元素;将第一音节数组中的第三音节元素确定为第一音节元素,在第一音节数组中,第三音节元素位于第二音节元素之后。在一种可能的设计中,针对第n层音节元素中的任意一个第二音节元素,在获取第一音节元素与第二音节元素的相似度的过程中,第二确定模块203具体用于:获取第一音节元素和第二音节元素的声母相似度和韵母相似度;根据预设声母权重、预设韵母权重、声母相似度和韵母相似度,确定第一音节元素与第二音节元素的相似度。在一种可能的设计中,针对第n层音节元素中的任意一个第二音节元素,在获取第一音节元素与第二音节元素的相似度的过程中,第二确定模块203具体用于:获取第一音节元素和第二音节元素中对应位置处的字母相似度;根据每个对应位置处对应的预设权重、以及每个对应位置处的字母相似度,确定第一音节元素与第二音节元素的相似度。在一种可能的设计中,第一确定模块202具体用于:通过语音引擎对语音信息进行文本识别处理,得到文本信息;对文本信息进行音节转换处理,得到语音信息对应的第一音节数组。在一种可能的设计中,执行模块204具体用于:获取语音识别结果对应的指令类型;若指令类型为预设类型,则从指令类型对应的至少一个预设解析结果中获取语音识别结果对应的预设解析结果;根据预设解析结果,执行与语音信息对应的操作。根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。图11为本申请实施例提供的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。如图11所示,该电子设备包括:一个或多个处理器301、存储器302,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器301为例。存储器302即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的语音识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音识别方法。存储器302作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音识别方法对应的程序指令/模块(例如,附图9和图10所示的获取模块201、第一确定模块202、第二确定模块203和执行模块204)。处理器301通过运行存储在存储器302中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音识别方法。存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音识别方法的电子设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至语音识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。语音识别方法的电子设备还可以包括:输入装置303和输出装置304。处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图11中以通过总线连接为例。输入装置303可接收输入的数字或字符信息,以及产生与语音识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置304可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。当前第1页1 2 3 
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
热门咨询
tips