一种语音指令识别方法及相关装置与流程

2021-01-28 13:01:22|

349|

起点商标网

本申请涉及自动控制技术领域，更具体地说，涉及一种语音指令识别方法及相关装置。

背景技术：

随着物联网(theinternetofthings，iot)和人工智能(artificialintelligence，ai)技术的不断发展，万物互联已经逐渐被研究人员变为现实。

在机动车辆的控制系统中，语音控制系统已经成为各类机动车辆的标准配置，语音控制无需驾驶员转移实现和手动操作，具有安全性高，且操作便捷的特点。

但是在现有技术中，各类车载终端对于用户的语音识别准确率较低或语音识别速度较慢，给用户的使用体验带来了负面影响。

技术实现要素：

为解决上述技术问题，本申请提供了一种语音指令识别方法及相关装置，以解决对于语音指令的识别速度慢和识别准确率低的问题。

为实现上述技术目的，本申请实施例提供了如下技术方案：

一种语音指令识别系统，包括：车载终端和云服务器；其中，

所述车载终端包括：语音采集模块、语音识别模块、正则识别模块和控制模块；其中，

所述语音采集模块，用于获取语音信息；

所述语音识别模块，用于将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器；

所述正则识别模块，用于根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令，如果是，则将与所述文字信息匹配的第一类指令发送给所述控制模块，以使所述控制模块执行与所述文字信息匹配的第一类指令，如果否，则将所述文字信息发送给所述云服务器；所述预设数据库中预先存储有所述第一类指令与所述文字信息的对应关系；

所述云服务器，用于对接收的文字信息或所述语音信息进行意图识别，以获取所述文字信息中包含的第二类指令，并将所述文字信息或所述语音信息中包含的第二类指令发送给所述控制模块，以使所述控制模块执行所述文字信息或所述语音信息中包含的第二类指令。

可选的，所述语音识别模块包括：预先训练的语音识别模型；

所述预先训练的语音识别模型，用于将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器。

可选的，所述预先训练的语音识别模型包括隐马尔可夫模型、时延神经网络或循环神经网络。

可选的，所述正则识别模块中预先存储有多个逻辑字符串。

可选的，所述正则识别模块根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令具体用于，将所述文字信息中包含的文字与所述逻辑字符串进行匹配，当与所述文字信息中包含的文字相匹配的逻辑字符串构成所述预设数据库中的第一类指令时，判定所述预设数据库中存在与所述文字信息匹配的第一类指令，当与所述文字信息中包含的文字相匹配的逻辑字符串无法构成所述预设数据库中的任一第一类指令时，判定所述预设数据库中不存在与所述文字信息匹配的第一类指令。

可选的，所述云服务器包括预先训练的意图识别模型。

可选的，所述预先训练的意图识别模型包括：预先训练的深度神经网络或预先训练的循环神经网络。

一种语音指令识别方法，基于机动车辆的车载终端实现，所述语音指令识别方法包括：

获取语音信息；

将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器；

根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令，如果是，则执行与所述文字信息匹配的第一类指令，如果否，则将所述文字信息发送给云服务器，以使所述云服务器对接收的文字信息或所述语音信息进行意图识别，以获取所述文字信息或所述语音信息中包含的第二类指令，并将所述第二类指令传回，以使所述车载终端执行所述第二类指令。

可选的，所述根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令包括：

将所述文字信息中包含的文字与预先存储于所述车载终端的逻辑字符串进行匹配，当与所述文字信息中包含的文字相匹配的逻辑字符串构成所述预设数据库中的第一类指令时，判定所述预设数据库中存在与所述文字信息匹配的第一类指令，当与所述文字信息中包含的文字相匹配的逻辑字符串无法构成所述预设数据库中的任一第一类指令时，判定所述预设数据库中不存在与所述文字信息匹配的第一类指令。

一种语音指令识别系统，包括存储器和处理器；

所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，所述程序代码用于执行上述任一项所述的语音指令识别方法。

一种车载终端，包括存储器和处理器；

所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，所述程序代码用于执行上述任一项所述的语音指令识别方法。

一种存储介质，所述存储介质上存储有程序代码，所述程序代码被执行时实现上述任一项所述的语音指令识别方法。

从上述技术方案可以看出，本申请实施例提供了一种语音指令识别方法及相关装置，其中的语音指令识别系统由车载终端和云服务器构成，所述车载终端中的语音采集模块、语音识别模块、正则识别模块和控制模块相互配合，实现了对于用户的语音信息向文字信息的转换，以及对文字信息中包含的第一类指令的识别和控制执行，即实现了对于语音信息中包含的简单指令的车载识别和执行。而对于在车载终端内无法准确识别的文字信息，则上传给所述云服务器，以利用云服务器的强大算力实现对复杂的第二类指令的识别，实现了对于语音指令的准确识别。

该系统具有较为灵活地适应复杂网络条件的特征。在网络条件较差的情况下，由于上传的信息为容量相对较小的文字信息，有利于降低对于车载终端的网络通信速率要求，有利于降低车载终端与云服务器之间的通信时间，且将较为复杂的第二类指令放在云服务器中识别，有利于降低识别时间，提升语音识别速度。同时，在网络情况较好并且本地识别语音出现困难(受制于车载终端的较低的算力)的情况(由系统进行智能判断)下，可以将采集到的语音信息整体发往云端服务器进行识别，从而达到最优化的指令识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请的一个实施例提供的一种语音指令识别系统的结构示意图；

图2为本申请的一个实施例提供的一种语音指令识别方法的流程示意图；

图3为本申请的另一个实施例提供的一种语音指令识别方法的流程示意图。

具体实施方式

正如背景技术中所述，现有技术中各类车载终端对于用户的语音识别准确率较低或语音识别速度较慢，具体地，现有技术中的各类车载终端如果将语音识别的过程全部放在车载终端，则一方面有可能由于车载终端的运算能力较差，而导致只能设置简单的识别模型，导致语音指令识别精度不高或识别速度较慢。另一方面，如果将较为复杂模型内置在车载终端中，又会对车载终端的运算能力提出过高要求，导致车载终端的成本过高。

有鉴于此，本申请实施例提供了一种语音指令识别系统，包括：车载终端和云服务器；其中，

所述车载终端包括：语音采集模块、语音识别模块、正则识别模块和控制模块；其中，

所述语音采集模块，用于获取语音信息；

所述语音识别模块，用于将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器；

所述云服务器，用于对接收的文字信息进行意图识别，以获取所述文字信息中包含的第二类指令，并将所述文字信息中包含的第二类指令发送给所述控制模块，以使所述控制模块执行所述文字信息中包含的第二类指令。

所述语音指令识别系统由车载终端和云服务器构成，所述车载终端中的语音采集模块、语音识别模块、正则识别模块和控制模块相互配合，实现了对于用户的语音信息向文字信息的转换，以及对文字信息中包含的第一类指令的识别和控制执行，即实现了对于语音信息中包含的简单指令的车载识别和执行。而对于在车载终端内无法准确识别的文字信息，则上传给所述云服务器，以利用云服务器的强大算力实现对复杂的第二类指令的识别，实现了对于语音指令的准确识别。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种语音指令识别系统，如图1所示，包括：车载终端10和云服务器20；其中，

所述车载终端10包括：语音采集模块11、语音识别模块12、正则识别模块13和控制模块14；其中，

所述语音采集模块11，用于获取语音信息；

所述语音识别模块12，用于将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器；

所述正则识别模块13，用于根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令，如果是，则将与所述文字信息匹配的第一类指令发送给所述控制模块14，以使所述控制模块14执行与所述文字信息匹配的第一类指令，如果否，则将所述文字信息或语音信息发送给所述云服务器20；所述预设数据库中预先存储有所述第一类指令与所述文字信息的对应关系；

所述云服务器20，用于对接收的文字信息或语音信息进行意图识别，以获取所述文字信息或语音信息中包含的第二类指令，并将所述文字信息或语音信息中包含的第二类指令发送给所述控制模块14，以使所述控制模块14执行所述文字信息或语音信息中包含的第二类指令。

所述语音指令识别系统由车载终端10和云服务器20构成，所述车载终端10中的语音采集模块11、语音识别模块12、正则识别模块13和控制模块14相互配合，实现了对于用户的语音信息向文字信息的转换，以及对文字信息中包含的第一类指令的识别和控制执行，即实现了对于语音信息中包含的简单指令的车载识别和执行。而对于在车载终端10内无法准确识别的文字信息，则上传给所述云服务器20，以利用云服务器20的强大算力实现对复杂的第二类指令的识别，实现了对于语音指令的准确识别。

该系统具有较为灵活地适应复杂网络条件的特征。在网络条件较差的情况下，由于上传的信息为容量相对较小的文字信息，有利于降低对于车载终端10的网络通信速率要求，有利于降低车载终端10与云服务器20之间的通信时间，且将较为复杂的第二类指令放在云服务器20中识别，有利于降低识别时间，提升语音识别速度。同时，在网络情况较好并且本地识别语音出现困难(受制于车载终端的较低的算力)的情况下，可以将采集到的语音信息整体发往云端服务器进行识别，从而达到最优化的指令识别效果。

对于所述语音识别模块12，所述语音识别模块12可以包括预先训练的语音识别模型。

所述预先训练的语音识别模型，用于将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器。

可选的，所述预先训练的语音识别模型包括隐马尔可夫(hiddenmarkovmodel，hmm)模型、时延神经网络(timedelayneuralnetwork，tdnn)或循环神经网络(recurrentneuralnetwork，rnn)。优选的，所述预先训练的语音识别模型为隐马尔可夫模型，所述隐马尔可夫模型的算法比较简单直观，易于训练，在训练和运行的时候占用资源较少，有利于提升语音识别速度，进一步降低语音指令识别的总时长。

对于所述正则识别模块13，可选的，所述正则识别模块13中预先存储有多个逻辑字符串。

在正则识别模块13的工作过程中，可选的，所述正则识别模块13根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令具体用于，将所述文字信息中包含的文字与所述逻辑字符串进行匹配，当与所述文字信息中包含的文字相匹配的逻辑字符串构成所述预设数据库中的第一类指令时，判定所述预设数据库中存在与所述文字信息匹配的第一类指令，当与所述文字信息中包含的文字相匹配的逻辑字符串无法构成所述预设数据库中的任一第一类指令时，判定所述预设数据库中不存在与所述文字信息匹配的第一类指令。

具体地，所述正则识别模块13中预先存储的多个逻辑字符串用于获取所述文字信息中包含的与所述逻辑字符串相匹配的文字，例如所述逻辑字符串包括“打开”“导航”“音乐”“雨刷”“关闭”“提高”“调高”“温度”等字符串，当所述文字信息中包含任一上述字符串时，认定包含的字符串与所述文字信息相匹配。假设与某一文字信息相匹配的逻辑字符串包括“打开”“导航”，这两个逻辑字符串可以构成所述预设数据库中名称为“打开导航”的第一类指令，则可认定所述文字信息与名称为“打开导航”的第一类指令相匹配。

对于所述云服务器20，可选的，所述云服务器20中可包括预先训练的意图识别模型。

所述预先训练的意图识别模型包括但不限于：预先训练的深度神经网络(deepneuralnetworks)或预先训练的循环神经网络。

所述深度神经网络和循环神经网络的训练过程通常包括训练样本的获取，模型的建立和利用训练样本对模型的训练，由于具体训练过程已为本领域技术人员所熟知，本申请在此不做赘述。

下面对本申请实施例提供的语音指令识别方法进行描述，下文描述的语音指令识别方法可与上文描述的语音指令识别系统相互对应参照。

相应的，本申请实施例还提供了一种语音指令识别方法，如图2所示，基于机动车辆的车载终端实现，所述语音指令识别方法包括：

s101：获取语音信息；

s102：将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器；

s103：根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令，如果是，则执行与所述文字信息匹配的第一类指令，如果否，则将所述文字信息发送给云服务器，以使所述云服务器对接收的文字信息或语音信息进行意图识别，以获取所述文字信息或语音信息中包含的第二类指令，并将所述第二类指令传回，以使所述车载终端执行所述第二类指令。

在所述语音指令识别过程中，步骤s101-s103相互配合，实现了对于用户的语音信息向文字信息的转换，以及对文字信息中包含的第一类指令的识别和控制执行，即实现了对于语音信息中包含的简单指令的车载识别和执行。而对于在车载终端内无法准确识别的文字信息，则上传给所述云服务器，以利用云服务器的强大算力实现对复杂的第二类指令的识别，实现了对于语音指令的准确识别。

由于上传的信息为容量相对较小的文字信息，有利于降低对于车载终端的网络通信速率要求，有利于降低车载终端与云服务器之间的通信时间，且将较为复杂的第二类指令放在云服务器中识别，有利于降低识别时间，提升语音识别速度。

可选的，参考图3，所述根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令包括：

s1031：将所述文字信息中包含的文字与预先存储于所述车载终端的逻辑字符串进行匹配，当与所述文字信息中包含的文字相匹配的逻辑字符串构成所述预设数据库中的第一类指令时，判定所述预设数据库中存在与所述文字信息匹配的第一类指令，当与所述文字信息中包含的文字相匹配的逻辑字符串无法构成所述预设数据库中的任一第一类指令时，判定所述预设数据库中不存在与所述文字信息匹配的第一类指令。

具体地，所述车载终端中预先存储的多个逻辑字符串用于获取所述文字信息中包含的与所述逻辑字符串相匹配的文字，例如所述逻辑字符串包括“打开”“导航”“音乐”“雨刷”“关闭”“提高”“调高”“温度”等字符串，当所述文字信息中包含任一上述字符串时，认定包含的字符串与所述文字信息相匹配。假设与某一文字信息相匹配的逻辑字符串包括“打开”“导航”，这两个逻辑字符串可以构成所述预设数据库中名称为“打开导航”的第一类指令，则可认定所述文字信息与名称为“打开导航”的第一类指令相匹配。

对于所述云服务器，可选的，所述云服务器中可包括预先训练的意图识别模型。

所述预先训练的意图识别模型包括但不限于：预先训练的深度神经网络(deepneuralnetworks)(深度神经网络可以训练用来识别文字中的意图指令也可以用来识别语音中的意图指令，但是用于识别语音或者文字的两种模型需要分别训练)或预先训练的循环神经网络(循环神经网络只可以用来识别语音中的意图指令)。

相应的，本申请实施例还提供了一种存储介质，所述存储介质上存储有适于处理器执行的程序代码，所述程序代码用于：

获取语音信息；

将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器；

根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令，如果是，则执行与所述文字信息匹配的第一类指令，如果否，则将所述文字信息发送给云服务器，以使所述云服务器对接收的文字信息或语音信息进行意图识别，以获取所述文字信息或语音信息中包含的第二类指令，并将所述第二类指令传回，以使所述车载终端执行所述第二类指令。

相应的，本申请实施例还提供了一种语音指令识别系统，包括存储器和处理器；

所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，所述程序代码用于：

获取语音信息；

将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器；

根据所述文字信息查询预设数据库，判断所述预设数据库中是否存在与所述文字信息匹配的第一类指令，如果是，则执行与所述文字信息匹配的第一类指令，如果否，则将所述文字信息或语音信息发送给云服务器，以使所述云服务器对接收的文字信息或语音信息进行意图识别，以获取所述文字信息或语音信息中包含的第二类指令，并将所述第二类指令传回，以使所述车载终端执行所述第二类指令。

相应的，本申请实施例还提供一种车载终端，包括存储器和处理器；

所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，所述程序代码用于：

获取语音信息；

将所述语音信息转换为文字信息，并在所述语音信息转换失败时，将所述语音信息发送给所述云服务器；

综上所述，本申请实施例提供了一种语音指令识别方法及相关装置，其中的语音指令识别系统由车载终端和云服务器构成，所述车载终端中的语音采集模块、语音识别模块、正则识别模块和控制模块相互配合，实现了对于用户的语音信息向文字信息的转换，以及对文字信息中包含的第一类指令的识别和控制执行，即实现了对于语音信息中包含的简单指令的车载识别和执行。而对于在车载终端内无法准确识别的文字信息，则上传给所述云服务器，以利用云服务器的强大算力实现对复杂的第二类指令的识别，实现了对于语音指令的准确识别。

本说明书中各实施例中记载的特征可以相互替换或者组合，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。