HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音控制方法、装置、计算机设备和存储介质与流程

2021-01-28 13:01:57|308|起点商标网
语音控制方法、装置、计算机设备和存储介质与流程

本申请涉及计算机技术领域,特别是涉及一种语音控制方法、装置、计算机设备和存储介质。



背景技术:

随着计算机技术的发展,出现了语音识别技术。语音识别技术,也被称为自动语音识别(automaticspeechrecognition,asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。通过语音识别技术,可控制计算机设备进行相应的业务处理。针对本身未自带语音识别功能的终端,传统的语音控制方法,通常将语音信号通过网络发送到第三方语音识别平台,完成识别后,将识别结果通过网络返回给终端。

然而,传统的语音控制方法,需要依赖网络和第三方语音识别平台,对语音信号的处理时效性差,无法及时进行语音识别和语音控制,从而导致语音控制效率低。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提升语音控制效率的语音控制方法、装置、计算机设备和存储介质。

一种语音控制方法,应用于语音设备,所述语音设备内置有拾音器和语音识别芯片,所述方法包括:

通过所述拾音器获取待识别的语音信号,并将所述语音信号发送至所述语音识别芯片;

通过所述语音识别芯片对所述语音信号进行语音识别处理,得到目标语音识别命令;

获取命令配置文件,并根据所述命令配置文件确定与所述目标语音识别命令对应的目标语音控制命令;

将所述目标语音控制命令发送至与所述语音设备通信连接的终端;所述终端中运行有根据所述命令配置文件生成的操作代码;所述目标语音控制命令,用于指示所述终端基于所述操作代码进行相应的操作处理。

在其中一个实施例中,所述目标语音控制命令包括目标唤醒命令和目标业务命令;所述操作代码包括与所述目标唤醒命令对应的唤醒操作代码,及与所述目标业务命令对应的业务操作代码;所述将所述目标语音控制命令发送至与所述语音设备通信连接的终端,包括:

当所述目标语音控制命令为目标唤醒命令时,将所述目标唤醒命令发送至与所述语音设备通信连接的终端;所述目标唤醒命令,用于指示所述终端在预设时间段内运行所述唤醒操作代码,以开启语音控制功能,并播放语音控制启用信息;

当所述目标语音控制命令为目标业务命令时,将所述目标业务命令发送至与所述语音设备通信连接的终端;所述目标业务命令,用于指示所述终端在所述预设时间段内运行所述业务操作代码,以进行相应的业务处理。

在其中一个实施例中,所述命令配置文件包括初始命令配置文件和目标命令配置文件;所述语音识别芯片中运行有根据初始命令配置文件生成得到的语义识别固件,所述方法还包括:

通过与所述语音设备通信连接的终端,获取语音识别芯片中所运行的语义识别固件对应的当前固件版本信息,并将所述当前固件版本信息与所述终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件对应的最新固件版本信息进行比对;

当所述当前固件版本信息与最新固件版本信息不一致时,通过所述终端将所述最新固件版本信息对应的终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件,重新加载至所述语音识别芯片中,以更新所述语音识别芯片中的语义识别固件。

在其中一个实施例中,所述通过所述语音识别芯片对所述语音信号进行语音识别处理,得到目标语音识别命令,包括:

通过所述语音识别芯片对所述语音信号进行语音特征提取,得到所述语音信号的语音特征序列;

将所述语音特征序列输入至预训练好的语音识别模型;所述语音特征序列,用于指示所述语音识别模型基于所述语音特征序列输出与所述语音信号对应的目标语音识别命令。

在其中一个实施例中,所述根据所述命令配置文件确定与所述目标语音识别命令对应的目标语音控制命令,包括

获取命令配置文件;

确定所述命令配置文件中各候选语音识别命令与各候选语音控制命令之间的命令映射关系;

根据所述命令映射关系,在所述命令配置文件中查找与所述目标语音识别命令对应的所述目标语音控制命令。

在其中一个实施例中,所述语音设备为视频会议中所使用的麦克风;所述与所述语音设备通信连接的终端为视频会议中所使用的终端;所述视频会议中所使用的麦克风通过通用串行总线接口、蓝牙或wifi中任一种方式与所述视频会议中所使用的终端进行通信连接。

在其中一个实施例中,所述语音识别芯片为离线语音识别芯片;所述离线语音识别芯片支持对所述语音信号进行离线语音识别处理。

一种语音控制装置,所述装置包括:

获取模块,用于通过拾音器获取待识别的语音信号,并将所述语音信号发送至语音识别芯片;

识别模块,用于通过所述语音识别芯片对所述语音信号进行语音识别处理,得到目标语音识别命令;

确定模块,用于获取命令配置文件,并根据所述命令配置文件确定与所述目标语音识别命令对应的目标语音控制命令;

发送模块,用于将所述目标语音控制命令发送至与所述语音设备通信连接的终端;所述终端中运行有根据所述命令配置文件生成的操作代码;所述目标语音控制命令,用于指示所述终端基于所述操作代码进行相应的操作处理。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

通过拾音器获取待识别的语音信号,并将所述语音信号发送至语音识别芯片;

通过所述语音识别芯片对所述语音信号进行语音识别处理,得到目标语音识别命令;

获取命令配置文件,并根据所述命令配置文件确定与所述目标语音识别命令对应的目标语音控制命令;

将所述目标语音控制命令发送至与所述语音设备通信连接的终端;所述终端中运行有根据所述命令配置文件生成的操作代码;所述目标语音控制命令,用于指示所述终端基于所述操作代码进行相应的操作处理。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

通过拾音器获取待识别的语音信号,并将所述语音信号发送至语音识别芯片;

通过所述语音识别芯片对所述语音信号进行语音识别处理,得到目标语音识别命令;

获取命令配置文件,并根据所述命令配置文件确定与所述目标语音识别命令对应的目标语音控制命令;

将所述目标语音控制命令发送至与所述语音设备通信连接的终端;所述终端中运行有根据所述命令配置文件生成的操作代码;所述目标语音控制命令,用于指示所述终端基于所述操作代码进行相应的操作处理。

上述语音控制方法、装置、计算机设备和存储介质,通过语音设备内置的拾音器获取待识别的语音信号,并将语音信号发送至语音设备内置的语音识别芯片。通过语音识别芯片对语音信号进行语音识别处理,得到目标语音识别命令。获取命令配置文件,并根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令。将目标语音控制命令发送至与语音设备通信连接的终端。终端中运行有根据命令配置文件生成的操作代码。目标语音控制命令用于指示终端基于操作代码进行相应的操作处理。这样,通过语音设备内置的拾音器和语音识别芯片,以及命令配置文件,可直接确定与语音信号对应的目标语音控制命令并发送给终端进行相应的操作处理,无需依赖网络和第三方语音识别平台,从而提升了语音控制效率。

附图说明

图1为一个实施例中语音控制方法的应用场景图;

图2为一个实施例中语音控制方法的流程示意图;

图3为一个实施例中确定目标语音控制命令步骤的流程示意图;

图4为一个实施例中语音控制装置的结构框图;

图5为另一个实施例中语音控制装置的结构框图;

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的语音控制方法,可以应用于如图1所示的应用环境中。该应用环境包括语音设备102和终端104,语音设备102中内置有拾音器1021和语音识别芯片1022。语音设备102与终端104可进行连接通信。其中,语音设备具体可包括麦克风。终端104具体可以包括台式终端或移动终端。移动终端具体可以包括手机、平板电脑和笔记本电脑等中的至少一种。本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案相关的部分场景,并不构成对本申请方案应用环境的限定。

语音设备102通过拾音器1021获取待识别的语音信号,并将语音信号发送至语音识别芯片1022。语音设备102通过语音识别芯片1022对语音信号进行语音识别处理,得到目标语音识别命令。语音设备102获取命令配置文件,并根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令。语音设备102将目标语音控制命令发送至与语音设备102通信连接的终端104。终端104中运行有根据命令配置文件生成的操作代码。目标语音控制命令,用于指示终端104基于操作代码进行相应的操作处理。

在一个实施例中,如图2所示,提供了一种语音控制方法,以该方法应用于图1中的语音设备102为例进行说明,包括以下步骤:

s202,通过拾音器获取待识别的语音信号,并将语音信号发送至语音识别芯片。

具体地,语音设备中内置有具有拾音功能的拾音器,以及具有语音识别功能的语音识别芯片。其中,拾音器对语音的拾取有范围限定。用户可在语音设备的拾音器的拾音范围内发出语音信号,语音设备可通过内置的拾音器获取用户发出的待识别的语音信号,并拾取到的语音信号通过拾音器发送至语音识别芯片。

在一个实施例中,语音设备具体可以是麦克风,或者是其他具有拾音功能和语音识别功能的电子设备。

s204,通过语音识别芯片对语音信号进行语音识别处理,得到目标语音识别命令。

其中,目标语音识别命令,是由用户输入的语音信号通过语音识别芯片转换得到的、且计算机设备(比如,语音设备和终端等)能够识别的计算机语言。

在一个实施例中,语音识别芯片为离线语音识别芯片;离线语音识别芯片支持对语音信号进行离线语音识别处理。

在一个实施例中,离线语音识别芯片具体可以是voitist611(音旋风611)、nrk10和wel1803-sr等。通过离线语音识别芯片,用户可以在语音设备不联网的情况下,通过说出简单命令词的方式,通过语音设备有效控制目标终端,执行既定的操作处理。本实施例对离线语音识别芯片不做限定。

上述实施例中,通过离线语音识别芯片对语音信号进行语音识别处理,可实现语音识别脱离网络,避免语音识别对网络的依赖,使得语音识别更加便捷灵活。

s206,获取命令配置文件,并根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令。

其中,命令配置文件是配置有各语音识别命令和各语音控制命令之间映射关系的文件。语音控制命令是控制终端执行相应操作处理的命令。目标语音控制命令是在命令配置文件中与目标语音识别命令存在映射关系的命令。

具体地,根据实际控制需求,研发人员可通过终端生成命令配置文件,通过终端将配置文件发送至语音设备。语音设备可获取命令配置文件,并根据命令配置文件直接确定与目标语音识别命令对应的目标语音控制命令。

s208,将目标语音控制命令发送至与语音设备通信连接的终端;终端中运行有根据命令配置文件生成的操作代码;目标语音控制命令,用于指示终端基于操作代码进行相应的操作处理。

其中,操作代码是用于控制终端执行与目标语音控制命令对应操作的代码。

具体地,终端可基于命令配置文件生成对应的操作代码,并在终端中运行根据命令配置文件生成的操作代码。终端可与语音设备进行通信连接,实现语音设备与终端之间的交互。语音设备在确定与目标语音识别命令对应的目标语音控制命令之后,可将目标语音控制命令发送至与语音设备通信连接的终端。终端可根据目标语音控制命令和对应的操作代码进行相应的操作处理。

上述语音控制方法中,通过语音设备内置的拾音器获取待识别的语音信号,并将语音信号发送至语音设备内置的语音识别芯片。通过语音识别芯片对语音信号进行语音识别处理,得到目标语音识别命令。获取命令配置文件,并根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令。将目标语音控制命令发送至与语音设备通信连接的终端。终端中运行有根据命令配置文件生成的操作代码。目标语音控制命令用于指示终端基于操作代码进行相应的操作处理。这样,通过语音设备内置的拾音器和语音识别芯片,以及命令配置文件,可直接确定与语音信号对应的目标语音控制命令并发送给终端进行相应的操作处理,无需依赖网络和第三方语音识别平台,从而提升了语音控制效率。

以及,本申请实现了语音识别与业务操作分离,进而可针对不同使用场景,在语音设备中内置与使用场景相适应的语音识别芯片,可扩展性强。

在一个实施例中,目标语音控制命令包括目标唤醒命令和目标业务命令;操作代码包括与目标唤醒命令对应的唤醒操作代码,及与目标业务命令对应的业务操作代码。步骤s208,也就是将目标语音控制命令发送至与语音设备通信连接的终端的步骤,具体包括:当目标语音控制命令为目标唤醒命令时,将目标唤醒命令发送至与语音设备通信连接的终端;目标唤醒命令,用于指示终端在预设时间段内运行唤醒操作代码,以开启语音控制功能,并播放语音控制启用信息;当目标语音控制命令为目标业务命令时,将目标业务命令发送至与语音设备通信连接的终端;目标业务命令,用于指示终端在预设时间段内运行业务操作代码,以进行相应的业务处理。

其中,目标唤醒命令是用于指示终端开启语音控制功能的命令。目标业务命令是用于指示终端进行相应的业务处理的命令。唤醒操作代码是用于控制终端开启语音控制功能的代码。业务操作代码是用于控制终端进行相应的业务处理的代码。

具体地,语音设备可对目标语音控制命令的类型进行判断。当语音设备判断出目标语音控制命令为目标唤醒命令(比如,小捷小捷)时,语音设备可将目标唤醒命令发送至与语音设备通信连接的终端。进而,终端可根据目标唤醒命令在预设时间段内运行唤醒操作代码,以开启语音控制功能,并播放语音控制启用信息。当语音设备判断出目标语音控制命令为目标业务命令时,语音设备可将目标业务命令发送至与语音设备通信连接的终端。进而,终端可根据目标业务命令在预设时间段内运行业务操作代码,以进行相应的业务处理。比如,打开特定的文件、开启终端的屏幕录制和放大指定图像等。

在一个实施例中,终端可在开启语音控制功能之后,生成语音控制启用信息。终端播放控制启用信息具体可以通过终端本身自带的播放器进行播放。终端也可以在开启语音控制功能之后,将语音控制启用信息发送至与终端通信连接的播放设备。播放设备可播放接收到的语音控制启用信息。

在一个实施例中,终端可在开启语音控制功能之后,可在终端的展示界面上,展示与命令配置文件对应的命令映射关系列表。用户可以观看终端所展示的命令映射关系列表,并生成对应的语音信号,以帮助用户通过语音信号准确控制终端。

上述实施例中,通过判断目标语音控制命令为目标唤醒命令还是目标业务命令,从而运行各自分别对应的操作代码,以执行对应的操作处理。这样,使语音控制更加灵活,从而进一步提升语音控制效率。

在一个实施例中,命令配置文件包括初始命令配置文件和目标命令配置文件;语音识别芯片中运行有根据初始命令配置文件生成得到的语义识别固件。语音控制方法还包括:通过与语音设备通信连接的终端,获取语音识别芯片中所运行的语义识别固件对应的当前固件版本信息,并将当前固件版本信息与终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件对应的最新固件版本信息进行比对;当当前固件版本信息与最新固件版本信息不一致时,通过终端将最新固件版本信息对应的终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件,重新加载至语音识别芯片中,以更新语音识别芯片中的语义识别固件。

其中,初始命令配置文件是更新之前的命令配置文件。目标命令配置文件是更新之后的命令配置文件。

具体地,语音识别芯片中运行有根据命令配置文件生成得到的语义识别固件。语义识别固件可携带固件版本信息。终端中存储有根据目标命令配置文件生成得到的最新的语义识别固件。语音设备可通过与语音设备通信连接的终端,获取语音识别芯片中所运行的语义识别固件对应的当前固件版本信息,并将当前固件版本信息与终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件对应的最新固件版本信息进行比对。当当前固件版本信息与最新固件版本信息不一致时,语音设备可通过终端将最新固件版本信息对应的终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件,重新加载至语音识别芯片中,以更新语音识别芯片中的语义识别固件。

上述实施例中,通过将当前固件版本信息与终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件对应的最新固件版本信息进行比对。当判断语音识别芯片中运行的语义识别固件不是最新版本时,及时更新语义识别固件,以保证语音识别芯片中运行的语义识别固件的版本是最新的版本,以满足语音控制业务升级。

在一个实施例中,步骤s204,也就是通过语音识别芯片对语音信号进行语音识别处理,得到目标语音识别命令的步骤,具体包括:通过语音识别芯片对语音信号进行语音特征提取,得到语音信号的语音特征序列;将语音特征序列输入至预训练好的语音识别模型;语音特征序列,用于指示语音识别模型基于语音特征序列输出与语音信号对应的目标语音识别命令。

其中,语音特征序列是能够承载语音信号的特征的序列。

具体地,语音设备可通过语音识别芯片对拾取到的语音信号进行语音特征提取,得到语音信号对应的语音特征序列。语音识别可将提取的语音特征序列输入至预训练好的语音识别模型。语音识别模型可基于输入的语音特征序列进行识别处理,输出与语音信号对应的目标语音识别命令。

上述实施例中,通过语音特征提取,并将提取的语音特征序列输入至预训练好的语音识别模型,以完成语音识别处理。这样,提升了语音识别效率。

在一个实施例中,如图3所示,步骤s206,也就是根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令的步骤,具体包括以下步骤:

s302,获取命令配置文件。

在一个实施例中,命令配置文件具体可以是命令映射列表。命令映射列表中可设置语音识别命令与语音控制命令之间的映射关系。命令映射列表可如表1所示:

表1

s304,确定命令配置文件中各候选语音识别命令与各候选语音控制命令之间的命令映射关系。

其中,候选语音识别命令是预先设置在命令配置文件中的至少一个的语音识别命令。候选语音控制命令是预先配置在命令配置文件中的至少一个的语音控制命令。

具体地,命令配置文件中预先设置有至少一个的候选语音识别命令和至少一个的语音控制命令,且各候选语音识别命令与各候选语音控制命令之间存在对应的命令映射关系。语音设置可直接确定命令配置文件中各候选语音识别命令与各候选语音控制命令之间的命令映射关系。

可以理解,在命令配置文件中,一个各候选语音控制命令可只与一个候选语音识别命令对应。也可以是一个各候选语音控制命令与多个候选语音识别命令对应。

s306,根据命令映射关系,在命令配置文件中查找与目标语音识别命令对应的目标语音控制命令。

在一个实施例中,命令配置文件中配置了目标语音识别命令和目标语音控制命令之间的命令映射关系。语音设备可以根据命令映射关系,在命令配置文件中查找与目标语音识别命令对应的目标语音控制命令。

在一个实施例中,语音设备也可以支持语义识别。即,命令配置文件中配置了目标语音识别命令中的关键字和目标语音控制命令之间的命令映射关系。根据目标语音控制命令中的关键字和命令映射关系,进行目标语音识别命令匹配。

上述实施例中,通过命令配置文件中各候选语音识别命令与各候选语音控制命令之间的命令映射关系,在命令配置文件中查找与目标语音识别命令对应的目标语音控制命令。这样,可提升目标语音控制命令的查找效率和准确率。

在一个实施例中,语音设备为视频会议中所使用的麦克风;与语音设备通信连接的终端为视频会议中所使用的终端;视频会议中所使用的麦克风通过通用串行总线接口(universalserialbus,usb)、蓝牙或wifi中任一种方式与视频会议中所使用的终端进行通信连接。

在一个实施例中,语音设备具体可以是麦克风,麦克风中内置有拾音器和离线语音识别芯片。麦克风可通过usb、蓝牙或wifi(wirelessfidelity,无线网络)中任一种方式与终端进行通信连接。用户可在麦克风的拾音范围之内发出语音信号,麦克风可通过内置的拾音器获取用户发出的语音信号,并将语音信号发送至麦克风内置的离线语音识别芯片。离线语音识别芯片可将语音信号进行离线语音识别处理,得到语音识别命令。进而再根据麦克风获取的命令配置文件的命令映射关系,确定与语音识别命令对应的语音控制命令。麦克风可将语音控制命令发送至终端。终端可根据语音控制命令运行对应的操作代码,以实现对应的操作处理。

上述实施例中,通过串行总线接口、蓝牙或wifi中任一种方式与视频会议中所使用的终端进行通信连接,使得语音设备与终端之间的通信连接更为灵活。

应该理解的是,虽然图2和图3的各个步骤按照顺序依次显示,但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图4所示,提供了一种语音控制装置400,包括:获取模块401、识别模块402、确定模块403和发送模块404,其中:

获取模块401,用于通过拾音器获取待识别的语音信号,并将语音信号发送至语音识别芯片。

识别模块402,用于通过语音识别芯片对语音信号进行语音识别处理,得到目标语音识别命令。

确定模块403,用于获取命令配置文件,并根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令。

发送模块404,用于将目标语音控制命令发送至与语音设备通信连接的终端;终端中运行有根据命令配置文件生成的操作代码;目标语音控制命令,用于指示终端基于操作代码进行相应的操作处理。

在一个实施例中,发送模块404还用于当目标语音控制命令为目标唤醒命令时,将目标唤醒命令发送至与语音设备通信连接的终端;目标唤醒命令,用于指示终端在预设时间段内运行唤醒操作代码,以开启语音控制功能,并播放语音控制启用信息;当目标语音控制命令为目标业务命令时,将目标业务命令发送至与语音设备通信连接的终端;目标业务命令,用于指示终端在预设时间段内运行业务操作代码,以进行相应的业务处理。

在一个实施例中,识别模块402还用于通过语音识别芯片对语音信号进行语音特征提取,得到语音信号的语音特征序列;将语音特征序列输入至预训练好的语音识别模型;语音特征序列,用于指示语音识别模型基于语音特征序列输出与语音信号对应的目标语音识别命令。

在一个实施例中,确定模块403还用于获取命令配置文件;确定命令配置文件中各候选语音识别命令与各候选语音控制命令之间的命令映射关系;根据命令映射关系,在命令配置文件中查找与目标语音识别命令对应的目标语音控制命令。

在一个实施例中,语音设备为视频会议中所使用的麦克风;与语音设备通信连接的终端为视频会议中所使用的终端;视频会议中所使用的麦克风通过通用串行总线接口、蓝牙或wifi中任一种方式与视频会议中所使用的终端进行通信连接。

在一个实施例中,语音识别芯片为离线语音识别芯片;离线语音识别芯片支持对语音信号进行离线语音识别处理。

参考图5,在一个实施例中,语音控制装置400还包括:更新模块405,其中:

更新模块405,用于通过与语音设备通信连接的终端,获取语音识别芯片中所运行的语义识别固件对应的当前固件版本信息,并将当前固件版本信息与终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件对应的最新固件版本信息进行比对;当当前固件版本信息与最新固件版本信息不一致时,通过终端将最新固件版本信息对应的终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件,重新加载至语音识别芯片中,以更新语音识别芯片中的语义识别固件。

上述语音控制装置,上述语音控制方法中,通过语音设备内置的拾音器获取待识别的语音信号,并将语音信号发送至语音设备内置的语音识别芯片。通过语音识别芯片对语音信号进行语音识别处理,得到目标语音识别命令。获取命令配置文件,并根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令。将目标语音控制命令发送至与语音设备通信连接的终端。终端中运行有根据命令配置文件生成的操作代码。目标语音控制命令用于指示终端基于操作代码进行相应的操作处理。这样,通过语音设备内置的拾音器和语音识别芯片,以及命令配置文件,可直接确定与语音信号对应的目标语音控制命令并发送给终端进行相应的操作处理,无需依赖网络和第三方语音识别平台,从而提升了语音控制效率。

以及,本申请实现了语音识别与业务操作分离,进而可针对不同使用场景,在语音设备中内置与使用场景相适应的语音识别芯片,可扩展性强。

关于语音控制装置的具体限定可以参见上文中对于语音控制方法的限定,在此不再赘述。上述语音控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是上述图1中的语音设备102,其内部结构图可以如图6所示。该计算机设备包括通过系统总线通信连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络通信连接通信。该计算机程序被处理器执行时以实现一种语音控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

通过拾音器获取待识别的语音信号,并将语音信号发送至语音识别芯片;

通过语音识别芯片对语音信号进行语音识别处理,得到目标语音识别命令;

获取命令配置文件,并根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令;

将目标语音控制命令发送至与语音设备通信连接的终端;终端中运行有根据命令配置文件生成的操作代码;目标语音控制命令,用于指示终端基于操作代码进行相应的操作处理。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

当目标语音控制命令为目标唤醒命令时,将目标唤醒命令发送至与语音设备通信连接的终端;目标唤醒命令,用于指示终端在预设时间段内运行唤醒操作代码,以开启语音控制功能,并播放语音控制启用信息;

当目标语音控制命令为目标业务命令时,将目标业务命令发送至与语音设备通信连接的终端;目标业务命令,用于指示终端在预设时间段内运行业务操作代码,以进行相应的业务处理。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

通过与语音设备通信连接的终端,获取语音识别芯片中所运行的语义识别固件对应的当前固件版本信息,并将当前固件版本信息与终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件对应的最新固件版本信息进行比对;

当当前固件版本信息与最新固件版本信息不一致时,通过终端将最新固件版本信息对应的终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件,重新加载至语音识别芯片中,以更新语音识别芯片中的语义识别固件。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

通过语音识别芯片对语音信号进行语音特征提取,得到语音信号的语音特征序列;

将语音特征序列输入至预训练好的语音识别模型;语音特征序列,用于指示语音识别模型基于语音特征序列输出与语音信号对应的目标语音识别命令。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取命令配置文件;

确定命令配置文件中各候选语音识别命令与各候选语音控制命令之间的命令映射关系;

根据命令映射关系,在命令配置文件中查找与目标语音识别命令对应的目标语音控制命令。

在一个实施例中,语音设备为视频会议中所使用的麦克风;与语音设备通信连接的终端为视频会议中所使用的终端;视频会议中所使用的麦克风通过通用串行总线接口、蓝牙或wifi中任一种方式与视频会议中所使用的终端进行通信连接。

在一个实施例中,语音识别芯片为离线语音识别芯片;离线语音识别芯片支持对语音信号进行离线语音识别处理。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

通过拾音器获取待识别的语音信号,并将语音信号发送至语音识别芯片;

通过语音识别芯片对语音信号进行语音识别处理,得到目标语音识别命令;

获取命令配置文件,并根据命令配置文件确定与目标语音识别命令对应的目标语音控制命令;

将目标语音控制命令发送至与语音设备通信连接的终端;终端中运行有根据命令配置文件生成的操作代码;目标语音控制命令,用于指示终端基于操作代码进行相应的操作处理。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

当目标语音控制命令为目标唤醒命令时,将目标唤醒命令发送至与语音设备通信连接的终端;目标唤醒命令,用于指示终端在预设时间段内运行唤醒操作代码,以开启语音控制功能,并播放语音控制启用信息;

当目标语音控制命令为目标业务命令时,将目标业务命令发送至与语音设备通信连接的终端;目标业务命令,用于指示终端在预设时间段内运行业务操作代码,以进行相应的业务处理。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

通过与语音设备通信连接的终端,获取语音识别芯片中所运行的语义识别固件对应的当前固件版本信息,并将当前固件版本信息与终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件对应的最新固件版本信息进行比对;

当当前固件版本信息与最新固件版本信息不一致时,通过终端将最新固件版本信息对应的终端中所存储的、且根据目标命令配置文件生成得到的语义识别固件,重新加载至语音识别芯片中,以更新语音识别芯片中的语义识别固件。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

通过语音识别芯片对语音信号进行语音特征提取,得到语音信号的语音特征序列;

将语音特征序列输入至预训练好的语音识别模型;语音特征序列,用于指示语音识别模型基于语音特征序列输出与语音信号对应的目标语音识别命令。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取命令配置文件;

确定命令配置文件中各候选语音识别命令与各候选语音控制命令之间的命令映射关系;

根据命令映射关系,在命令配置文件中查找与目标语音识别命令对应的目标语音控制命令。

在一个实施例中,语音设备为视频会议中所使用的麦克风;与语音设备通信连接的终端为视频会议中所使用的终端;视频会议中所使用的麦克风通过通用串行总线接口、蓝牙或wifi中任一种方式与视频会议中所使用的终端进行通信连接。

在一个实施例中,语音识别芯片为离线语音识别芯片;离线语音识别芯片支持对语音信号进行离线语音识别处理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips