车载APP的语音控制方法和装置与流程

2021-01-28 17:01:14|

387|

起点商标网

本发明属于智能车载技术领域，尤其涉及车载app的语音控制方法和装置。

背景技术：

现有技术中，对于车载app实现语音功能通常采用以下方案：车载app提供sdk(softwaredevelopmentkit，软件开发工具包)，然后语音开发者语音集成相关功能。

发明人在实现本申请的过程中发现现有技术的方案至少存在以下缺陷：该方式需要车载app提供接口给语音开发者，而并不是所有的车载app都能提供接口。并且，即使所有的车载app都能提供sdk，通常还需要采取逐个app对接的方式实现，该实现方式有一定的技术难度，还需要修改安卓系统的源码来适配。

技术实现要素：

本发明实施例提供一种车载app的语音控制方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种车载app的语音控制方法，包括：响应于车载app启动，获取所述车载app的显示界面上的至少一个可操控区域；解析得到与所述至少一个可操控区域对应的关键文字以及与所述至少一个可操控区域对应的坐标信息；响应于用户的语音指令，对所述语音指令进行语音识别获得对应的文本指令；对所述文本指令进行语义分析，基于所述语义分析的结果判断所述文本指令是否与所述至少一个可操控区域的关键文字匹配；若所述文本指令与任一可操控区域的关键文字匹配，获取所述界面上的文字的坐标信息；以及至少基于所述坐标信息模拟对所述显示界面进行操控。

第二方面，本发明实施例提供一种车载app的语音控制装置，包括：可操控区域获取模块，配置为响应于车载app启动，获取所述车载app的显示界面上的至少一个可操控区域；解析模块，配置为解析得到与所述至少一个可操控区域对应的关键文字以及与所述至少一个可操控区域对应的坐标信息；语音识别模块，配置为响应于用户的语音指令，对所述语音指令进行语音识别获得对应的文本指令；分析匹配模块，配置为对所述文本指令进行语义分析，基于所述语义分析的结果判断所述文本指令是否与所述至少一个可操控区域的关键文字匹配；坐标信息获取模块，配置为若所述文本指令与任一可操控区域的关键文字匹配，获取所述界面上的文字的坐标信息；以及操控模块，配置为至少基于所述坐标信息模拟对所述显示界面进行操控。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的车载app的语音控制方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的车载app的语音控制方法的步骤。

本申请的方法和装置提供的方案通过在车载app启动之后，获取车载app的显示界面上的可操控区域，以及与可操控区域对应的关键文字和坐标信息，之后再采集到用户的语音指令之后，匹配是否是对可操控区域的操作指令，如果匹配成功则找到对应的坐标信息进行模拟操控，从而可以实现不用采用对接sdk的方式就能实现对车载app的语音操控。进而可以让语音快速控制车载app，不需要逐个app进行对接，提高了语音开发效率和兼容性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种车载app的语音控制方法的流程图；

图2为本发明一实施例提供的另一种车载app的语音控制方法的流程图；

图3为本发明一实施例提供的又一种车载app的语音控制方法的的流程图；

图4为本发明一实施例提供的一种车载app的语音控制方案的一具体实施例的流程图；

图5-图10为本发明实施例的车载app的语音控制方案的多个具体实施例的界面图；

图11为本发明一实施例提供的一种车载app的语音控制装置的框图；

图12是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的车载app的语音控制方法的一实施例的流程图，本实施例的车载app的语音控制方法可以适用于对车载app进行语音控制，本申请在此没有限制。

如图1所示，在步骤101中，响应于车载app启动，获取所述车载app的显示界面上的至少一个可操控区域；

在步骤102中，解析得到与所述至少一个可操控区域对应的关键文字以及与所述至少一个可操控区域对应的坐标信息；

在步骤103中，响应于用户的语音指令，对所述语音指令进行语音识别获得对应的文本指令；

在步骤104中，对所述文本指令进行语义分析，基于所述语义分析的结果判断所述文本指令是否与所述至少一个可操控区域的关键文字匹配；

在步骤105中，若所述文本指令与任一可操控区域的关键文字匹配，获取所述界面上的文字的坐标信息；

在步骤106中，至少基于所述坐标信息模拟对所述显示界面进行操控。

在本实施例中，对于步骤101，车载app的语音控制装置首先会在车载app启动之后，获取该车载app的显示界面上的至少一个可操控区域，其中，可操控区域可以是平时用户操控之后界面会发生变化的区域，例如界面上的按钮、文本框、选择框等。其中，按钮可以是常见的“确认/否认”按钮、“登录”按钮，也可以是音乐播放界面中的“上一首”、“下一首”、“播放/暂停”按钮等，本申请在此没有限制。文本框一般是用于采集用户输入的信息的采集框，例如在登陆界面中的“用户名”、“密码”文本框等，本身请在此没有限制。选择框通常包括单选框和多选框，在此不再赘述，本申请在此没有限制。以上都可以通过对车载app的显示界面进行分析得到，在此不再赘述。

之后，对于步骤102，车载app的语音控制装置解析得到与至少一个可操控区域对应的关键文字以及与至少一个可操控区域对应的坐标信息。通过在找到界面上的可操控区域之后，确定与各可操控区域对应的关键文字方便后续匹配语音指令用，确定与各可操控区域对应的坐标信息方便之后对该可操控区域进行操作，从而可以与后续的语音控制更好地对接，完成对于语音控制的准备工作。需要说明的是，上述步骤102和步骤101虽然被分开描述，但是也是可以在一次操作中完成的，可以在获取可操控区域的同时解析或者获取各可操控区域对应的关键文字以及相应的坐标信息。例如，在音乐播放界面中，获取了各可操控区域之后同时解析出各可操控区域对应的关键文字和坐标信息，其中，关键文字并不一定是唯一的，可以是多个相似的指令，例如“下一首”、“下一曲”、“换一首”等都可以对应同一个按钮，在此不再赘述，本申请在此没有限制。

然后，对于步骤103，车载app的语音控制装置在接收到用户的语音指令后，对语音指令进行语音识别获得对应的文本指令；之后，对于步骤104中，对文本指令进行语义分析，基于语义分析的结果判断文本指令是否与至少一个可操控区域的关键文字匹配；通过语音识别和语义理解的过程对用户的语音指令进行解析然后再与各可操控区域的关键文字进行匹配。

之后，对于步骤105，若文本指令与任一可操控区域的关键文字匹配，获取界面上的文字的坐标信息；在指令与任一可操控区域的关键文字匹配之后，即说明当前语音指令是对当前app的界面的操作指令，从而可以获取相应的坐标信息，最后对于步骤106，车载app的语音控制装置至少可以根据坐标信息模拟对显示界面进行操控，操控可以包括点击、单选、多选或者在相应的文本框中输入文字等，在此不再赘述，本申请在此没有限制。

本实施例的方法，通过在车载app启动之后，获取车载app的显示界面上的可操控区域，以及与可操控区域对应的关键文字和坐标信息，之后再采集到用户的语音指令之后，匹配是否是对可操控区域的操作指令，如果匹配成功则找到对应的坐标信息进行模拟操控，从而可以实现不用采用对接sdk的方式就能实现对车载app的语音操控。进而可以让语音快速控制车载app，不需要逐个app进行对接，提高了语音开发效率和兼容性。

在一些可选的实施例中，获取所述车载app的显示界面上的至少一个可操控区域包括：通过view层绘制获取到所述车载app的显示界面上的至少一个可操控区域，所述可操控区域包括按钮、文本框和选择框。从而可以通过view层绘制的方式获取到可操控区域，以及后续与可操控区域对应的关键文字和坐标，从而可以更好地对后续用户针对可操控区域的语音指令进行模拟操控处理。

在另一些可选的实施例中，若所述可操控区域为按钮，所述至少基于所述坐标信息模拟对所述显示界面进行操控包括：基于所述坐标信息模拟对所述显示界面上对应的坐标进行点击。从而对于按钮类的可操控区域，获取到相应的坐标信息之后，模拟对坐标的点击操作即可实现相应的语音指令对车载app的控制。

在另一些可选的实施例中，若所述可操控区域为文本框，所述至少基于所述坐标信息模拟对所述显示界面进行操控包括：基于所述坐标信息模拟在所述显示界面上对应的文本框进行文本信息地输入，所述文本信息为从所述文本指令中提取的与所述关键文字对应的属性信息。从而对于文本框类型的可操控区域，在采集到用户的语音指令之后，可以模拟将对应的文本信息输入到该文本框中完成对语音指令到模拟操控的转化，即用户的语音指令中与关键文字对应的属性信息。例如，当用户说了“用户名12345”之后，关键文字是“用户名”，文本信息是“12345”，然后找到相应的可操控区域(用户名文本框)的坐标信息，模拟在该文本框中输入文本信息即可完成对于该语音指令到操控相应的车载app界面的转化。

在另一些可选的实施例中，若所述可操控区域为选择框，所述至少基于所述坐标信息模拟对所述显示界面进行操控包括：基于所述坐标信息模拟对所述显示界面上对应的坐标进行点选。对于选择框，可以根据用户的语音指令，完成模拟对一个或者多个选择框的选择，本申请在此没有限制，在此不再赘述。

进一步参考图2，其示出了本申请一实施例提供的又一种车载app的语音控制方法的流程图。

如图2所示，在步骤201中，响应于车载主机的启动，获取车载主机上已安装的各车载app；

在步骤202中，响应于用户的车载app启动指令，解析所述车载app启动指令获得待启动的的车载app，判断所述待启动的车载app是否属于所述已安装的各车载app；

在步骤203中，若所述待启动的车载app属于所述已安装的各车载app，启动所述待启动的车载app。

在本实施例中，对于步骤201，车载app的语音控制装置在车载主机启动之后，获取车载主机上已安装的各车载app，因为语音指令是不受原有的显示界面控制的，因此可能会存在用户想要启动的app根本就不存在于车载显示界面上的情况，此时需要获取车载主机上已安装的车载app。之后，对于步骤202，响应于用户的车载app启动指令，解析所述车载app启动指令获得待启动的的车载app，判断所述待启动的车载app是否属于所述已安装的各车载app，通过判断待启动的车载app是否已经存在可以确定下一部可以做些什么。最后，对于步骤203，若所述待启动的车载app属于所述已安装的各车载app，启动所述待启动的车载app，对于已经存在的情况，直接启动该车载app即可。

本实施例的方法对于用户想要通过语音指令启动的车载app，由于语音指令的非接触特殊性，语音指令要启动的车载app可能并没有安装，因此当采集到用户想要启动的车载app之后，先判断该车载app是否已经存在，存在的话可以直接启动该车载app。

进一步参考图3，其示出了本申请一实施例提供的又一种车载app的语音控制方法的流程图。

在步骤301中，若所述待启动的车载app不属于所述已安装的各车载app，告知用户所述待启动的app尚未安装，并询问用户是否安装所述待启动app；

在步骤302中，响应于用户的安装指令，查找并安装所述待启动app。

本实施例的方法在车载主机上尚未安装用户语音指令对应的车载app的时候，可以实现为用户安装该车载app，从而实现语音控制的闭环，从模拟启动一个车载app到模拟控制这个车载app。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

首先，本领域技术人员一般在语音控制车载app时，通常会采取逐个车载app进行对接的方式，而这种方式通常有一定的技术难度，并且需要修改系统(例如android)源码来适配，比较复杂。

本申请的方案通过在语音指令下发后通过模拟人操作的方式来控制车载app。

一个具体的操控实施例步骤如下所示：

步骤一:语音指令下发启动app,

步骤二:app启动,语音模拟控制中心会通过view层绘制获取到app显示界面的文字/按钮/输入框及相关坐标；

步骤三:当用户说操作显示界面的某某功能时,语音通过语义分析将文字转换成相应的动作,下发给模拟控制中心；

步骤四:模拟控制中心根据语音指令,匹配到关键文字,来获取到需要操作的选项的id或者x轴和y轴的坐标；

步骤五:根据x轴和y轴的坐标模拟点击ui上的位置；

发明人在实现本申请的过程中，还考虑过以下备选方式：如果需要通过语音控制app，需要app提供sdk活控制接口给语音，语音进行集成。该方案的缺点为需要逐个app提供接口，并进行开发和对接；优点是app内部提供的接口可靠性更强。

请参考图4，其示出了根据用户的语音指令经由模拟点击者控制启动一个车载app的简易流程。

进一步参考图5-图10，其示出了本申请的语音操作车载app的一些具体示例的界面。

如图5和图6所示，在一个具体示例中，例如当用户打开音乐车载app之后，就会进入如图所示的app显示界面，然后可以通过view的方式采集到界面上的各可操控区域，例如图中的“设置”、“搜索”、“喜欢歌曲”、“最近播放”“取消喜欢”(图中五角星)、“上一首”、“暂停”、“下一首”、“切换播放模式”等，当采集到用户的语音指令为“小驰，下一首”，语音模拟中心就会获取“下一首”对应的坐标，然后在该坐标实施点击操作，就能实现“下一首”的功能。当用户指令为“车载歌单”相关的关键文字时，可以模拟点击图5上的车载歌单这个区域，例如点击该区域的中心坐标，从而可以切换到图6的车载歌单界面。在图6的车载歌单界面时，如果接收到用户的“返回主界面”的语音指令之后，又可以通过模拟点击左上角的小三角形返回到图5所示的主界面，在此不再赘述。

如图7-图10所示，在一个具体示例中，在一个车辆救援的app中，当接收到用户对于该app的语音启动指令之后，会打开图7所示的界面，然后车载app的语音控制装置会首先获取该界面上的多个可操控区域及与各可操控区域对应的关键文字及坐标信息。例如图7中的“拖车”“换胎”“送油”“困境救援”“发布救援”“+”“-”等可操控区域及对应的关键文字“拖车”“换胎”“送油”“困境救援”“发布救援”“放大”“缩小”等，以及相应的坐标信息。当用户发出“拖车”的语音指令之后之后，可以模拟点击“拖车”和“发布救援”进而进入图8所示的联系手机号输入界面，当用户给出“电话号码为xxx”的指令之后，会模拟将用户的电话号码输入至相应的电话号码文本框中，然后模拟点击“发布救援”。后续的界面的操控过程类似，在此不再赘述。

本申请实施例提供了一种通过语音控制智能车载app的方法，可以让语音快速控制车载app，不需要逐个app进行对接，提高了语音开发效率和兼容性。

请参考图11，其示出了本发明一实施例提供的一种车载app的语音控制装置的框图。

如图11所示，车载app的语音控制装置1100，包括可操控区域获取模块1110、解析模块1120、语音识别模块1130、分析匹配模块1140、坐标信息获取模块1150和操控模块1160。

其中，可操控区域获取模块1110，配置为响应于车载app启动，获取所述车载app的显示界面上的至少一个可操控区域；解析模块1120，配置为解析得到与所述至少一个可操控区域对应的关键文字以及与所述至少一个可操控区域对应的坐标信息；语音识别模块1130，配置为响应于用户的语音指令，对所述语音指令进行语音识别获得对应的文本指令；分析匹配模块1140，配置为对所述文本指令进行语义分析，基于所述语义分析的结果判断所述文本指令是否与所述至少一个可操控区域的关键文字匹配；坐标信息获取模块1150，配置为若所述文本指令与任一可操控区域的关键文字匹配，获取所述界面上的文字的坐标信息；以及操控模块1160，配置为至少基于所述坐标信息模拟对所述显示界面进行操控。

应当理解，图11中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图11中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如接收模块可以描述为接收语音识别请求的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如接收模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的车载app的语音控制方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于车载app启动，获取所述车载app的显示界面上的至少一个可操控区域；

解析得到与所述至少一个可操控区域对应的关键文字以及与所述至少一个可操控区域对应的坐标信息；

响应于用户的语音指令，对所述语音指令进行语音识别获得对应的文本指令；

对所述文本指令进行语义分析，基于所述语义分析的结果判断所述文本指令是否与所述至少一个可操控区域的关键文字匹配；

若所述文本指令与任一可操控区域的关键文字匹配，获取所述界面上的文字的坐标信息；

至少基于所述坐标信息模拟对所述显示界面进行操控。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据车载app的语音控制装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至车载app的语音控制装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项车载app的语音控制方法。

图12是本发明实施例提供的电子设备的结构示意图，如图12所示，该设备包括：一个或多个处理器1210以及存储器1220，图12中以一个处理器1210为例。车载app的语音控制方法的设备还可以包括：输入装置1230和输出装置1240。处理器1210、存储器1220、输入装置1230和输出装置1240可以通过总线或者其他方式连接，图12中以通过总线连接为例。存储器1220为上述的非易失性计算机可读存储介质。处理器1210通过运行存储在存储器1220中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例车载app的语音控制方法。输入装置1230可接收输入的数字或字符信息，以及产生与车载app的语音控制装置的用户设置以及功能控制有关的键信号输入。输出装置1240可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于车载app的语音控制装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

响应于车载app启动，获取所述车载app的显示界面上的至少一个可操控区域；

解析得到与所述至少一个可操控区域对应的关键文字以及与所述至少一个可操控区域对应的坐标信息；

响应于用户的语音指令，对所述语音指令进行语音识别获得对应的文本指令；

对所述文本指令进行语义分析，基于所述语义分析的结果判断所述文本指令是否与所述至少一个可操控区域的关键文字匹配；

若所述文本指令与任一可操控区域的关键文字匹配，获取所述界面上的文字的坐标信息；

至少基于所述坐标信息模拟对所述显示界面进行操控。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。