HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音助手控制方法、装置及计算机可读存储介质与流程

2021-01-28 16:01:38|263|起点商标网
语音助手控制方法、装置及计算机可读存储介质与流程

本公开涉及人工智能技术领域,尤其涉及语音助手控制方法、装置及计算机可读存储介质。



背景技术:

当前,越来越多的智能设备开始启用语音助手这一功能,以实现用户对智能设备的语音控制。相关技术中,用户可以通过向语音助手发出语音,以使得终端设备执行相应的操作。然而在相关技术中,通常用户一次对话之后的较短时间内接收数据,超出该时间便需要重新唤醒,并且在通过语音助手跳转至非语音助手的界面中时,通常会直接退出语音助手,即在其他应用打开时,用户无法通过语音助手进行控制。



技术实现要素:

为克服相关技术中存在的问题,本公开提供一种语音助手控制方法、装置及计算机可读存储介质。

根据本公开实施例的第一方面,提供一种语音助手控制方法,包括:

在所述语音助手唤醒后,根据接收到的语音数据对应的控制指令,显示所述控制指令对应的目标界面;

在所述目标界面与所述语音助手的界面不同的情况下,在所述目标界面中显示语音接收标识,并控制持续接收语音数据;

在所述目标界面的显示过程中,根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令;

在确定所述第二语音数据中包含所述目标控制指令的情况下,显示所述目标控制指令对应的界面。

可选地,所述显示所述目标控制指令对应的界面,包括:

在所述目标控制指令存在对应的窗口界面的情况下,在所述目标界面中显示所述窗口界面。

可选地,所述方法还包括:

在所述窗口界面的显示时长达到目标时长后,关闭所述窗口界面。

可选地,所述根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令,包括:

对所述第二语音数据进行语音识别,获得所述第二语音数据对应的文本信息;

根据所述文本信息与指令库中的指令进行匹配;

在确定出与所述文本信息匹配的目标指令,且所述文本信息满足指令执行条件的情况下,确定所述语音数据中包含所述目标控制指令。

可选地,所述指令执行条件为以下中的至少一者:

所述文本信息对应的声纹特征与上一语音数据的声纹特征相同;

所述文本信息对应的声纹特征为目标用户的声纹特征;

所述文本信息与上一语音数据对应的文本信息之间语义特征连续。

可选地,所述方法还包括:

在确定所述第二语音数据中包含所述目标控制指令的情况下,在所述语音接收标识对应的位置显示所述第二语音数据对应的文本信息。

可选地,所述方法还包括:

在确定所述语音助手满足休眠状态时,在所述目标界面中显示语音等待标识,并检测唤醒词或语音热词;

在检测到所述唤醒词的情况下,在所述目标界面中显示语音接收标识;

在检测到所述语音热词的情况下,执行所述语音热词对应的控制指令;

其中,通过以下中的至少一者确定所述语音助手满足休眠状态:

在第一预设时段内的接收到的语音数据中未包含所述目标控制指令;

在第二预设时段内未接收到语音数据,所述第二预设时段的时长大于所述第一预设时段的时长。

可选地,在所述根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令的步骤之前,所述方法还包括:

获取终端的检测信息,所述检测信息用于确定用户是否朝向所述终端发出语音;

根据所述检测信息,确定接收到的所述第二语音数据是否为用户朝向所述终端发出的语音数据;

在确定所述第二语音数据为用户朝向所述终端发出的语音数据的情况下,执行根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行目标控制指令的步骤。

可选地,所述根据所述检测信息,确定接收到的所述第二语音数据是否为用户朝向所述终端发出的语音数据,包括:

若所述检测信息为终端旋转角度信息,在根据所述终端旋转角度信息确定所述终端的麦克风阵列与语音数据源的距离减小的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据;

若所述检测信息为人脸图像信息,则根据所述人脸图像信息进行视线估计,并在根据所述视线估计,确定所述人脸图像信息对应的视线点处于所述终端的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据。

根据本公开实施例的第二方面,提供一种语音助手控制装置,包括:

第一显示模块,被配置为在所述语音助手唤醒后,根据接收到的语音数据对应的控制指令,显示所述控制指令对应的目标界面;

控制模块,被配置为在所述目标界面与所述语音助手的界面不同的情况下,在所述目标界面中显示语音接收标识,并控制持续接收语音数据;

第一确定模块,被配置为在所述目标界面的显示过程中,根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令;

第二显示模块,被配置为在确定所述第二语音数据中包含所述目标控制指令的情况下,显示所述目标控制指令对应的界面。

可选地,所述第二显示模块包括:

在所述目标控制指令存在对应的窗口界面的情况下,在所述目标界面中显示所述窗口界面。

可选地,所述装置还包括:

关闭模块,被配置为在所述窗口界面的显示时长达到目标时长后,关闭所述窗口界面。

可选地,所述第一确定模块包括:

识别子模块,被配置为对所述第二语音数据进行语音识别,获得所述第二语音数据对应的文本信息;

匹配子模块,被配置为根据所述文本信息与指令库中的指令进行匹配;

第一确定子模块,被配置为在确定出与所述文本信息匹配的目标指令,且所述文本信息满足指令执行条件的情况下,确定所述语音数据中包含所述目标控制指令。

可选地,所述指令执行条件为以下中的至少一者:

所述文本信息对应的声纹特征与上一语音数据的声纹特征相同;

所述文本信息对应的声纹特征为目标用户的声纹特征;

所述文本信息与上一语音数据对应的文本信息之间语义特征连续。

可选地,所述装置还包括:

第三显示模块,被配置为在确定所述第二语音数据中包含所述目标控制指令的情况下,在所述语音接收标识对应的位置显示所述第二语音数据对应的文本信息。

可选地,所述装置还包括:

处理模块,被配置为在确定所述语音助手满足休眠状态时,在所述目标界面中显示语音等待标识,并检测唤醒词或语音热词;

第四显示模块,被配置为在检测到所述唤醒词的情况下,在所述目标界面中显示语音接收标识;

执行模块,被配置为在检测到所述语音热词的情况下,执行所述语音热词对应的控制指令;

其中,通过以下中的至少一者确定所述语音助手满足休眠状态:

在第一预设时段内的接收到的语音数据中未包含所述目标控制指令;

在第二预设时段内未接收到语音数据,所述第二预设时段的时长大于所述第一预设时段的时长。

可选地,所述装置还包括:

获取模块,被配置为在所述第一确定模块根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令之前,获取终端的检测信息,所述检测信息用于确定用户是否朝向所述终端发出语音;

第二确定模块,被配置为根据所述检测信息,确定接收到的所述第二语音数据是否为用户朝向所述终端发出的语音数据;

所述第一确定模块用于在确定所述第二语音数据为用户朝向所述终端发出的语音数据的情况下,执行根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行目标控制指令。

可选地,所述第二确定模块包括:

第二确定子模块,被配置为在所述检测信息为终端旋转角度信息,根据所述终端旋转角度信息确定所述终端的麦克风阵列与语音数据源的距离减小的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据;

第三确定子模块,被配置为在所述检测信息为人脸图像信息的情况下,则根据所述人脸图像信息进行视线估计,并在根据所述视线估计,确定所述人脸图像信息对应的视线点处于所述终端的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据。

根据本公开实施例的第三方面,提供一种语音助手控制装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

在所述语音助手唤醒后,根据接收到的语音数据对应的控制指令,显示所述控制指令对应的目标界面;

在所述目标界面与所述语音助手的界面不同的情况下,在所述目标界面中显示语音接收标识,并控制持续接收语音数据;

在所述目标界面的显示过程中,根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令;

在确定所述第二语音数据中包含所述目标控制指令的情况下,显示所述目标控制指令对应的界面。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的语音助手控制方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果:

因此,在上述技术方案中,在所述语音助手唤醒后,根据接收到的语音数据对应的控制指令,显示所述控制指令对应的目标界面;在所述目标界面与所述语音助手的界面不同的情况下,在所述目标界面中显示语音接收标识,并控制持续接收语音数据。之后,在所述目标界面的显示过程中,根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令,并在确定所述第二语音数据中包含所述目标控制指令的情况下,显示所述目标控制指令对应的界面。通过上述技术方案,在与语音助手交互的过程中可以显示其他应用的界面,并保证在其他应用的界面显示的过程中,该语音助手持续接收语音数据,从而可以在其他应用界面中通过语音助手执行相应的操作。同时在目标界面显示的过程中持续接收语音数据,从而可以无需用户多次执行唤醒的重复操作,提高用户使用语音助手的便捷性,提升用户使用体验。另外,在目标界面显示的过程中可以通过语音助手进行操作,从而可以实现基于图形用户界面和语音用户界面的综合控制,从而可以有效缩短用户进行操作的执行路径,简化用户操作的使用流程。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音助手控制方法的流程图。

图2-图6是根据一示例性实施例示出的目标界面的显示示意图。

图7是根据一示例性实施例示出的一种语音助手控制装置的框图。

图8是根据一示例性实施例示出的一种语音助手控制装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音助手控制方法的流程图,如图1所示,所述方法可以包括以下步骤。

在步骤11中,在语音助手唤醒后,根据接收到的语音数据对应的控制指令,显示控制指令对应的目标界面。

示例地,可以通过现有的唤醒词检测技术以唤醒语音助手,如通过预先录制唤醒词的语音数据,之后可以通过训练唤醒词检测模型,从而可以通过该唤醒词检测模型对用户发出的语音进行实时检测,在确定用户发出的语音中包含该唤醒词时,唤醒语音助手。另一示例中,可以通过点击语音助手图标或按钮的方式唤醒该语音助手,本公开对此不进行限定。

在语音助手唤醒后,其可以接收用户发出的语音,从而可以对其接收到的语音数据进行分析以确定对应的控制指令。其中,本公开提供的方法可以应用于具有显示界面的终端设备中,则在语音助手唤醒后,可以在该语音助手对应的界面显示的过程中接收用户发出的语音数据,从而对该语音数据进行语音识别,获得该语音数据对应的文本信息,并可以进一步地确定该文本信息中包含的控制指令,从而显示与该控制指令对应的目标界面。

示例地,用户在语音助手对应的界面中发出语音“请打开a应用预定明天从b城到c城的飞机票”,则响应于该语音数据对应的控制指令,可以显示目标界面,即a应用中明天b城到c城的飞机票查询界面,其中明天对应的日期可以通过获取当前终端时间之后计算得出。如图2所示,为所述目标界面的显示示意图。

在步骤12中,在目标界面与语音助手的界面不同的情况下,在目标界面中显示语音接收标识,并控制持续接收语音数据,示例地,可以基于全双工技术实现持续接收语音数据。

其中,在相关技术中,在通过语音助手跳转至非语音助手的界面中时,通常情况下会直接退出语音助手,即在其他应用打开时,用户无法通过语音助手进行控制。而在本公开的实施例中,在目标界面与语音助手的界面不同的情况下,即在与语音助手交互的过程中跳转到了其他应用的场景。在该情况下,本实施例中可以在该目标界面中显示语音接收标识,并控制持续接收语音数据,即控制所述语音助手持续处于工作状态。示例地,为了贴合用户的使用需求,并减少语音接收标识对目标界面的遮挡,该语音接收标识可以显示在目标界面下方部分,其中用户可以设置调整该语音接收标识的透明度,以符合其对页面显示的要求。示例地,该语音接收标识可以为静态或动态的图片标识,如图3所示p处所示,可以在目标界面中下方部分贴边显示该语音接收标识,即该语音接收标识与该目标界面的下边界重合。其中,图3仅为示例性显示方式,例如,语音接收标识的显示位置和大小可以根据实际使用场景进行设置,也可以根据用户的设置指令进行设置,本公开对此不进行限定。

在该步骤中,在目标界面中显示该语音接收标识可以提示用户当前仍可以发出语音以通过语音助手进行相应地控制,并且可以通过持续接收语音数据来避免用户多次唤醒语音助手的重复操作。

同时,在该目标界面中可以接收用户的操作指令,例如用户针对目标界面中的航班滑动查看的操作,从而可以响应于用户的操作指令,在该目标界面中滑动显示查询出的航班信息。

在步骤13中,在目标界面的显示过程中,根据接收到的第二语音数据,确定第二语音数据中是否包含待执行的目标控制指令。

其中,在该实施例中,由于在目标界面显示的过程中会持续接收用户数据,以完成用户和语音助手之间的交互。因此,在接收到的第二语音数据中则可能包含环境音数据,如用户与另一用户的交谈语言数据,以及其他用户发出的语音数据等。在该步骤中,可以通过对接收到的第二语音数据进行解析,确定该第二语音数据中是否包含待执行的目标控制指令,以从接收到的语音数据中去除环境音数据的影响,提高语音助手控制方法的准确性。

在步骤14中,在确定第二语音数据中包含目标控制指令的情况下,显示目标控制指令对应的界面。

在上述技术方案中,在所述语音助手唤醒后,根据接收到的语音数据对应的控制指令,显示所述控制指令对应的目标界面;在所述目标界面与所述语音助手的界面不同的情况下,在所述目标界面中显示语音接收标识,并控制持续接收语音数据。之后,在所述目标界面的显示过程中,根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令,并在确定所述第二语音数据中包含所述目标控制指令的情况下,显示所述目标控制指令对应的界面。通过上述技术方案,在与语音助手交互的过程中可以显示其他应用的界面,并保证在其他应用的界面显示的过程中,该语音助手持续接收语音数据,从而可以在其他应用界面中通过语音助手执行相应的操作。同时在目标界面显示的过程中持续接收语音数据,从而可以无需用户多次执行唤醒的重复操作,提高用户使用语音助手的便捷性,提升用户使用体验。另外,在目标界面显示的过程中可以通过语音助手进行操作,从而可以实现基于图形用户界面和语音用户界面的综合控制,从而可以有效缩短用户进行操作的执行路径,简化用户操作的使用流程。

为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上述步骤进行详细的说明。

可选地,在步骤13中,根据接收到的第二语音数据,确定第二语音数据中是否包含待执行的目标控制指令的示例性实现方式如下,该步骤可以包括:

对所述第二语音数据进行语音识别,获得所述第二语音数据对应的文本信息;

根据所述文本信息与指令库中的指令进行匹配。

示例地,可以通过asr(automaticspeechrecognition,自动语音识别)技术进行语音识别,获得该文本信息。之后则可以根据文本信息与指令库中的指令进行模糊匹配,其中,可以采用相关技术中常用的指令匹配方式进行匹配,在此不再赘述。

在确定出与所述文本信息匹配的目标指令,且所述文本信息满足指令执行条件的情况下,确定所述语音数据中包含所述目标控制指令。

示例地,在确定出与所述文本信息匹配的目标指令,且所述文本信息满足指令执行条件的情况下,可以通过对文本信息进行解析确定所述目标指令对应的参数,从而确定目标控制指令。例如,用户发出的语音数据为“播放abc歌曲”,则通过与指令库中的指令进行匹配确定出的目标指令为播放歌曲,之后通过解析文本信息,确定目标指令对应的参数为abc歌曲,从而生成目标控制指令,以播放该abc歌曲。

其中,如上文所述,在本公开的实施例中,会在目标界面显示的过程中,控制连续接收语音数据,因此,需要从接收到的语音数据中确定出真实需要执行的指令。因此,通过上述技术方案,可以通过对第二语音数据进行解析,确定该第二语音数据对应的目标指令,同时通过确定文本信息是否满足指令执行条件,以确定该目标指令是否为真实需要执行的指令,为准确确定目标控制指令提供数据支持,同时可以有效避免环境音数据中的指令对语音助手控制方法的准确性的影响,保证语音助手控制方法的准确性。

可选地,所述指令执行条件为以下中的至少一者:

第一种条件,所述文本信息对应的声纹特征与上一语音数据的声纹特征相同。

其中,上一语音数据为语音助手执行的上一控制指令对应的语音数据。示例地,可以在接收到第二语音数据时,提取该第二语音数据的声纹特征,从而可以与上一语音数据的声纹特征进行比对,若两者相匹配,则表示该语音数据与上一语音数据为同一用户发出,此时可以确定该文本信息满足该指令执行条件,从而避免其他用户发出的语音的影响。

第二种条件,所述文本信息对应的声纹特征为目标用户的声纹特征。

其中,目标用户可以为终端设备的主用户,或者为该主用户以及预先设置的其他合法用户,则在该实施例中,可以对目标用户的声纹特征进行预先录制提取,从而存储该目标用户的声纹特征。之后在接收到第二语音数据时,可以直接提取该第二语音数据的声纹特征,并与该目标用户的声纹特征进行对比。若在该目标用户的声纹特征中存在与该第二语音数据的声纹特征相匹配的声纹特征,则表示该第二语音数据为目标用户发出的,此时可以确定该文本信息满足该指令执行条件,从而避免其他用户发出的语音的影响。

第三种条件,所述文本信息与上一语音数据对应的文本信息之间语义特征连续。

其中,用户在于语音助手交互的过程中,通常是基于同一场景进行交互的,即用户发出的语音通常是上下文信息连续的。因此,在该实施例中,可以基于自然语言处理(nlp,naturallanguageprocessing)方法,根据语义特征连续的训练语句预先训练一语义特征判断模型,从而可以在确定出第二语音数据对应的文本信息后,将该文本信息和上一语音数据对应的文本信息输入该语义特征判断模型,从而确定该文本信息与上一语音数据对应的文本信息之间语义特征是否连续。在根据语义特征判断模型确定两者语义特征连续时,则表征该第二语音数据对应的文本信息是接续在上一语音数据的文本信息之后的,则可以表征该第二语音数据对应的目标指令为用户向语音助手发出的实际指令,此时可以确定该文本信息满足该指令执行条件,以保证确定出的目标控制指令的准确性。

示例地,上述多种指令执行条件可以结合进行判断,在指令执行条件包括多种条件时,在同时满足该多种条件的情况下,确定其满足指令执行条件。

由此,通过上述技术方案,可以通过文本信息对应的声纹特征或者文本信息对应语义特征确定目标指令是否可执行,从而可以对从第二语音数据中确定出的目标指令进行进一步校验,确定出真实用于语音助手控制的目标操作指令,进一步保证语音助手控制的准确性,提升用户使用体验。

在实际使用场景中,由于本公开的实施例中会持续接收用户数据,因此,为了降低数据处理量,保证语音助手控制方法的执行效率,本公开还提供以下实施例。

可选地,在根据接收到的第二语音数据,确定第二语音数据中是否包含待执行的目标控制指令的步骤13之前,所述方法还可以包括:

获取终端的检测信息,所述检测信息用于确定用户是否朝向所述终端发出语音。

根据所述检测信息,确定接收到的所述第二语音数据是否为用户朝向所述终端发出的语音数据。

其中,在实际使用场景中,用户在通过语音助手进行交互时,通常会朝向该终端发出语音,因此,则该实施例中,可以通过终端的检测信息确定第二语音数据是否为用户朝向终端发出的语音数据。

在确定第二语音数据不是用户朝向终端发出的语音数据的情况下,表示该第二语音数据为环境音数据,而并非用于进行与语音助手进行交互的数据,此时可以无需对该第二语音数据进行解析。

在确定所述第二语音数据为用户朝向所述终端发出的语音数据的情况下,执行根据接收到的第二语音数据,确定第二语音数据中是否包含待执行目标控制指令的步骤13。

由此,通过上述技术方案,可以预先对第二语音数据进行初步判断,在确定该第二语音数据为用户朝向终端发出的语音数据,即用于与语音助手进行交互的数据时,才会对该第二语音数据进行解析,从而可以有效降低语音助手所处理的语音数据量,避免对环境音数据进行解析导致的资源浪费,同时也可以保证后续语音助手操作的准确性以及响应的实时性。

可选地,所述根据所述检测信息,确定接收到的所述第二语音数据是否为用户朝向所述终端发出的语音数据的示例性实现方式如下,该步骤可以包括:

若所述检测信息为终端旋转角度信息,在根据所述终端旋转角度信息确定所述终端的麦克风阵列与语音数据源的距离减小的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据。

示例地,可以通过陀螺仪检测终端旋转时的角速度,之后通过对角速度进行积分从而确定终端旋转角度信息。之后通过确定在该旋转过程中终端的麦克风阵列与语音数据源之间的距离变化第二语音数据为用户朝向所述终端发出的语音数据。示例地,可以通过该旋转角度和麦克风阵列在终端的中位置确定麦克风阵列与该语音数据对应的语音数据源之间的距离变化。若在终端旋转的过程中,麦克风阵列与语音数据之间距离减小,说明用户是旋转该终端,以使得该终端更接近用户,此时可以确定第二语音数据为用户朝向所述终端发出的语音数据。若麦克风阵列与语音数据之间距离变大,说明用户是旋转该终端以使得该终端远离用户,即此时用户不再与终端中的语音助手进行交互。

示例地,也可以结合加速度计获取终端的移动信息,若根据移动信息确定终端与语音数据源的距离减小的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据。

若所述检测信息为人脸图像信息,则根据所述人脸图像信息进行视线估计,并在根据所述视线估计,确定所述人脸图像信息对应的视线点处于所述终端的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据。

示例地,可以通过终端中的摄像装置获取该人脸图像信息,之后可以进行人脸识别、人脸关键点提取,进而通过视线估计((gazeestimation)技术确定人脸图像信息中人脸对应的视线点。若该视线点处于所述终端,则表示当前用户注视终端,此时可以确定第二语音数据为用户朝向所述终端发出的语音数据。

由此,通过上述技术方案,可以通过获取终端的检测信息,从而确定第二语音数据是否为用户朝向终端发出的语音数据,从而可以直接、快速地确定出真实向语音助手发出的数据,既可以为后续降低语音数据解析的数据量提供技术支持,又可以有效避免环境音数据对语音助手控制方法的影响,符合用户的使用需求。

可选地,可以基于声纹识别技术的麦克风阵列的说话人定向方法,确定朝向终端发出的语音数据的用户。当麦克风阵列给出的用户所在区域内存在多人语音时,可以通过盲源分离技术(blindsourceseparation)判断出当前实际朝向终端发出语音的用户。其中,该定向方法和盲源分离技术为现有技术,在此不再赘述。

可选地,在步骤14中,在确定第二语音数据中包含目标控制指令的情况下,显示目标控制指令对应的界面,可以包括以下实施例。

其中,在确定目标控制指令对应的界面时,可以首先确定该目标控制指令对应的应用,若终端中存在目标控制指令对应的应用为多个,如目标控制指令为播放abc歌曲时,若终端中存在多个音乐播放器,可以将终端中的播放音乐的默认应用确定为该目标控制指令对应的应用,或者可以将用户播放音乐时使用频率最高的应用确定为该目标控制指令对应的应用。之后,在确定出目标控制指令对应的应用后,从该应用的界面中确定目标控制指令对应的界面。

作为示例,在确定出目标控制指令对应的界面时,若该界面与目标界面属于同一应用中的界面,则可以直接显示该目标控制指令对应的界面,若该界面与目标界面不属于同一应用中的界面,则可以跳转到该界面所属的应用中显示该界面。

作为另一示例,所述显示目标控制指令对应的界面的示例性实现方式如下,该步骤可以包括:

在所述目标控制指令存在对应的窗口界面的情况下,在所述目标界面中显示所述窗口界面。

示例地,可以预先针对多个指令设置其对应的窗口界面,例如计算器、天气等,并存储该窗口界面对应关系。在实际使用场景中,用户只需要知晓天气或者计算数据的结果,无需跳转至对应的应用中进行查看。因此,在该实施例中,可以预先设置对应于窗口界面的指令,则在显示该指令的界面时,可以显示窗口界面,即在当前显示的目标界面中显示窗口界面,该窗口界面位于所述目标界面上层,示例地,该窗口界面的尺寸小于该目标界面的尺寸。

由此,在确定第二语音数据中包含目标控制指令的情况下,可以根据窗口界面对应关系先查询该目标控制指令是否存在对应的窗口界面。示例地,如图3所示的目标界面中,用户想要知道c城的天气情况,则可以发出语音“查询c城的天气情况”,在语音助手根据该语音数据确定出用于查询天气的目标控制指令时,可以根据窗口界面对应关系查询是否存在该目标控制指令对应的窗口界面,在确定存在该目标控制指令对应的窗口界面时,则可以在该查询飞机票的目标界面中显示该天气查询结果对应的窗口界面,如图4所示q处所示。

由此,通过上述技术方案,可以在当前显示的目标界面中显示目标控制指令对应的窗口界面,可以在无需进行应用间的切换便可以用户进行结果提示,既可以满足用户的使用需求,又可以有效避免应用切换造成的响应延时,进一步提升用户使用体验。

可选地,所述方法还可以包括:

在所述窗口界面的显示时长达到目标时长后,关闭所述窗口界面。

示例地,该目标时长可以根据实际使用场景进行设置,本公开对此不进行限定。通过上述技术方案,既可以在当前的目标界面中显示窗口界面,从而可以为用户提供语音助手的操作结果,同时也可以在用户查看之后关闭窗口界面,以避免影响用户在目标界面中的操作。由此,既便于为用户进行提示,有效避免应用切换给用户带来的使用不便,又可以保证用户在当前显示的目标界面操作的便捷性,提升用户使用体验。

可选地,若接收到的第二语音数据对应的目标控制指令中指示了跳转应用,则该情况下跳转至该应用中目标控制指令对应的界面进行显示,从而显示目标控制指令的执行结果。

可选地,所述方法还可以包括:

在确定所述第二语音数据中包含所述目标控制指令的情况下,在所述语音接收标识对应的位置显示所述第二语音数据对应的文本信息。

其中,确定所述第二语音数据中是否包含所述目标控制指令的方式已在上文进行详述,在此不再赘述。接上文所述示例,在图3显示的目标界面中,用户发出语音“查询c城的天气情况”,在语音助手根据该语音数据确定出用于查询天气的目标控制指令时,可以将该文本信息显示在语音接收标识对应的位置,如图5所示m处所示。在确定出查询结果后,在通过窗口界面显示该查询结果,如图4所示q处所示。由此,一方面可以向用户提示其发出的语音,便于用户确定语音助手执行的目标控制指令是否准确,另一方面也可以在目标控制指令对应的界面之前响应用户的语音操作进行显示,提高人机交互的实时性,便于用户使用。另外,与相关技术中显示全部的语音数据相比,本方案中在确定所述第二语音数据中包含所述目标控制指令的情况下,在所述语音接收标识对应的位置显示所述第二语音数据对应的文本信息,可以为用户提供更准确的交互体验,提高语音助手控制方法的准确度。

可选地,所述方法还包括:

在确定所述语音助手满足休眠状态时,在所述目标界面中显示语音等待标识,并检测唤醒词或语音热词,其中,检测唤醒词和语音热词可以通过与上文所述唤醒词检测类似的方式进行检测,在此不再赘述。其中,所述语音等待标识与所述语音接收标识对应的显示图像不同,如图6所示n处所示,所述语音等待标识与所述语音接收标识对应的尺寸和位置可以相同也可以不同,本公开对此不进行限定。

其中,通过以下中的至少一者确定所述语音助手满足休眠状态:

在第一预设时段内的接收到的语音数据中未包含所述目标控制指令;

在第二预设时段内未接收到语音数据,所述第二预设时段的时长大于所述第一预设时段的时长。

其中,该第一预设时段和第二预设时段的时长可以根据实际使用场景进行设置,示例地,第一预设时段的时长可以设置为10分钟,第二预设时段的时长可以设置为20分钟。则在一种可能的实施例中,在第一预设时段内的接收到的语音数据中未包含所述目标控制指令,确定所述语音助手满足休眠状态,即在从上一目标控制指令执行之后的10分钟内接收到的语音数据中未确定出目标控制指令,表示当前用户与语音助手不再交互,则可以确定语音助手满足休眠状态。

在另一种可能的实例中,在第二预设时段内未接收到语音数据,确定所述语音助手满足休眠状态,即在从上一目标控制指令执行之后的20分钟内未接收到的语音数据,表示当前用户与语音助手不再交互,则可以确定语音助手满足休眠状态。

由此,在确定用户不再与语音助手交互时,可以控制语音助手进入休眠状态,从而可以有效节省语音助手所占用的资源和能耗。

之后,在检测到所述唤醒词的情况下,在所述目标界面中显示语音接收标识,即在检测到唤醒词时,唤醒该语音助手,在所述目标界面中显示语音接收标识,以用于持续接收语音数据。

在检测到所述语音热词的情况下,执行所述语音热词对应的控制指令。其中,语音热词可以用于唤醒语音助手,同时该语音热词中还包含控制指令,则在检测到语音热词时,可以直接唤醒语音助手,并执行该语音热词对应的控制指令,同时在所述目标界面中显示语音接收标识,以用于持续接收语音数据。

在另一实施例中,为了进一步降低语音助手所占用的资源和能耗,在确定所述语音助手满足休眠状态时,可以直接退出语音助手,则之后可以通过检测唤醒词的方式以唤醒语音助手,具体实现方式已在上文进行详述,在此不再赘述。

由此,通过上述技术方案,可以在确定用户与语音助手不再交互的情况下,控制该语音助手进行休眠状态,由此可以有效节省语音助手所占用的资源和能耗,并且在目标界面中显示语音等待标识,也可以提示用户当前语音助手处于休眠状态,便于用户后续通过语音热词激活语音助手,便于用户使用,简化用户的使用流程,进一步提升用户使用体验。

本公开还提供一种语音助手控制装置,如图7所示,所述装置10包括:

第一显示模块100,被配置为在所述语音助手唤醒后,根据接收到的语音数据对应的控制指令,显示所述控制指令对应的目标界面;

控制模块200,被配置为在所述目标界面与所述语音助手的界面不同的情况下,在所述目标界面中显示语音接收标识,并控制持续接收语音数据;

第一确定模块300,被配置为在所述目标界面的显示过程中,根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令;

第二显示模块400,被配置为在确定所述第二语音数据中包含所述目标控制指令的情况下,显示所述目标控制指令对应的界面。

可选地,所述第二显示模块包括:

在所述目标控制指令存在对应的窗口界面的情况下,在所述目标界面中显示所述窗口界面。

可选地,所述装置还包括:

关闭模块,被配置为在所述窗口界面的显示时长达到目标时长后,关闭所述窗口界面。

可选地,所述第一确定模块包括:

识别子模块,被配置为对所述第二语音数据进行语音识别,获得所述第二语音数据对应的文本信息;

匹配子模块,被配置为根据所述文本信息与指令库中的指令进行匹配;

第一确定子模块,被配置为在确定出与所述文本信息匹配的目标指令,且所述文本信息满足指令执行条件的情况下,确定所述语音数据中包含所述目标控制指令。

可选地,所述指令执行条件为以下中的至少一者:

所述文本信息对应的声纹特征与上一语音数据的声纹特征相同;

所述文本信息对应的声纹特征为目标用户的声纹特征;

所述文本信息与上一语音数据对应的文本信息之间语义特征连续。

可选地,所述装置还包括:

第三显示模块,被配置为在确定所述第二语音数据中包含所述目标控制指令的情况下,在所述语音接收标识对应的位置显示所述第二语音数据对应的文本信息。

可选地,所述装置还包括:

处理模块,被配置为在确定所述语音助手满足休眠状态时,在所述目标界面中显示语音等待标识,并检测唤醒词或语音热词;

第四显示模块,被配置为在检测到所述唤醒词的情况下,在所述目标界面中显示语音接收标识;

执行模块,被配置为在检测到所述语音热词的情况下,执行所述语音热词对应的控制指令;

其中,通过以下中的至少一者确定所述语音助手满足休眠状态:

在第一预设时段内的接收到的语音数据中未包含所述目标控制指令;

在第二预设时段内未接收到语音数据,所述第二预设时段的时长大于所述第一预设时段的时长。

可选地,所述装置还包括:

获取模块,被配置为在所述第一确定模块根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行的目标控制指令之前,获取终端的检测信息,所述检测信息用于确定用户是否朝向所述终端发出语音;

第二确定模块,被配置为根据所述检测信息,确定接收到的所述第二语音数据是否为用户朝向所述终端发出的语音数据;

所述第一确定模块用于在确定所述第二语音数据为用户朝向所述终端发出的语音数据的情况下,执行根据接收到的第二语音数据,确定所述第二语音数据中是否包含待执行目标控制指令。

可选地,所述第二确定模块包括:

第二确定子模块,被配置为在所述检测信息为终端旋转角度信息,根据所述终端旋转角度信息确定所述终端的麦克风阵列与语音数据源的距离减小的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据;

第三确定子模块,被配置为在所述检测信息为人脸图像信息的情况下,则根据所述人脸图像信息进行视线估计,并在根据所述视线估计,确定所述人脸图像信息对应的视线点处于所述终端的情况下,确定所述第二语音数据为用户朝向所述终端发出的语音数据。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的语音助手控制方法的步骤。

图8是根据一示例性实施例示出的一种语音助手控制装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的语音助手控制方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述语音助手控制方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述语音助手控制方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的语音助手控制方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips