语音助手系统的制作方法

2021-01-28 15:01:15|

304|

起点商标网

本公开总体上涉及一种语音助手系统，该语音助手系统被配置为接收语音命令并向车辆子系统提供指令。

背景技术：

最近，更成熟的语音识别助手已经进入智能扬声器市场和智能电话市场。在人工智能技术进步的引领下，这一发展也进入了汽车行业。更具体地说，现代车辆装备语音识别助手系统正变得越来越普遍，该语音识别助手系统允许用户通过口头发出的音频命令来控制车辆的各种电子系统。

语音识别助手系统具有用于捕捉音频输入的麦克风和用于处理音频输入的处理器。处理器利用语音识别算法(通常包括机器学习技术)来将音频输入解码为控制命令，以便控制电气系统，例如车辆的娱乐系统。

随着语音识别的最新进步，当前系统在解码音频命令方面相当准确。例如，车辆的用户可以通过对语音识别助手系统说话来控制车辆中的娱乐系统以升高音量或改变音乐曲目。因此，该音频命令将更改整个车辆的总体设置。

然而，可能存在车辆的单个乘员想要实现更局部的设置(例如，升高或降低最靠近该乘员的扬声器的音量)的情况。这可以以各种方式解决，但是当前的语音识别助手系统相对不适合以用户友好的方式来适应这样的个体请求。

因此，期望进一步提高语音识别助手系统的用户友好度，以更准确地响应来自车辆乘员的个体请求。

技术实现要素：

所公开的主题总体上涉及一种用于车辆的语音助手系统，其可以分辨谁在发出语音命令，从而也可以分辨根据语音命令控制车辆中的哪个子系统。

利用所提出的语音助手系统，至少减轻了或甚至消除了依靠语音识别自身来推断语音命令源自谁或源自何处的问题。此外，利用所提出的语音助手系统，车辆中的用户可能能够使用不太复杂的语音命令来控制与用户的位置相关联的相应子系统。

通过允许语音助手系统从图像捕捉系统接收输入信号来获得上述优点，该图像捕捉系统被配置为检测发出语音命令的用户。车辆车厢可以分为若干区域，每个区域与至少一个子系统相关联。来自图像捕捉系统的输入信号将关于发出语音命令的用户的当前区域的信息提供给语音助手系统的控制单元。

因此，包括至少一个用于捕捉来自用户的语音命令的音频捕捉装置的语音助手系统还被配置为接收图像数据或者大体地输入信号，该图像数据(大体地，输入信号)指示从其处发出语音命令的车辆车厢的当前区域。语音助手系统的控制单元被配置为向与当前区域相关联的子系统提供控制信号，从而根据语音命令来控制该子系统。

因此，所提出的语音助手系统可以更准确地确定期望由发出语音命令的用户控制哪个子系统。此外，由于用户不必在语音命令中说出他/她在哪个区域中或者期望在哪个区域中进行特定的子系统设置，因此可以降低语音命令本身的复杂性。基于来自图像捕捉系统的输入信号，自动检测用户的当前区域。

发明人进一步认识到，当今大多数车辆都配备有驾驶员监视系统，该驾驶员监视系统可以检测车辆中的乘员的运动，甚至可以对车辆中的乘员进行面部跟踪。驾驶员监视系统因此可以有利地向语音助手系统提供输入信号，以向语音助手系统告知谁正在发出语音命令。因此，在许多车辆中，由于通常已经安装了驾驶员监视系统，因此对于所提出的语音助手系统来说不需要特定的图像捕捉系统。

尽管优选的实施例是利用车辆中已经存在的图像捕捉系统，但是也可以为语音助手系统配备专用的图像捕捉装置。

车辆通常配备有麦克风和驾驶员监视系统。因此，发明人还认识到提供一种控制单元，该控制单元被配置为从诸如麦克风的音频捕捉装置接收指示由车辆中的用户发出的语音命令的信号。控制单元还被配置为接收输入信号，该输入信号指示语音命令源自于车辆车厢的多个区域中的哪个区域。如上所述，控制单元被配置为确定语音命令所源自的当前区域，并根据语音命令来控制当前区域中的车辆子系统。

发明人还提出了与上述方案具有相同优点的相应方法和计算机程序产品。

当研究所附权利要求和以下描述时，本发明的进一步特征和优点将变得显而易见。本领域技术人员将认识到，在不脱离本发明的范围的情况下，可以组合本发明的不同特征以创建不同于以下描述的实施例的实施例。

附图说明

现在将参考示出本发明的示例实施例的附图来更详细地描述本发明的这些和其他方面，其中：

图1是根据本公开的实施例的语音助手系统的框图；

图2概念性地示出了根据本公开的实施例的车辆车厢中的多个区域；

图3是根据本公开的实施例的语音助手系统的框图；

图4是根据本公开的实施例的方法步骤的流程图；和

图5是根据本公开的实施例的方法步骤的流程图。

具体实施方式

在本详细描述中，描述了根据本公开的语音助手系统的各种实施例。然而，本发明可以以许多不同的形式来实现，并且不应该被解释为限于本文中阐述的实施例；相反，提供这些实施例是为了透彻性和完整性，并将本发明的范围完全传达给技术人员。在全文中，相同的附图标记表示相同的元素。

图1示出了概念性地呈现根据本公开的实施例的语音助手系统100的框图。语音助手系统100被配置为接收语音命令并向与车辆车厢中的多个区域之一相关联的车辆子系统提供指令。所述语音助手系统包括至少一个用于捕捉来自用户的语音命令的音频捕捉装置102。此外，所述语音助手系统中包括控制单元104，所述控制单元104被配置为从音频捕捉装置102接收指示语音命令的信号。控制单元104还被配置为从图像捕捉系统106接收输入信号，该图像捕捉系统106被配置为对发出语音命令的用户进行检测。来自图像捕捉系统106的输入信号将关于用户的当前区域的信息提供给控制单元104。控制单元104向与当前区域相关联的子系统108提供控制信号，以便根据语音命令来控制子系统108。

图2概念性地示出了车辆车厢200，该车辆车厢200分为四个虚拟区域202、204、206和208，其中每个区域具有各自的子系统210a-d。存在于例如区域202中的用户可以发出语音命令，例如“将温度升高2度”。对于现有技术的系统，语音识别功能难以确定语音命令源自于区域202-208中的哪个区域。换句话说，这种现有技术的系统将代之以升高整个车辆车厢200中的温度。备选地，用户可能必须专门要求该系统“在驾驶员的位置处将温度升高2度”。

发明人认识到，通过利用图像捕捉系统，语音助手系统可以接收发出语音命令的用户是存在于区域202-208中的哪个区域中的信息。图像捕捉系统可以例如包括面部跟踪功能，所述面部跟踪功能允许检测哪个用户在讲话。因此，在此处示出的示例子系统210a-d是气候控制子系统的情况下，响应于位于区域202中的驾驶员所发出的上述语音命令“将温度升高2度”，将执行对气候子系统210a的控制以将区域202中的温度升高2度。

作为另一示例，现在在子系统210a-d是娱乐系统的一部分的情况下，存在于区域206中(即后座左侧)的用户可以发出语音命令“关闭音乐”。包括在图像捕捉系统中的图像捕捉装置可以被布置为捕捉图像以对后座上的乘员进行面部跟踪，由此语音助手系统接收到所发出的命令源自于后座左侧(即，用户存在于区域206中)的信息。语音助手系统的控制单元104进而可以控制子系统，即区域206中的扬声器子系统210c，以关闭该区域206中的音乐。

因此，所提出的语音助手系统可以响应于接收到的语音命令更准确地确定要控制哪个子系统。语音助手系统还允许用户以较少的输入语言来发出语音命令以便控制相应的子系统，因为不需要用户指定应在车辆的哪个区域中进行期望的设置。

在一些实施例中，所述控制单元被配置为向娱乐子系统(例如，子系统210b，其中包括当前区域例如区域204中的扬声器)提供反馈控制信号，从而通过当前区域中的扬声器向当前区域中的用户生成音频反馈，以便确认语音命令的接收和/或执行。因此，语音助手系统可以有利地被配置为通过经由当前区域中的扬声器向用户生成音频反馈来确认当前区域(此处以区域204为例)中的车辆子系统的新设置。以这种方式，所述确认不会干扰车辆的其他区域中的乘员，在车辆的这些其他区域中，相应子系统的设置没有改变。

此处，子系统210a-b与车辆车厢的相应区域相关联。子系统210a-b在区域202-208中的每个区域中可独立控制。例如，包括这样的子系统的示例性系统包括气候控制系统、座椅控制系统、音频控制系统、窗户升降控制系统、门锁系统等。为了附图的清楚，图2在每个区域中仅包括一个子系统，但是每个区域中当然可以有不止一个子系统。

如图2所示，区域的数量为至少四个。然而，区域的数量可以根据车辆的类型而变化。在本公开的上下文中，如果车辆中与可控制的车辆子系统相关联的每个座位位置都具有相关联的区域，则是有利的。以这种方式，可以对子系统进行精确的局部控制。此外，对于车辆中的所有座位位置或区域来说，子系统的数量未必相同。另外，对于车辆中的所有座位位置或区域来说，子系统的类型未必相同。

在一些实施例中，用户可以提供用户输入，例如通过控制面板或通过语音命令来提供用户输入，以合并区域。因此，基于该用户输入，控制单元可以被配置为将两个或更多个区域合并为一个区域。如果车辆中的乘员数少于座位数，并且一个乘员希望控制相邻的空区域中的车辆子系统，则这是有利的。

所述子系统可以包括各自(相应)的控制单元，其被配置为从语音助手系统的控制单元接收控制信号。因此，语音助手系统提供带有以下信息的控制信号，所述信息为将要控制哪个子系统以及将以何种方式控制该子系统。

控制单元106可以被配置为控制子系统108，以使得仅被检测到的用户所在的当前区域中的子系统108被根据语音命令来控制。换句话说，并且再次转向图2，如果区域208中(即，右侧后座上)的用户发出了语音命令，则仅子系统210d可以被根据发出的语音命令来控制。

图3示出了根据本公开的实施例的一种可能的语音助手系统300。语音助手系统300包括呈至少一个麦克风304的形式的至少一个音频捕捉装置。控制单元302被配置为从麦克风304接收指示由麦克风304捕捉的语音命令的信号。

控制单元302还被配置为从图像捕捉系统306接收输入信号，该图像捕捉系统306包括控制单元308和呈至少一个摄像机(照相机)310的形式的至少一个图像捕捉装置。该摄像机产生图像，所述图像被控制单元308分析以确定用户正在从其发出语音命令的当前区域。图像捕捉系统306可以包括被配置为跟踪用户的面部运动的所谓驾驶员监视系统。

图像捕捉系统306的控制单元308因此被配置为对发出语音命令的用户存在于哪个区域中进行识别。该信息被发送到语音助手系统300的控制单元302。在一些实施例中，语音助手系统300的控制单元302基于从摄像机310接收到的图像数据进行识别，以便确定发出语音命令的用户的当前区域。

控制单元302被连接至音频捕捉装置304，该音频捕捉装置304适合于捕捉来自用户的语音命令。控制单元302还被连接至图像捕捉系统306，该图像捕捉系统306适合于捕捉车辆乘员的图像数据。控制单元302被以这种方式配置成从音频捕捉装置接收语音命令信号并且从图像捕捉系统接收输入信号。此处，语音助手系统300的控制单元320被连接至图像捕捉系统306的控制单元308。

控制单元302对从麦克风304接收到的信号进行分析，以解码语音命令，从而理解用户给出的指令。这样的解码本身对于技术人员来说是已知的，并且通常通过例如模式识别算法来运行，因此本文中将不再进一步详细讨论。

基于对语音命令和来自图像捕捉系统308的输入信号所进行的分析，控制单元302将控制信号发送到相应的系统312、313、314，以控制与发出语音命令的用户所在的区域相关联的子系统。系统312、313、314中的每一个包括各自的子系统，每个子系统仅被编一个号，即312a，313a，314a。

图4是根据本公开的实施例的用于控制与车辆车厢中的多个区域之一相关联的车辆子系统的方法步骤的流程图。在第一步骤s102中，语音助手系统经由例如音频捕捉装置接收语音命令。在步骤s104中，基于由图像捕捉装置捕捉的图像数据，确定语音命令所源自的当前区域。随后，在步骤s106中，已经对语音命令进行解码的控制单元将控制信号提供给当前区域中的车辆子系统，以便根据解码后的语音命令来控制子系统。

图5是包括用于本文公开的实施例的典型工作流程的流程图。一旦用户发出了语音命令，并且在步骤s202中启动了语音助手系统，则在步骤s204中确定哪位车辆乘员正在与语音助手系统进行交流，即，检测用户。该检测基于由车辆中的图像捕捉装置捕捉的图像数据。面部跟踪功能可以使用图像数据来跟踪用户的面部，以便确定哪位乘员正在与语音助手系统进行交流。

如果在发出语音命令之前未在步骤s202中启动语音助手系统，则过程结束，因为在这种情况下语音助手系统无法检测到语音命令。

一旦在步骤s204中推断出谁正在与语音助手系统进行交流，则在步骤s206中确定乘员位于若干区域(例如，参见图2中的区域202、204、206、208)中的哪个区域。该确定可以基于图像捕捉装置在车辆中的位置或视野以及捕捉到与语音助手系统交流的人员的是哪个图像捕捉装置的预编程知识。例如，区域202、204、206、208中的每一个可以配备有相应的图像捕捉装置。

接下来，在步骤s208中，语音助手系统使包括解码后的语音命令和用户的当前区域的数据对车辆系统的控制单元可用，每个车辆系统包括处于车辆的不同区域中的相应的子系统210a-d。语音助手系统的控制单元可以特别地将控制信号发送到相应的系统，例如参见图3中的系统313、314、315，该相应的系统自身根据语音命令控制用户当前区域中的子系统。

本公开还包括一种计算机程序产品，该计算机程序产品包括计算机可读介质，该计算机可读介质具有在其上存储的用于控制与车辆车厢中的多个区域之一相关联的车辆子系统的计算机程序措施(方法、方案)。该计算机程序产品包括用于对由音频捕捉装置捕捉的语音命令进行解码的代码，以及用于基于由图像捕捉装置捕捉的图像数据确定语音命令所源自的当前区域的代码。此外，还包括用于根据语音命令控制当前区域中的车辆子系统的代码。

控制单元可以包括微处理器、微控制器、可编程数字信号处理器或另一可编程装置，并且可以被嵌入到车辆/动力传动系控制逻辑/硬件中。控制单元还可以或者代之以包括专用集成电路、可编程门阵列或可编程阵列逻辑、可编程逻辑装置或数字信号处理器。在控制单元包括可编程装置(例如上述的微处理器、微控制器或可编程数字信号处理器)的情况下，处理器还可包括控制可编程装置的操作的计算机可执行代码。控制单元可以包括呈硬件或软件形式的模块，或部分地呈硬件或软件形式的模块，并使用诸如can总线的已知传输总线和/或无线通信能力进行通信。因此，控制单元之间或控制单元与音频捕捉装置、图像捕捉系统、图像捕捉装置等之间的通信可以通过本领域中已知的各种方式来实现。例如，可以使用诸如can总线的已知传输总线和/或无线通信能力来对通信进行硬连线。

本公开的控制单元是众所周知的ecu，即，电子控制单元。

根据本公开的各个方面，还提供了一种车辆，该车辆包括根据本文公开的实施例中的任何一个的语音助手系统。

本文描述的图像数据应该被理解为优选地包括图像流，以使得面部跟踪算法可以跟踪面部运动。面部跟踪算法本身是已知的，因此本文中将不再详细描述。

本领域技术人员将认识到，本发明决不限于上述优选实施例。相反，在所附权利要求的范围内，许多修改和变化是可能的。

在权利要求中，词语“包括”不排除其他元件或步骤，并且不定冠词“一”或“一种”不排除多个。单个处理器或其他单元可以实现权利要求中记载的若干项目的功能。在互不相同的从属权利要求中记载某些措施的仅有事实并不表示不能有利地使用这些措施的组合。权利要求中的任何附图标记都不应被解释为限制范围。

已经描述了各种示例。这些和其他示例在所附权利要求的范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除