智能设备的情境感知控制的制作方法
jochenhuber、mohamedsheik-nainar和annaostberg
相关申请的交叉引用
本申请要求于2018年4月5日提交的标题为“context-awarecontrolforsmartdevices”的美国临时专利申请号62/653,469的权益和优先权,其通过引用以其整体特此并入。
根据一个或多个实施例,本公开总体上涉及语音交互设备,并且更特别地例如,涉及包括多个输入和/或输出模态的智能语音助手系统。
背景技术:
近年来,诸如智能语音助手之类的语音交互设备已经获得普及。这些设备通常通过一个或多个麦克风接收音频,然后处理接收到的音频输入以检测人类话音,其可以包括用于控制设备的一个或多个触发词和语音命令。通过经由音频扬声器输出的计算机生成的语音来将反馈提供直到用户。设备还可以包括其他输入/输出(i/o)模态,诸如一个或多个物理按钮、灯和触摸屏显示器。语音交互设备通常被优化以用于语音命令处理,其对于特定环境或用户交互可能不是最佳的。因此,持续需要用于在各种用户环境中操作语音交互设备的改进的系统和方法。
技术实现要素:
在本公开的各种实施例中,一种智能语音助手设备包括至少一个扬声器、至少一个麦克风和音频输入电路,其可操作以接收音频输入信号并处理该音频输入信号以生成目标音频样本。智能语音助手设备还包括语音处理器,该语音处理器可操作以检测话音并执行相关联的语音命令。输入/输出控制器通过附加的i/o部件(其可以包括灯、显示器、触摸屏显示器、用户输入部件(诸如按钮、滑块或拨盘)、图像传感器和其他输入感测部件或输出设备)促进用户输入和输出。情境控制器监视输入部件并响应于此自适应地配置输入/输出模态。在各种实施例中,语音处理器和情境控制器启用基于人工智能的虚拟助手,该虚拟助手使输入和输出模态适应于当前使用情境。
在一个实施例中,智能语音助手设备包括至少一个用于获取视野的图像的图像传感器,和分析所获取的图像以检测和跟踪目标用户和使用情境的情境控制器。情境控制器可以使用对象或人识别图像处理技术(诸如如本领域中已知的面部识别以及运动检测和跟踪)来识别图像中的目标用户。在一个实施例中,情境控制器评估目标用户是否在智能设备的显示器方向上注视,并将显示器打开(如果用户的注视指向显示器)或将显示器关闭(如果用户的注视不充分指向显示器)。如果用户的注视指向显示器,则该设备可以提供注意感知输出渲染,其中基于目标用户与系统的距离来渲染输出保真度,以促进来自各个距离的可读性。在一个实施例中,可以通过分析从多传感器相机(例如,3d相机)输入的图像来估计智能语音助手设备与目标用户之间的距离。
在各种实施例中,情境控制器基于对(一个或多个)接收的图像的分析来自适应地促进空间关系学输入模态选择。当用户远离智能设备(例如,智能语音助手设备在用户的可及范围之外)时,系统可以将语音用作主要的输入和输出模态。当用户接近智能语音助手设备时,通过显示器的视觉输出对于用户而言可能变得更加合意。当目标用户靠近智能语音助手设备(例如,在手臂的可及范围内)时,界面可以自适应地提供启用触摸的界面,诸如通过在触摸屏显示器上渲染按钮。
在本公开的各种实施例中,智能语音助手检测用户语音交互、确定至少一个语音特性、并根据所确定的语音特性来调制智能语音助手的输出音量。在一个实施例中,情境控制器基于语音的特性来检测用户正在说话的声音大小,该特性可以包括输入音频信号的幅度、发声特性、用户与智能语音助手之间的距离、环境噪声以及其他特性。情境控制器分析输入语音信号的特性,并调制智能语音助手的输出音量以匹配检测到的使用情境。例如,如果用户正在安静的房间中低语,则情境控制器可以降低输出音量以用对应安静的语音输出进行响应。在另一示例中,如果用户位于距设备跨房间的位置,则情境控制器可以提高音量以跨房间将语音输出投射到用户以清楚地听到。
通过考虑以下对一个或多个实施例的详细描述,将向本领域技术人员提供对本公开的实施例的更完整理解,以及其附加优点的实现。将参考首先将简要描述的附图的附页。
附图说明
参考下面的附图和以下详细描述,可以更好地理解本公开的各方面及其优点。应当理解,相同的参考标号用于标识在附图中的一个或多个中图示的相同的元件,其中附图中的显示是为了图示本公开的实施例的目的而不是为了限制本公开的实施例的目的。附图中的部件不必是按比例的,而是将重点放在清楚地图示本公开的原理上。
图1图示了根据一个或多个实施例的在嘈杂环境中的示例语音交互设备。
图2图示了根据一个或多个实施例的示例注意感知输出渲染。
图3图示了根据一个或多个实施例的示例情境感知语音交互设备。
图4是图示根据一个或多个实施例的情境感知控制器的示例操作的流程图。
图5是图示根据一个或多个实施例的情境感知语音交互设备的示例操作的流程图。
图6是图示根据一个或多个实施例的使用语音特性来调制音频响应的情境感知语音交互设备的示例操作的流程图。
具体实施方式
本公开的系统和方法提供了用于操作、配置和优化语音交互设备的性能的改进的技术。在各个实施例中,语音交互设备包括多个输入和输出模态,其可以包括音频输入、音频输出、图像传感器、显示器和/或触摸屏显示器。虚拟助手模块促进了语音交互设备与目标用户之间的语音通信,并使输入和输出模态适应于当前的使用情境。情境模块监视从输入部件接收的输入数据,并更新定义当前使用情境的情境参数。语音交互设备可以被实现为具有显示器并且支持包括用于接收语音、触摸和图像输入的传感器的多种输入模式的语音交互智能语音助手。
在一个实施例中,语音交互设备支持多种输入模态,诸如由至少一个音频传感器(例如,麦克风)接收的语音命令,以及诸如触摸屏显示器中的传感器之类的触摸输入。特定输入模态可能比其他输入模态更适合于在特定情境中执行特定任务。例如,当语音交互设备在用户的可及范围之外时,语音输入可能比触摸输入更有效和合意。本公开提供了可操作以使可用的输入模式和输出的保真度适应于检测到的使用情境和用户注视的系统和方法。
在一种操作方法中,当语音交互设备在用户的可及范围之外时,优选的输入模态是语音,并且显示屏幕上的可视化被渲染得足够大,以供用户从检测到的距离看到。情境控制器在操作期间使用从相机捕获的图像、音频输入和/或其他传感器输入来跟踪用户。当用户移动得更靠近语音交互设备时,视觉输出可以对应地适应于用户和显示器之间的距离。例如,当用户移动得更靠近语音交互设备时,可以以较小的尺寸显示更多信息。当用户在设备的可及范围内时,可以提供启用触摸的界面。当用户移动远离语音交互设备时,显示的信息可以适应于可读性,其中以较大的尺寸显示较少的信息,并且可以禁用启用触摸的界面(例如,以节省功率和/或以优化用户体验)。在一个实施例中,当用户靠近设备时,可用的启用触摸的输入控件可以利用通过语音交互设备的扬声器播放的语音提示来替换。
在操作期间,语音交互设备通常在等待要说出的关键字以触发进一步的语音命令处理的同时进入低功率模式(例如,睡眠模式)。在一个实施例中,可以通过使用一个或多个内置相机来进一步增强触发和唤醒功能性,所述相机可以检测用户在视野中的存在(例如,通过将图像帧与背景图像进行比较、面部识别、运动检测等)。相机还可用于分析用户的注视是否指向设备(例如,在设备附近和/或正看着设备),并使输入和输出模态两者适应于特定的情境。可以对捕获的图像进行分析以检测人像,可以对所述人像进行分析以确定从用户到语音交互设备的距离(例如,通过估计图像中的对象的尺寸、通过确定由3d相机捕获的3维图像中的空间位置)以智能地使输入方法和输出保真度两者适应于相应的情境。将这种检测到的用户情境信息提供给基于人工智能的虚拟助手,以为用户提供更好的对话体验,以及取决于用户的情境和注视来适配输入方法并渲染视觉输出。
在一个实施例中,提供了注意感知输出渲染。注意感知设备可以使视觉界面适应于用户的注意。作为第一阶段,系统可以评估用户的注视是否指向显示器,并且如果不是,则将显示器转向空白。如果用户的注视指向设备(使得用户似乎在注意设备),则系统可以基于到系统的距离来渲染输出保真度,从而使得从远处阅读更加舒适,并当用户移动得更靠近设备时(诸如通过语义缩放)增加了更多细节。图2图示了当用户移动得更靠近显示器时潜在输出的三个示例。
在另一实施例中,由情境控制器提供空间关系学输入模态选择,该情境控制器被配置为监视一个或多个输入部件以跟踪目标用户。设备可以基于用户到语音交互设备的接近度来自适应地配置输入模态。当用户靠近设备时,诸如在手臂的可及范围内,该界面可以提供启用触摸的界面元件(参见图2中的最后步骤,其中显示退出按钮)。当用户进一步远离设备时,为了从远处的清晰度的益处,移除了这些界面元件,并且用户交互可以被限制为语音作为主要输入模态。在一个实施例中,设备在多用户环境的情境中跟踪多个用户并适配输入模态。例如,如果任何用户靠近设备移动,则即使为一个或多个其他用户配置了其他输入/输出模态,也可以启用触摸界面。
在各种实施例中,还提供了用于自适应地调节语音输出的系统和方法。在一个实施例中,语音交互设备接收包括目标音频信号的音频输入信号、增强目标音频信号、确定与目标音频信号相关联的音频特性、并且根据确定的特性和其他可用情境信息来调制音频输出。情境控制器可以例如通过分析用户的语音和环境的多个特性来确定用于使用情境的适当的输出音量水平,所述特性可以包括如在设备输入处测量的目标音频信号中的话音音量、环境噪声(例如,背景噪声水平)、目标用户与语音交互设备之间的距离(例如,经由估计的来自用户的话音到达时间、来自图像传感器的对象跟踪)、发声(例如,话音是否是低语、中性话音、喊叫)和其他语音特性。例如,如果目标音频信号包括由语音交互设备附近的安静房间中的用户说出的低语的话音命令,则情境控制器可以降低设备输出音量以传递近似输入情境的语音响应输出。在另一示例中,如果目标音频信号包括在嘈杂的环境中从目标用户接收的喊叫的话音命令,该目标用户距语音交互设备一定距离(例如,在房间对过),则情境控制器可以调节设备输出音量来以更高水平传递语音响应输出,以将语音响应投射到环境噪声之上,并跨房间投射到目标用户。
本文中公开的方法还可以应用于动态内容,诸如视频输出。设备可以跟踪用户的注视是否指向显示器。例如,一个或多个图像传感器可用于跟踪用户的位置,包括距语音交互设备的距离以及用户的注视。可以通过分析从设备相机(例如,3d相机)接收到的捕获图像来确定用户的位置和距离,并且可以例如通过分析眼睛方向和移动来跟踪用户的注视。当用户从远处注意时,可以降低视频流的帧速率以及视频流的分辨率。当用户接近设备时,两个速率都可以递增。此操作对于靠电池来运行的设备(诸如便携式语音交互设备、电话和平板)是有益的。
可以通过系统硬件来实现本文中公开的接近度、注视跟踪、调制语音输出和其他功能性,使得接近度模块、注视跟踪模块、语音处理模块和音频处理模块可以交互以检测用户存在。用户输入/输出空间可以由硬件控制,该硬件提供用于语音、注视、显示和触摸的i/o、情境以及跟踪功能性。面部识别也可以用于查找该人的交互历史,以自定义用户体验(例如,通过使用重音、特定的词典等来使对话更简单)。
图1图示了根据本公开的各种实施例的用于语音交互设备的示例性操作环境100。操作环境100包括语音交互设备105、目标音频源110(例如,用户)以及一个或多个噪声源135、140和145。在图3001中所图示的示例中,操作环境100被图示为房间150的内部,但是设想操作环境可以包括其他环境。语音交互设备105可以包括一个或多个音频感测部件(例如,麦克风)115a-15d和一个或多个音频输出部件(例如,扬声器)120a-120b。在图示的实施例中,语音交互设备105包括四个麦克风和两个扬声器,但是可以实现其他配置。语音交互设备105还包括至少一个用户输入/输出部件130,诸如触摸屏显示器和图像传感器132,以提供与语音交互设备105的用户交互的(一个或多个)附加模式。
语音交互设备105可操作以经由音频感测部件115a-115d感测来自环境的声音,并生成音频输入信号,该音频输入信号可以包括两个或更多个音频输入通道。语音交互设备105可以使用音频处理技术来处理音频输入信号,以检测和增强从目标音频源110接收的音频信号。例如,空间滤波器(例如,波束形成器)可以接收音频输入信号、识别目标信号的方向、并使用相长干扰和噪声消除技术来输出增强的音频信号(也称为增强的目标信号),其增强由目标音频源110产生的声音(例如,话音)。然后,可以将增强的音频信号传输到语音交互设备105内的其他部件,诸如话音识别引擎或语音命令处理器,或在voip呼叫期间作为输入信号传输到网络电话(voip)应用程序。在各种实施例中,语音交互设备105可以操作为促进跨网络的voip通信或视频会议的通信设备,并且语音交互设备还可以从远程设备接收音频和视频信号,并且经由音频输出部件120a-120b来输出音频信号。
目标音频源110可以是产生可由语音交互设备105检测到的目标音频125的任何源。在图示的示例中,目标音频125被定义为人类话音,并且目标音频源110是人类。除了目标音频源110之外,操作环境100可以包括一个或多个噪声源135-145。在各种实施例中,不是目标音频的声音被处理为噪声。在所图示的示例中,噪声源135-145可以包括例如播放音乐的扬声器135、播放电视节目、电影或体育赛事的电视140以及非目标说话者145之间的背景对话。将理解,在各种操作环境中可能存在其他噪声源。
目标音频和噪声可以从不同方向到达语音交互设备105的麦克风115a-115d,并且每个音频源的位置可以随着时间改变。例如,噪声源135-145可以在房间150内的不同位置处产生噪声,并且目标音频源(人)110可以在围绕房间150行走时讲话。此外,目标音频和/或噪声可能从房间150内的固定装置(例如墙壁)反射。语音交互设备105可以基于由麦克风115a-115d接收的音频输入信号来估计目标音频源110的位置,并且基于估计的位置来处理音频输入信号以增强目标音频并抑制噪声。可以将与目标音频源110的方向和距语音交互设备105的距离有关的信息提供给情境控制器134,情境控制器134监视用户位置和活动并根据当前的使用情境自适应地配置语音交互设备105的操作。
在一个实施例中,语音交互设备105还包括一个或多个图像传感器132,诸如可以在3d相机中实现的图像传感器。在操作中,图像传感器132和触摸屏显示器130可以提供视频呼叫功能性、视频记录和图像捕获功能。图像传感器132还可以用于标识目标音频源110的位置、目标源的注视是否指向语音交互设备105以及有关环境100和目标音频源110的其他信息。在一个实施例中,情境控制器134可操作以监视音频和视觉情境信息,并响应于此而自适应地配置语音交互设备105。
在一个实施例中,目标音频源110(在本文中也称为目标用户)可以最初位于远离语音交互设备105。情境控制器134可以使用从麦克风和图像传感器132接收的音频和视觉信息来估计目标音频源110的位置。例如,当用户远离语音交互设备并且在语音交互设备的可及范围之外时,触摸控件无效,并且触摸屏显示器130上的详细信息可能不可读。如果用户离语音交互设备太远而无法阅读显示器,或者如果用户没有注意如通过跟踪用户的注视确定的触摸屏显示屏130,则情境控制器134可以关闭触摸屏显示器130。以这种方式,语音交互设备105可以节省功率,并且情境控制器134可以调节输出模态以增强用户体验(例如,通过可替换地准备并将输出引导到音频输出部件120a-b)。
在各种实施例中,情境控制器134可以监视目标音频源110的位置和注视,并根据当前情境修改模态。例如,如果用户位于房间对过,则触摸屏显示器130可以用于以较大的尺寸显示减少的信息量,该信息可以在房间对过看得见(诸如图2的屏幕(a)中所描绘)。当用户移动得更靠近语音交互设备105(诸如移动到位置110b)时,用户可以更好地看到显示器,从而允许显示更多的视觉输出(诸如图2的屏幕(b)中所图示)。当用户移动得更靠近语音交互设备105并在其可及范围内(诸如移动到位置110c)时,用户可能能够阅读屏幕上显示的附加详细内容,并且足够靠近以激活触摸控件(诸如图2的屏幕(c)上所呈现)。
在另一个实施例中,语音交互设备105可操作以监视环境的噪声水平并鉴于环境噪声状况来调节语音提示的输出音量。当噪声水平高于某个阈值时,情境控制器134可以将输出提示切换到触摸屏显示器上的视觉表示。
图3图示了根据本公开的各种实施例的示例性设备300。在一些实施例中,设备300可以被实现为图1的语音交互设备105。设备300包括音频传感器阵列305、至少一个扬声器310a-b、音频信号处理器320和设备模块350。
音频传感器阵列305包括两个或更多个传感器,传感器中的每个可以被实现为将以声波形式的音频输入转换成音频信号的换能器。在所图示的环境中,音频传感器阵列305包括多个麦克风305a-305n,每个麦克风生成音频输入信号,该音频输入信号被提供给音频信号处理器320的音频输入电路322。在一个实施例中,音频传感器阵列305生成多通道音频信号,其中每个通道对应于来自麦克风305a-n之一的音频输入信号。
音频信号处理器320包括音频输入电路322、数字信号处理器324和音频输出电路326。在各种实施例中,音频信号处理器320可以被实现为包括模拟电路、数字电路和数字信号处理器324的集成电路,其可操作以执行存储在固件中的程序指令。音频输入电路322例如可以包括到音频传感器阵列305的接口、抗混叠滤波器、模数转换器电路、回声消除电路以及如本文中公开的其他音频处理电路和部件。数字信号处理器324可操作以处理多通道数字音频信号以生成增强的目标音频信号,其被输出到设备模块350中的一个或多个。在各种实施例中,数字信号处理器324可以可操作以执行回声消除、噪声消除、目标信号增强、后滤波以及其他音频信号处理功能。在一些实施例中,设备模块350被配置为在不活动时段期间进入低功率模式(例如,睡眠模式),并且音频信号处理器320可操作以等着听触发词并当检测到触发词时唤醒设备模块350中的一个或多个。
音频输出电路326处理从数字信号处理器324接收的音频信号,以用于输出到至少一个扬声器,诸如扬声器310a和310b。在各个实施例中,音频输出电路326可以包括将一个或多个数字音频信号转换为模拟音频信号的数模转换器和用于驱动扬声器310a-310b的一个或多个放大器。
设备300可以被实现为任何语音交互系统或装置,诸如例如智能语音助手、移动电话、平板电脑、膝上型计算机、台式计算机、语音交互应用或汽车。设备模块350可以包括用于促进设备300的操作的各种硬件和软件部件。在所图示的实施例中,设备模块350包括处理器352、用户界面部件354、用于与外部设备和网络(诸如网络382(例如,因特网、云、局域网或蜂窝网络)和外部设备384(例如,移动设备))通信的通信接口356以及存储器358。设备300可以进一步包括一个或多个应用程序364、语音处理器370、情境控制器376和虚拟助手模块380。
处理器352和数字信号处理器324可以包括处理器、微处理器、单核处理器、多核处理器、微控制器、可编程逻辑设备(pld)(例如,现场可编程门阵列(fpga))、数字信号处理(dsp)设备或其他逻辑设备中第一个或多个,其可以通过硬接线、执行软件指令或两者的组合配置为执行本文中针对本公开的实施例讨论的各种操作。设备模块350被配置为诸如通过总线或其他电子通信接口与音频信号处理器320和其他设备模块350对接并通信。
应当理解,尽管音频信号处理器320和设备模块350被示为包含硬件部件、电路和软件的组合,但是在一些实施例中,可操作以执行的硬件部件和电路的至少一些或全部功能性可以被实现为由处理器352和/或数字信号处理器324响应于存储在存储器358或数字信号处理器324的固件中的软件指令和/或配置数据而执行的软件模块。
本文中公开的存储器358和其他存储器部件可以被实现为可操作以存储数据和信息(包括音频数据和程序指令)的一个或多个存储器设备。存储器358可以包括一种或多种各种类型的存储器设备,包括易失性和非易失性存储器设备,诸如ram(随机存取存储器)、rom(只读存储器)、eeprom(电可擦除只读存储器)、闪存、硬盘驱动器和/或其他类型的存储器。
处理器352可以可操作以执行存储在存储器358和其他存储器部件中的软件指令。在各种实施例中,语音处理器370可以以硬件、由处理器352执行的软件指令或硬件和软件的组合来实现。语音处理器370包括话音识别引擎372,其可操作以处理从音频信号处理器320接收的目标音频信号,以识别话音并检测触发词和/或语音命令。
用户界面部件354可以包括显示器390、用户输入部件392(诸如触摸板显示器、小键盘、一个或多个按钮、拨盘或旋钮)和/或其他可操作以使用户能够直接与设备300交互的输入/输出部件。用户界面部件354还可包括一个或多个传感器,诸如用于捕获图像和视频的一个或多个图像传感器(例如,相机)。在一些实施例中,用户界面部件354包括至少一个用于接收听不见的目标用户交互的输入部件,和/或至少一个用于生成对目标用户听不见的响应的输出部件。
设备模块350进一步包括情境控制器376,其可以以硬件、由处理器352执行的软件指令或硬件和软件的组合来实现。情境控制器376包括用于接收、处理和监视设备300的当前环境和使用情境的情境监视器378,其可以包括监视一个或多个听不见的目标用户交互。例如,情境控制器376可以被配置为检测目标用户的位置和移动,并通过跟踪用户的注视(例如,通过从目标用户的捕获的图像来确定注视方向)来确定目标用户是否正在注意设备300。
在一个实施例中,情境控制器376可操作以处理来自3d图像传感器(传感器394)的视频图像、检测视野内目标人类的存在、跟踪目标人的移动并确定目标人与设备300有多远(例如,通过分析图像中检测到的人类的相对尺寸或位置)。在一个实施例中,情境监视器378可操作以分析从图像传感器394接收的图像,以确定目标人类是否正例如通过跟踪眼睛移动来注意设备300。情境信息可以作为情境参数存储在存储器中,以供由其他模块访问。
虚拟助手模块380可操作以向目标用户提供对话体验、适配输入/输出模态并促进用户命令(例如,从目标用户接收的语音命令)的执行。在各种实施例中,虚拟助手模块包括基于人工智能的系统(例如,人工智能模块),其包括训练的神经网络,该训练的神经网络从语音处理器370接收语音命令并从情境控制器376接收情境参数,并使用户体验适应于如本文中所公开的当前使用情境。应用程序364包括可以由处理器352执行的指令和相关联的数据,并且可以包括可以由用户和/或虚拟助手模块380启动的设备和用户应用程序。在一个实施例中,应用程序364包括voip应用程序,该voip应用程序促进与一个或多个外部设备(诸如外部设备384或服务器386)进行语音通信。在各种实施例中,虚拟助手模块380可操作以根据来自情境控制器376的情境信息来自适应地更新输入和输出模态。
通信接口356促进设备300与外部设备之间的通信。例如,通信接口356可以启用设备300与一个或多个本地设备(诸如外部设备384)或诸如通过网络382提供对服务器386的网络访问的无线路由器之间的wi-fi(例如,802.11)或蓝牙连接。在各种实施例中,通信接口356可以包括其他有线和无线通信部件,以促进设备300与一个或多个其他设备之间的直接或间接通信。
参照图4,现在将描述根据本公开的实施例的情境感知语音交互设备的操作。语音交互设备最初根据默认输入/输出配置(如由用户配置的)进行操作(步骤400)。在操作期间,情境控制器检测并监视与目标用户活动有关的音频和传感器数据(步骤402)。音频数据可以指示目标用户的存在和位置以及环境中的噪声水平。其他传感器数据可包括图像传感器和图像处理功能性,以用于检测和跟踪图像传感器的视野中的对象。例如,目标用户相对于设备的距离和位置可以用于设置显示屏的输出配置。例如,可以通过对图像传感器的视野中的检测到的目标用户的尺寸和位置的图像分析来确定目标用户的位置。还可以例如通过分析由设备麦克风阵列接收的目标音频的方向来估计位置。目标用户的估计的距离和位置可以存储为定义当前情境的情境参数。在各种实施例中,情境参数可以包括数值数据(例如,检测到的目标用户的数量、距设备的距离(以米为单位)、目标用户相对于显示器的方向(以度为单位))、状态信息(例如,目标用户是否在设备的可及范围内、是否可以从目标用户的位置阅读显示器、目标用户的注视是否指向设备)、以及根据系统要求的其他情境信息。
鉴于用户偏好来分析情境参数以确定最佳的输入/输出模态(步骤404),并且根据当前使用情境来更新设备输入/输出配置(步骤406)。例如,目标用户可能处于太远的第一位置中或处于某一视角,使得不能查看显示在显示设备上的信息。可以关闭显示设备(例如,以节省功率),并且可以将其他输出模态用于用户输出(例如,通过设备扬声器传递音频信息和提示)。目标用户可能移动到在设备的可及范围之外的第二位置,但足够靠近以查看显示设备上提供的基本信息。当目标用户接近设备时,情境参数将被更新以显示新的目标用户位置,并且输出配置可以被自适应地配置为向目标用户提供从新的更靠近的距离可阅读的更详细的信息。
在各种实施例中,当设备在目标用户的可及范围之外时,设备输入和输出可以被配置用于具有音频提示的语音命令处理。目标用户可以移动到在设备的可及范围内的第三位置(例如,通过将当前距离与达到阈值进行比较),从而为可能优于语音处理的触摸控件的创造条件。激活的应用程序根据改变的设备输入/输出配置来自适应地处理输入和输出(步骤408),并且设备根据新的情境配置继续操作(例如,以通过期望的模态来引导输入和输出交互)。
参照图5,现在将描述根据一个或多个实施例的情境感知语音交互设备的示例操作。在步骤500中,情境控制器从一个或多个图像传感器(诸如语音交互设备的3d相机)接收捕获的图像流。情境控制器分析图像以识别并跟踪捕获的图像内的人类(步骤502)。接下来,估计每个跟踪的人类相对于设备的物理位置(步骤504)。基于物理位置和从设备到人类的估计距离,可以分配情境区域(步骤506),诸如识别跟踪的人是否在语音交互设备的可及范围内的区域、其中设备在可及范围之外并且显示器是可读的区域、其中设备在可及范围之外并且显示器的可读性被限制的远区域、以及指示显示器不能由跟踪的人查看的区域(例如,人离显示器太远或在没有到显示器的视线的位置处)。在步骤508中,进一步分析图像以确定跟踪的人是否正在注意显示器(例如,通过确定注视点和眼睛移动)。参数被存储在情境参数存储器510中,该情境参数存储器510可以被其他系统部件(诸如图3的虚拟助手模块380)访问。
参照图6,现在将描述根据一个或多个实施例的使用语音特性来调制语音响应输出的情境感知语音交互设备的示例操作。在各个实施例中,语音交互设备接收包括目标音频信号和背景噪声的音频输入信号(步骤600)。在步骤602中,确定目标音频信号的语音特征特性。语音特征特性可以包括接收的目标音频信号中的话音的幅度和发声确定。在一个实施例中,发声确定包括从语音处理器确定目标说话者是否正在低语、使用柔和语音、使用中性语音、使用大声语音或喊叫。
在步骤604中,评估音频输入信号以确定用户与语音交互设备之间的距离的估计。在一个实施例中,使用接收的目标话音的音量、目标话音到达语音交互设备的两个或多个麦克风的时间差、以及发声信息(例如,低语可指示用户很靠近设备,而喊叫可指示说话者距离更远)来估计距离。在各种实施例中,可以使用其他音频和环境信息,包括房间特性和回响信号特性。在一些实施例中,语音交互设备可以包括提供可以在距离确定中使用的输入的附加传感器(步骤608)。例如,如本文中先前所讨论的,可以使用图像传感器来捕获视野的图像并跟踪所捕获的图像中的人(例如,使用对象检测/运动检测),并映射人相对于语音交互设备的位置。在步骤610中,从(一个或多个)背景噪声信号确定背景噪声特性,这可以包括确定平均噪声水平。
在步骤612中,由情境控制器使用语音特征特性(来自步骤602)、距离信息(来自步骤604)和背景噪声特性(来自步骤610)来自适应地修改语音交互设备的输出模式。例如,在一个实施例中,调节输出音频水平,使得如由目标用户接收的语音输出的音量与目标用户正在讲话的音量为近似相同水平。在其他实施例中,可以调节输出音频水平以向用户提供清晰的语音响应,该语音响应可以独立于说话者的语音水平(例如,基于环境噪声和距设备的距离)。在另一个实施例中,情境控制器使用附加的语音特性,诸如目标用户正说话的速度、音调、发音、紧张,以进一步确定说话者的情绪状态并相应地调节输出模式。在步骤614中,情境控制器根据语音特征特性、目标用户距离和背景噪声来重新配置音频输出设置。在步骤616中,语音交互设备根据重新配置的输出模式来处理语音输出。
在操作中,如果接收到的目标音频信号包括在安静的房间(例如,晚上有另一个人在附近睡觉的用户的卧室)内接收到的低语的话音命令,则情境控制器可以调节设备输出音量来以匹配输入情境的较低水平传递语音响应(低语的响应)。以这种方式,本公开提供了优于常规方法的优点。如果语音交互设备要以标准语音进行响应以确认命令或提供反馈,则对于使用情境而言音量可能会令人吃惊且破坏性大。尽管用户可以通过触摸设备(例如,通过按压一个或多个按钮)来物理地调节音量,但这将需要用户部分的额外努力,但用户可能不能够触及设备和/或用户可能没意识到当前的音量设置太高,直到要传递语音响应。
在另一种情境中,用户可能处于嘈杂的环境中,在该环境中,用户难以听到设备的响应。如果目标音频信号包括由该设备在嘈杂环境中从目标用户(该目标用户与语音交互设备相距一段距离(例如,在房间对过))接收的喊叫的话音命令,则情境控制器可以调节设备输出音量来以高于正常水平(例如,高于配置的对话音量水平)传递语音响应,以将语音输出响应投射到环境噪声之上,并跨房间投射到目标用户。如果检测到处于嘈杂环境中的用户靠近设备并以正常语音或安静语音讲话,则情境控制器可以自适应地调节输出以匹配用户的语调,从而以较柔和的语音输出话音响应,其对于靠近设备的用户将是可辨别的。如果环境改变(例如,在嘈杂事件已经结束之后),则本公开的语音交互设备将自动将输出音量调节为适合于新使用情境的设置,这可以使用目标用户的话音音量、环境噪声水平、目标用户与设备的距离以及其他情境信息来确定。
在一个或多个实施例中,语音交互设备被配置为在从目标用户接收的低语的话音与非低语的话音之间进行区分,并在检测到低语的话音时自适应地将语音输出调节为较低的音量设置。例如,语音交互设备可以通过检测目标音频信号的低幅度、“低语”发音特性(例如,话音持续时间、能量分布、频谱斜率、谐波分量、以及与正常话音不同的其他话音特性)、以及情境信息(诸如低环境背景噪音和用户与语音交互设备的靠近接近度)来将目标音频信号分类为包括“低语”话音。在各种实施例中,语音交互设备可以识别安静模式,该安静模式包括低语的话音(不具有声带的震动的发声)和具有比正常话音更低音量的柔和话音(声带的一些震动)两者的分类。情境控制器可以分析检测到的使用情境以确定是否应将安静模式或低语模式用于音频输出。
在适用的情况下,可以使用硬件、软件或硬件和软件的组合来实现由本公开提供的各种实施例。而且,在适用的情况下,在不脱离本公开的范围的情况下,本文中阐述的各种硬件部件和/或软件部件可以组合成包括软件、硬件和/或两者的复合部件。在适用的情况下,在不脱离本公开的范围的情况下,本文中阐述的各种硬件部件和/或软件部件可以被分成包括软件、硬件或两者的子部件。另外,在适用的情况下,可以设想软件部件可以被实现为硬件部件,并且反之亦然。
根据本公开的软件(诸如程序代码和/或数据)可以被存储在一个或多个计算机可读介质上。还可以设想,可以使用联网和/或以其他方式的一个或多个通用或专用计算机和/或计算机系统来实现本文中标识的软件。在适用的情况下,本文中描述的各个步骤的顺序可以改变、组合成复合步骤和/或分成子步骤以提供本文中描述的特征。
前述公开并非旨在将本公开限制为所公开的精确形式或特定使用领域。这样,可以设想,根据本公开,无论是否在本文中明确描述或暗示,对本公开的各种替代实施例和/或修改是可能的。已经这样描述了本公开的实施例,本领域普通技术人员将认识到,可以在形式和细节上进行改变而不脱离本公开的范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除