使用多模式界面以利于口头命令的发现的制作方法
本公开的实施例涉及语音界面,更具体地涉及使用多模式界面生成和呈现口头命令建议。
背景技术:
对于基于语音界面的用户而言,适当的口头命令的可发现性(意识和理解)代表了长期挑战。事实上,就可发现性而言,指的是用户不知道哪些口头命令可用(意识)和/或如何用措辞表达命令以便这些命令将被支持界面的系统理解(理解),当其成为基于语音界面的用户所面临的障碍时,是仅次于语音识别准确性的问题。用户通常最终猜测他们认为支持系统可能会识别和/或使用他们习惯于使用的、但系统可能无法理解的惯用语或白话的口头命令,两者通常都会导致执行错误和挫折。
解决这些可发现性挑战的一种方法是,系统为用户提供示例性命令的列表作为入门(onboarding)体验的一部分,因为这是让用户接触由基于语音的系统支持的操作和命令的自然时机。然而,当用户未参与任何特定任务或动作时在入门期间呈现的此类列表通常在被透彻地、完全地回顾之前已被用户关闭。即使用户透彻的回顾了示例性命令列表,所呈现的命令通常在用户参与动作或任务时尝试采用命令时也被忘记。
为了使用户意识到新支持的和/或不经常使用的命令,一些解决方案向用户发送通知,以提醒他们可用命令或新命令何时可用。类似地,一些解决方案向用户每周发送电子邮件,其包括可用命令提醒和更新。然而,仅周期性地呈现示例性命令建议是不够的,因为用户倾向于在他们参与利用基于语音系统执行动作和/或任务时忘记这些命令。
技术实现要素:
本公开的实施例尤其涉及用于生成和呈现口头命令的示例以利于由支持多模式界面的系统理解的相关口头命令的可发现性的框架。本文所述的框架还允许用户逐步探索可用口头命令。当非口头(例如直接操纵)输入被使用时,所描述的框架通过提供示例性口头命令建议来实现命令可发现性。与经由多模式用户界面从用户接收的直接操纵输入(例如,触摸输入、键盘输入或鼠标输入)相关联的目标被确定,并且与目标相关的一个或多个示例性口头命令建议被生成。所生成的口头命令建议的至少一部分被提供,以用于利用三个界面变体之一与多模式用户界面相关联的呈现。这些变体包括使用基于列表的方法呈现口头命令建议的界面、使用上下文覆盖层窗口呈现口头命令建议的界面以及呈现嵌入在gui内的口头命令建议的界面(“图形用户界面”)。所提出的每个界面变体利于用户意识到支持多模式界面的系统能够执行的口头命令,并且同时教导用户可用口头命令可以如何被调用(例如,适当的措辞变体和多模式交互)。
提供本发明内容以简化形式介绍一些概念,这些概念将在下面的详细描述中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
下面参考附图详细描述本发明,其中:
图1是图示了根据本公开的实现的命令建议生成框架的高级别概述的示意图;
图2是图示了根据本公开的实现的用于利于在多模式用户界面中的口头命令的发现的示例性系统的框图;
图3是图示了根据本公开的实现的与当目标涉及图像编辑时可以被选择的操作集合相关联的措辞模板的示例性列表的示意图;
图4是图示了根据本公开的实现的穷举界面的示例性屏幕显示;
图5a-图5e是描绘图示了根据本公开的实现的自适应界面的示例性屏幕显示;
图6a-图6d是描述图示了根据本公开的实现的嵌入式界面的示例性屏幕显示;
图7是示出了根据本公开的实现的用于利于多模式界面中的口头命令的可发现性的示例性方法的示意图;
图8是示出了根据本公开的实现的用于利于多模式界面中的口头命令的可发现性的示例性方法的示意图;以及
图9是适合在本公开的实现中使用的示例性计算环境的框图。
具体实施方式
在此具体描述本公开的主题,以满足法定要求。然而,说明书本身并不旨在限制本专利的范围。相反,发明人已经预料到,所要求保护的主题还可以以其他方式体现,以结合其他当前或将来的技术来包括与本文档中所描述的步骤不同的步骤或步骤的组合。此外,尽管此处术语“步骤”和/或“框”可以被使用来表示所采用方法的不同元素,但是除非当各个步骤的顺序被明确地描述了,否则这些术语不应被解释为暗示本文所公开的各种步骤之中或之间的任何特定顺序。
对于自然语言界面(nli)的用户来说,发现可用的口头命令以及这种口头命令如何进行措辞以使支持系统能够理解它们仍然是一个长期挑战。作为纯语音和多模式解决方案的一部分,语音转文本引擎的改进以及商业语音界面的普及已经为这种模式带来了更多的最终用户。然而,相对于其他gui元素,语音(和其他口头输入)的“隐形”性质使用户学习和采用语音特别具有挑战性。在这种上下文中,可发现性不仅需要使用户意识到可以使用口头命令而被执行的操作(即意识),还需要教育用户口头命令应该如何被措辞,使得系统可以正确地解释它们(即理解)。缺乏对发现口头命令的支持通常导致用户不得不猜测支持的口头命令和/或措辞。然而,由于猜测更可能会被误解,导致错误增加,因此已经接触过此类系统的用户可能不希望完全使用口头输入,而无论用户所采用的系统。
与纯语音界面相比,支持口头输入和至少一种形式的直接操纵输入(例如,触摸输入、键盘输入、鼠标输入、眼动跟踪、空中姿势等)的多模式界面提供了优点。由于多种输入模式可以提供互补的优势,因此直接操纵输入可以帮助人们更有效地使用口头输入,反之亦然。例如,在多模式文档阅读器中,纯语音界面可能使用户很难要求适当的单词发音。用户将需要猜测他/她希望系统发音的同一单词的发音。通过仅支持示例性语音和触摸的多模式界面,用户可以指向单词并要求其发音。相反地,口头输入可以帮助接受直接操纵输入的界面。例如,用户不是学习在gui中在何处以及如何调用操作,而是可以仅指向一个单词并说“读这个的发音”。随着应用开始支持更多智能(例如图像中的实体识别),多模式交互的机会越来越多。例如,在多模式图像编辑器中,用户可以指出图像中的人并发出命令“去除面部阴影”。然而,问题仍然存在:用户如何发现他们能够说的话以及怎么说?
本公开的实施例解决了教育多模式用户界面的用户关于他们可以说出什么命令来调用其期望的结果以及输入这种命令的适当的方式(例如,惯用语等)的挑战,使得支持多模式界面的系统理解他们期望的结果。为此,本公开的实施例通过允许用户经由直接操纵模式(例如,触摸,键盘,鼠标等)交互地选择目标,以利于多模式用户界面中的口头命令(例如,自然语言口头命令)的发现,并且作为响应,与多模式用户界面相关联地呈现示例性口头命令。以此方式,非语音模式可以帮助用户将高级问题“我能说什么”集中到更具体的“现在我在这儿能说什么?”这一问题上。通过直接提供相关的命令建议,本文的实施例进一步利于多模式用户界面中的口头命令的发现,通过在界面正在被用户使用时在界面中呈现示例性口头命令建议,以利于与界面的临时关联。考虑了三个界面变体。第一变体是使用基于列表的方法呈现建议的界面(在本文中称为“穷举”界面)。第二变体是使用上下文覆盖窗口来呈现建议的界面(在本文中称为“自适应”界面)。第三变体是在gui内嵌入命令的界面(在此称为“嵌入式”界面)。界面变体利于使用户意识到支持多模式用户界面的系统能够执行哪些操作,并同时教导他们可用口头命令可以如何被调用(例如,适当的措辞变体和多模式交互)。
现在参考附图,图1是图示根据本公开的实现的命令建议生成框架100的高级概述的示意图。给定要被建议的口头命令的目标(即,多模式用户界面的区域,其为直接操纵输入的对象),框架遍历该目标的可用操作110(即,能够被执行的系统动作)的列表或目录。示例性口头命令建议要被生成的操作子集被选择112。仅通过示例,这种选择可以基于以下中的一项或多项:与目标相关联的类型114,操作与用户所参与的工作流程的相关性116,针对该用户(或用户集合,例如所有用户)发出的针对操作的口头命令的次数118(“操作已发出计数”)以及先前在针对用户(或针对用户集合,例如,所有用户)的建议命令中已呈现的操作的次数120(“操作所示出计数”)。
对于所选的操作,系统然后遍历措辞模板122的预定义列表或目录,并选择124至少一个来呈现。仅通过示例,这种模板措辞选择可以基于以下的多项中的一项:与所接收的直接操纵输入相关联的类型126(即,导致口头命令建议生成的输入如何被调用),措辞模板的复杂性128(即完成模板所需的参数的数目),针对特定用户为所选操作发出的措辞模板的次数(或针对用户集合,例如所有用户)130(“模板已发出计数”)以及措辞模板在针对特定用户的建议命令中被呈现的次数(或对于用户集合,例如,所有用户)132(“模板所示出计数”)。
最终,框架用样本参数值填充134被包括在所选模板中的任何可修改参数(即,可能适合多个值的特性,诸如颜色名称、过滤器名称、工具名称等),以便生成136最终的示例性口头命令建议,其将被提供以向用户呈现。仅通过示例,可修改参数可以基于与用户138所参与的工作流程的相关性和目标的活动状态140中的一种或多种而被填充。
转到图2,示出了一个框图,该框图图示了示例性系统200,其用于利于多模式用户界面中的自然语言命令的发现。应当理解,本文描述的这种和其他布置仅作为示例阐述。除了或作为所示布置和元素的替代,其他布置和元素(例如,机器、界面、功能、顺序和功能分组等)可以被使用,并且一些元素可以被完全的省略。此外,本文描述的许多元素是功能性实体,其可以被实现为分立或分布式组件或与其他组件结合并且以任何合适的组合和位置来实现。由一个或多个实体执行的本文描述的各种功能可以由硬件、固件和/或软件执行。例如,各种功能可以由执行存储在存储器中的指令的处理器执行。
系统200是用于实现本公开的某些方面的合适架构的示例。在未示出的其他组件中,系统200包括与口头命令发现引擎212交互的用户计算设备210,以利于使用多模式用户界面的口头命令的发现。在下面讨论的图2所示的每个组件可以在一个或多个计算设备上被提供,诸如图9的计算设备900。如图2所示,用户计算设备210和口头命令发现引擎212可以经由网络214进行通信,该网络可以包括但不限于一个或多个局域网(lan)和/或广域网(wan)。这种网络环境在办公室、企业范围的计算机网络、内部网和互联网中很常见。应当理解,在本公开的范围内,任何数目的用户设备和口头命令发现引擎可以在系统200内被采用。每个用户设备和口头命令发现引擎可以包括在分布式环境中协作的单个设备或多个设备。例如,口头命令发现引擎212可以由多个服务器设备提供,这些服务器设备共同提供口头命令发现引擎212的功能性,如本文所述。另外,未示出的其他组件也可以被包括在网络环境内。
语音命令发现引擎212通常被配置为利于多模式用户界面中的语音命令的发现。多模式用户界面是支持多于一种输入模式的用户界面。在本文的各方面中,示例性多模式界面支持口头输入(例如,语音输入)和直接操纵输入(例如,经由触摸、键盘、眼动跟踪、空中姿势、鼠标或其他非口头输入而被接收的输入)。用户设备210可以经由在用户计算设备210上运行的web浏览器或其他应用访问口头命令发现引擎212并与之通信。备选地,口头命令发现引擎212可以被安装在用户计算设备210上,使得不需要经由网络214访问。
口头命令发现引擎212包括直接操纵输入接收组件216、目标确定组件218、操作确定组件220和操作子集选择组件222、口头命令建议生成组件224和呈现组件226。直接操纵输入接收组件216被配置为用于经由与用户计算设备210相关联的多模式界面从用户接收直接操纵输入。仅通过示例,直接操纵输入可以包括触摸输入、键盘输入、鼠标点击输入和悬停输入。
目标确定组件218被配置为用于确定与所接收的直接操纵输入相关联的目标。目标是多模式用户界面的区域,该区域是直接操纵输入的对象。因此,目标可以是位于多模式界面中从其接收直接操纵输入的位置附近的对象、应用、用户界面元素、图像、文本等。通过示例,如果所接收的直接操纵输入是与图像相关联地接收的触摸输入,则目标可以是该图像中接收到触摸输入时位于用户手指下方的对象(例如,背景图像、人物、形状等)。目标还可以是小部件、图标、工具栏、工具栏功能等。因此,通过示例,如果所接收的直接操纵输入是与位于工具栏中的功能指示器相关联地接收的鼠标点击输入,则目标可以是功能指示器本身,并且相应地是对应功能。与多模式界面相关联的任何对象、元素、应用、图像等在其与所接收的直接操纵输入相关联时都可以成为目标。
操作确定组件220被配置为用于确定多个操作,该多个操作是可用的,并且相对于直接操纵输入的目标能够被执行。所确定的操作列表通常被系统200预定义,并与口头命令发现引擎212相关联地被存储(或被存储在由口头命令发现引擎212可访问的分离的数据存储库(未示出)中)。操作子集选择组件222被配置为用于选择由操作确定组件220确定的操作子集,针对该操作子集来集中所生成的口头命令建议。选择适当的操作子集可以基于多种因素。第一示例性因素可以是操作与针对其被生成的建议的口头命令的目标类型(图1的114)的相关性。例如,在生成与多模式界面上所呈现的形状相关的口头命令建议时,系统200可能会选择“填充颜色”操作,因为它将与目标的类型(例如形状)相关并且可能不会选择“过滤”操作,因为这与目标类型无关。
第二示例性因素可以是操作与用户所参与的工作流程的相关性(图1的116)。如本文中所使用的,术语“工作流程”是帮助用户完成任务或动作的操作集合。工作流程通常由系统200预定义,但是也可以由用户定义。例如,如果用户参与到使用图像编辑应用通过将其变为黑白并将边框颜色从黑色改变为白色来更改颜色图像的工作流程,则相关的工作流程可以涉及“应用灰度过滤器”和“将边框颜色改变为白色”的操作。在本公开的实施例中,如果系统200确定用户参与了工作流程,则在选择操作子集时,与工作流程相关的操作可以被操作子集选择组件222考虑。
可以被操作子集选择组件222用来选择合适的操作子集的第三示例性因素是已发出计数(图1的118)。如本文中所使用的,术语“已发出计数”指的是针对特定用户(或在某些实施例中,对于用户集合,例如,所有用户)的操作已经发出口头命令的次数。在一些实施例中,向其频繁发出的口头命令的操作可以被给予优先级,因为这样的操作可以表示与所确定目标相关联的用户频繁参与的动作。在其他实施例中,向其不频繁发出的口头命令的操作可以被给予优先级,因为这样可以教育用户关于可以由系统200执行的操作。
可以由操作子集选择组件222用来选择合适的操作子集的第四示例性因素是所示出计数(图1的120)。如本文中所使用的,术语“所示出计数”指的是先前在针对特定用户(或在某些实施例中,对于用户集合,例如,所有用户)的口头命令建议中已呈现的操作次数。在一些实施例中,向其频繁呈现的口头命令的操作可以被给予优先级,因为这样的操作可以表示与所确定目标相关联的用户频繁参与的动作。在一些实施例中,向其不频繁呈现的口头命令的操作可以被给予优先级,因为这样可以教育用户关于能够由系统200执行的操作。
操作子集选择组件222包括操作排名组件228。操作排名组件228被配置为用于对包括多个操作的操作相对于彼此进行排名,以生成建议排名。在实施例中,操作排名组件228可以利用先前阐述的一个或多个因素(即目标类型,工作流程相关性,已发出计数和所示出计数)来根据预定的优先级规则集合,来生成建议排名。一旦建议排名被生成,操作子集选择组件222就被配置为至少部分地利用建议排名来选择将关注的所生成的口头命令建议的操作子集。
口头命令建议生成组件224被配置为用于生成与由操作子集选择组件222选择的操作的操作子集相关的多个口头命令建议。口头命令建议生成组件224包括措辞模板选择组件230、措辞模板子集选择组件232和参数填充组件234。虽然措辞模板通常由系统200预定义,但是在一些实施例中,它们可以由用户预定义。仅通过示例,图3图示了与操作集合相关联的措辞模板列表,当目标涉及图像编辑时,该组操作可以由操作子集选择组件222选择。本领域普通技术人员将理解和明白,这样的列表仅是示例性的,而不以任何方式限制其实施例。类似地,将理解和明白的是,本文描述的框架和系统并不特定于图像编辑工具,并且可以由其他多模式系统用来增强口头命令的可发现性。
措辞模板选择组件230被配置为用于通常通过遍历措辞模板的预定义列表来选择与由操作子集选择组件222选择的操作子集相关的多个措辞模板。措辞模板子集选择组件232被配置为用于为包括所选的操作子集的每个操作选择措辞模板。在实施例中,措辞模板子集选择组件232在选择措辞模板时可以考虑四个示例性因素。第一示例性因素是所接收输入的类型(图1的126),即,导致口头命令建议生成的直接操纵输入被调用的方式。第二示例性因素是措辞模板的复杂性(图1的128),如完成模板所需的参数的数目所证明的。在一些实施例中,系统200的默认是选择具有最低复杂性(即,最少数目的可修改参数)的措辞模板。在实施例中,每当用户执行操作达一次以上时,所选的措辞模板的复杂性可以,例如增加一个参数,直到达到预定义的最大参数数目。因此,在实施例中,用户在学习执行基本操作时逐渐地接触复杂的口头命令。
第三示例性因素是已发出计数(图1的130),即,针对特定用户(或针对用户集合,例如,所有用户)为所选的操作已发出措辞模板的次数。第四示例性因素是所示出计数(图1的132),即,已向特定用户(或向用户集合,例如所有用户)示出的措辞模板的次数。在一些实施例中,具有低已发出计数和低所示出计数的措辞被排名高于具有高已发出计数和高所示出计数的措辞。
措辞模板通常包括至少一个可修改参数。这样,口头命令建议生成组件224的参数填充组件234被配置为用于利用示例性参数值填充具有参数的措辞模板。在实施例中,如果口头命令发现引擎212确定用户参与了工作流程,则参数填充组件234可以选择工作流程定向的参数值。在实施例中,参数填充组件234可以选择与目标的当前状态不同的参数值。例如,如果所确定目标是绿色矩形,则在触摸绿色矩形时建议的填充命令将是绿色以外的颜色。
建议呈现组件226被配置为用于与多模式用户界面相关联地呈现经确定、过滤、排名和填充的口头命令建议。为了呈现而设想了三种界面变体:“穷举”界面、“自适应”界面和“嵌入式”界面。每种界面变体利于用户现场发现命令,但是要做出不同的权衡,并在口头命令建议的设计空间中表示不同点,以提高对命令的认识和理解。穷举界面呈现了所有可用操作的列表以及用于每个操作的示例命令。当用户直接操纵活动窗口或界面的各部分时,自适应界面使用上下文叠加呈现所关注的建议。这些建议出现在直接操纵输入的目标的附近。最后,嵌入式界面在一个或多个gui元素附近呈现建议。通过改变在何时、何处以及什么示例性命令的呈现方式,不同的界面支持口头命令与界面元素之间不同类型的发现和映射。
图4是图示穷举界面的示例性屏幕显示400。穷举界面以传统命令菜单来建模,这些菜单示出了针对所有操作的可用命令的列表。在实施例中,用户可以在屏幕显示(例如,麦克风指示器)中选择适当的调用触发器,以向其呈现可用操作的综合列表以及用于每个操作的示例命令。结果列表的一部分在图4中被示出。为了提高可读性,命令可以按操作被分组(如图所示),并且用户可以被允许折叠/扩展操作集合以专注于感兴趣的操作。在实施例中,穷举界面可以使用一些上下文信息并且不突出不适用于界面的活动状态的操作和命令。例如,如果图像编辑应用正在被使用,并且在活动窗口中没有形状,则针对与形状(例如,填充颜色,边框大小等)相对应的操作的命令可以被淡出(或以其他方式不突出)。穷举界面帮助用户发现适用于界面的活动状态的命令的宽度。
图5a-图5e描绘了图示根据本公开的实现的自适应界面的示例性屏幕显示。在实施例中,自适应界面利用工具提示样例的覆盖来建议与直接操纵输入的目标相关的口头命令。图5a图示了当用户在活动窗口图像中的人上提供直接操纵输入时的示例性命令建议的呈现。图5b图示了当用户在例如多模式界面的属性面板中的下拉菜单上提供直接操纵输入时示例性命令建议的呈现。图5c图示了当用户在例如工具栏中呈现的实体检测按钮(即,一个可选按钮,该按钮在被调用时会检测活动窗口中的实体)上提供直接操纵输入时的示例性命令建议的呈现。图5d图示了当用户在麦克风(通话)触发器上提供直接操纵输入时示例性命令建议的呈现。图5e图示了当用户在多模式界面的活动窗口中示出的形状上提供直接操纵输入时示例性命令建议的呈现。
为了利用自适应界面调用命令建议,用户可以长按(例如按住保持一秒钟以上)界面的不同部分,包括活动窗口、属性面板和工具栏中的小部件和按钮、或者通话按钮。建议通过用户手指附近的覆盖被呈现。建议可以是特定于用户手指正下方的某物(例如形状或图像对象),也可以是更一般地应用于界面。当利用基于触摸的界面时,为避免手的遮挡,覆盖可以出现在活动窗口上的用户手指上方,并且分别位于属性面板和工具栏的左侧或右侧。
在实施例中,自适应界面中的建议与用户手指下方的目标相关。如果目标是小部件,则建议与小部件相关。如果用户正在触摸活动窗口,则建议将关于用户手指下的对象(当活动窗口中有图像时,例如,背景图像、人物、形状等)。例如,当用户长按属性面板中的添加效果小部件调用按钮(即,一个可选择的按钮,该按钮在被选中时调用向小部件添加效果的能力)时,或者当用户直接操纵图像中的对象时,可能会出现用于应用过滤器的建议(例如“应用灰度过滤器”)。
在本公开的实施例的范围内,系统可以针对任何数目的可用操作建议任何数目的示例性可用命令建议。在实施例中,系统可以针对每个可适用的操作建议一个示例命令。命令措辞和参数值会随时间变化。例如,用户可能首先看到“在此处应用棕褐色效果”,并且稍后看到“添加变形过滤器”。为了帮助用户习惯于使用语音,系统最初会建议具有较少参数的更简单的措词,并逐步让用户接触具有多个参数的更复杂的措词。这与最终用户的“学习”自适应相关。例如,如果用户发出单个命令的次数足够多,则系统将切换为多参数命令。
如前所述,这里所使用的工作流程被定义为帮助用户完成任务的操作集合。例如,如果用户参与到使用图像编辑应用以通过将其变为黑白并将边框颜色从黑色改变为白色来更改彩色图像的工作流程,则相关的工作流程可以涉及“应用灰度过滤器”操作和“将边框颜色改变为白色”操作。如果用户正在遵循工作流程,则自适应界面会限制其呈现的建议的数目,并对与工作流程对齐的命令进行优先排序。例如,如果这是预定义工作流程中的下一步,则单个口头命令可以被建议应用棕褐色过滤器。然而,如果没有预定义的工作流程可用,则在实施例中,系统默认为每个可适用的操作建议一个命令的策略。
图6a至图6d描绘了图示根据本公开的实现的嵌入式界面的示例性屏幕显示。嵌入式界面类似于自适应界面,但有两个主要区别。首先,它通过用命令建议“增强”gui小部件,以在gui元素及其对应的口头命令之间创建可视化映射。其次,在选择相关示例时,它可能不考虑用户任务(即工作流程)。自适应界面精度高,召回率低,而嵌入式界面精度低,召回率高。
在实施例中,嵌入式界面与应用gui一同呈现命令建议。为了查看命令建议,用户可以长按界面的不同部分。例如,如果用户长按活动窗口,则系统可以在属性面板内呈现命令建议(图6b和图6c)。在示例性实施例中,强调的(例如,上色、加粗等)文本可以对应于在属性面板中增强gui小部件的口头命令建议。在实施例中,为了逐步地发现与界面面板相对应的命令,用户还可以直接长按工具栏(图6a)或属性面板(而不是仅按住活动窗口中的对象)。长按通话按钮既显示与活动窗口中的对象相对应的示例性命令建议(图6d),又将命令嵌入工具栏和属性面板内。
因为嵌入式界面增强了现有的gui小部件,所以它使用命令模板而不是命令示例。例如,命令模板“将边框颜色改变为______”可以出现在用于改变边框颜色的下拉菜单附近。在实施例中,为了提供一致的体验并使用户有信心如何说话,系统在整个会话中显示相同模板。因为工具栏几乎没有空间来嵌入文本命令,所以在实施例中,对工具栏中的工具的建议可以采取命令示例的形式,而不是类似于自适应界面模板的形式。用户激活麦克风触发器时呈现的示例也遵循与自适应界面相同的方法。
在实施例中,代替或除了在用户界面中呈现示例性命令以使得用户可以读取示例性命令之外,系统还可以向用户口头上呈现命令建议(即,可以通过与用户计算设备,例如,图2的用户计算设备210相关联的扬声器“说出”命令)。在示例性实施例中,“说话命令”可选按钮(未示出)可以被用户选择,以提示系统口头上提供命令建议。在实施例中,系统默认可以包括口头呈现。任何和所有这样的变型及其任何组合都被认为在本公开的实施例的范围内。
在实施例中,一旦口头命令被用户发出,则可以利用基于模板和基于词典的解析器组合来解译所接收的口头命令。语音解析器是本领域普通技术人员已知的,因此在此不再赘述。口头命令的操作、目标和参数可以通过将经解译的口头输入与预定义模板进行比较而被标识。如果经解译的口头输入与模板不匹配,则系统可以令牌化口头命令字符串并查找特定关键词以推断相同信息。在口头命令不包含目标的情况下,系统可以通过界面状态(例如,哪些对象先前被选择)或直接操纵输入(例如,在发出口头命令时所指向的对象)来推断目标。以此方式,直接操纵可以被用来指明(或消除歧义)口头命令的部分。
在实施例中,系统包括在口头命令没有被成功解译时的反馈机制。在所有三种界面中,反馈区域可以在文本框下方被呈现,并且还示出与本文所描述的方式类似地生成的示例性命令建议,但是代替响应于直接操纵输入,所呈现的建议也可以响应于无法识别的口头输入。为了建议该区域中的示例性命令,系统例如根据启发法推断最有可能的故障类型。(启发法对于本领域技术人员是已知的,并且因此不再赘述)。故障类型的第一种类型是措辞错误。措辞错误是指被标识为包含有效参数但与语法不一致或缺少关键词(例如“使棕褐色”)的命令的错误。在这种情况下,系统可以建议使用该参数值的示例命令(例如“添加棕褐色过滤器”)。故障类型的第二种类型是参数错误。如果存在有效的操作但是缺少或不支持参数值(例如,“改变填充颜色”或“添加复古过滤器”),则参数错误被确定。在出现参数错误的情况下,反馈指示命令不完整,并以示例(例如,“将填充颜色改变为绿色”)呈现所支持的值的列表。第三种错误类型,即操作对象映射错误,发生在系统同时推断操作和参数但命令针对不支持的对象时(例如,指向矩形时说“应用变形过滤器”)。在这种情况下,反馈可以列出可适用的对象类型(即,在该示例中为图像)。最后,如果系统既不能推断出操作,也不能推断出命令中的参数,则系统会将其视为第四种故障,即操作识别错误,并向用户指示他们应该尝试所提供的口头命令建议之一。
在实施例中,系统包括当排他性直接操纵输入被用户采用来实现任务或动作时的反馈机制。例如,如果用户采用排他性直接操纵输入,以仅通过示例,使用鼠标在对话框中选择颜色,则系统可以通知用户(例如,在文本框下方的反馈区域中):“您可以说出命令“将颜色改变为红色”来代替使用鼠标”。这样的主动动作帮助用户不仅意识到口头命令可以被利用,而且还教育用户关于示例性命令和适当的命令惯用语。
现在转向图7,图示了示出用于利于多模式界面中的口头命令的可发现性的示例性方法700的示意图。如框710所示,(例如,由图2的口头命令发现引擎212的目标确定组件218)确定与经由关联于用户计算设备(例如,图2的用户计算设备210)的多模式界面从用户接收的与直接操纵输入相关联的目标。如框712所示,操作集合被选择(例如,利用图2的口头命令发现引擎212的操作子集选择组件222)以专注于口头命令建议。如框714所示,例如,与所选的操作集合相关的一个或多个口头命令建议由图2的口头命令发现引擎212的口头命令建议生成组件224生成。最终,如框716所示,至少一部分所生成的口头命令建议被提供以用于与多模式用户界面(例如,利用图2的口头命令发现引擎212的呈现组件226)相关联的呈现,使得利于由系统理解的口头命令的可发现性。
参考图8,图示了示出用于利于多模式界面中的口头命令的可发现性的另一示例性方法800的示意图。如框810所示,与从多模式用户界面的用户接收的直接操纵输入相关联的目标被确定(例如,由图2的口头命令发现引擎212的目标确定组件218)。如框812所示,例如,与所确定目标相关联的多个操作由图2的口头命令发现引擎212的操作确定组件220确定。如框814所示,对包括多个操作的操作相对于彼此进行排名以生成建议排名(例如,通过图2的口头命令发现引擎212的操作子集选择组件222的操作排名组件228)。如框816所示,至少部分地使用建议排名,多个操作的子集被选择(例如,利用图2的口头命令发现引擎212的操作子集选择组件222)。如框818所示,例如,与操作子集相关的一个或多个口头命令建议被图2的口头命令发现引擎212的口头命令建议生成组件224生成。最终,如框820所示,至少一部分所生成的口头命令建议被提供以用于与多模式用户界面(例如,利用图2的口头命令发现引擎212的呈现组件226)相关联的呈现,使得利于由系统理解的口头命令的可发现性。
相应地,本公开的实施例涉及用于使用多模式用户界面以利于口头命令的发现的计算系统。计算机系统可以包括一个或多个处理器以及一个或多个计算机存储介质,一个或多个计算机存储介质存储计算机可用指令,计算机可用指令在由一个或多个处理器使用时使一个或多个处理器执行多种功能。在实施例中,这样的功能可以包括确定与经由多模式用户界面从用户接收的直接操纵输入相关联的目标;选择与所确定目标相关的操作集合;生成与所选的操作集合和所确定目标相关的一个或多个口头命令建议;以及提供所生成的一个或多个口头命令建议的至少一部分,以用于与多模式用户界面相关联的呈现,使得利于由系统理解的口头命令的可发现性。
本公开的实施例还涉及用于利于使用多模式界面发现口头命令的计算机实现的方法。这样的计算机实现的方法可以包括:确定与来自多模式用户界面的用户的直接操纵输入相关联的目标;确定与所确定目标相关联的多个操作;对包括多个操作的操作相对于彼此进行排名以生成建议排名;至少部分地使用建议排名,选择与所确定目标相关的多个操作子集;生成与所选的操作子集和所确定目标相关的一个或多个口头命令建议;以及提供所生成的一个或多个口头命令建议中的至少一部分,以用于与多模式用户界面相关联的呈现,使得利于用户对口头命令的可发现性。
本公开的一些实施例涉及用于利于使用多模式界面发现口头命令的计算系统。这样的计算系统可以包括用于生成与经由多模式用户界面从用户接收的直接操纵输入的目标相关的一个或多个口头命令建议的部件;以及用于提供一个或多个口头命令建议的至少一部分以用于与多模式用户界面相关联的呈现使得利于由系统理解的口头命令的可发现性的部件。
已经描述了本公开的实现,下面描述可以在其中实现本公开的实施例的示例性操作环境,以便为本文的各个方面提供一般上下文。参照图9,示出了用于实现本公开的实施例的示例性操作环境,并且该示例性操作环境通常被指定为计算设备900。计算设备900仅为合适的计算环境的一个示例,并且不旨在建议对本发明的使用范围或功能性的任何限制。计算设备900也不应被解释为具有与所示的任何一个组件或组件的组合相关的任何依赖性或要求。
可以在计算机代码或机器可用指令的一般上下文中描述其实施例,计算机代码或机器可用指令包括由计算机或其他机器,诸如个人数据助理或其他手持式设备执行的计算机可执行指令,诸如程序模块。一般地,包括例程、程序、对象、组件、数据结构等在内的程序模块是指执行特定任务或实现特定抽象数据类型的代码。本公开的实施例可以在各种系统配置中被实践,包括手持式设备、消费电子产品、通用计算机、更多专用计算设备等。本公开的实施例还可以在分布式计算环境中被实践,在分布式计算环境中,任务由通过通信网络链接的远程处理设备执行。
继续参考图9,计算设备900包括直接或间接耦合以下设备的总线910:存储器912、一个或多个处理器914、一个或多个呈现组件916、输入/输出(i/o)端口918、输入/输出组件920和说明性电源922。总线910表示可能是一个或多个总线(诸如地址总线、数据总线或其组合)。尽管为了清楚起见用线示出了图9的各个方框,但是实际上对各个组件的描述不是很清楚,并且从隐喻上讲,这些线条将更准确地为灰色和模糊。例如,可以将诸如显示设备之类的呈现组件视为i/o组件。而且,处理器拥有存储器。发明人认识到这是本领域的本质,并且重申图9的图示仅是可以结合本发明的一个或多个实施例使用的示例性计算设备的说明。在诸如“工作站”、“服务器”、“膝上型电脑”、“手持式设备”等类别之间未进行区分,因为所有这些都被认为在图9的范围内并且关于“计算设备”。
计算设备900典型地包括各种计算机可读介质。计算机可读介质可以是可以由计算设备900访问的任何可用介质,并且包括易失性和非易失性介质,可移除和不可移除介质。通过示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能磁盘(dvd)或其他光盘存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以由计算设备900访问的任何其他介质。计算机存储介质本身不包括信号。通信介质典型地在诸如载波或其他传输机制的经调制的数据信号中体现计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息递送介质。术语“经调制的数据信号”是指具有以对信号中的信息进行编码的方式来设置或改变的其一个或多个特性的信号。通过示例而非限制,通信介质包括诸如有线网络或直接有线连接之类的有线介质,以及诸如声学、rf、红外和其他无线介质之类的无线介质。以上任何内容的组合也应被包括在计算机可读介质的范围内。
存储器912包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备900包括一个或多个处理器,其从诸如存储器912或i/o组件920的各种实体读取数据。(多个)呈现组件916将数据指示呈现给用户或其他设备。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。
i/o端口918允许计算设备900逻辑地被耦合到包括i/o组件920的其他设备,其中一些可以被内置。说明性组件包括麦克风、操纵杆、游戏手柄、碟形卫星天线、扫描仪、打印机、无线设备等。i/o组件920可以提供自然用户界面(nui),其处理由用户生成的空中姿势、语音或其他生理输入。在一些实例中,输入可以被传输到适当的网络元件以进行进一步处理。nui可以实现与计算设备900上的显示相关联的以下任何组合:语音识别、触摸和手写笔识别、面部识别、生物特征识别、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼动跟踪以及触摸识别。计算设备600可以被配备有深度相机,诸如立体相机系统、红外相机系统、rgb相机系统、以及这些的组合以用于姿势检测和识别。另外,计算设备900可以被配备有能够检测运动的加速度计或陀螺仪。
如上所述,本公开的实现涉及用于生成和呈现口头命令(例如,自然语言命令)的示例,以利于支持多模式界面的系统理解的相关口头命令的可发现性,并允许用户逐步探索可用口头命令的框架。已经关于特定实施例描述了本公开,该特定实施例在所有方面都旨在是说明性的而不是限制性的。在不脱离本发明范围的情况下,备选实施例对于本发明所属领域的普通技术人员将变得明显。
从前述内容可以看出,本公开非常适合于达到上述所有目的和对象,以及对该系统和方法明显的和固有的其他优点。将被理解的是,某些特征和子组合是有用的,并且可以在不参考其他特征和子组合的情况下被采用。这是权利要求所预期的并且在权利要求的范围之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除