用于登记用户命令的显示装置和方法与流程
本申请是申请日为2015年11月20日、申请号为201510810660.0、发明名称为“用于登记用户命令的显示装置和方法”的中国发明专利申请的分案申请。
相关申请的交叉引用
本申请要求来自于2014年11月20日在韩国知识产权局递交的韩国专利申请no.10-2014-0162654的优先权,其公开在此以整体通过参考引入本文。
以下描述涉及用于登记用户命令的显示装置和方法,并更具体涉及用于登记用户定义的用户命令的显示装置和方法。
背景技术:
根据技术发展,随着例如智能电话、智能tv等显示装置能够识别用户的语音,用户可以通过所说语音控制显示装置的操作或可以具有各种内容服务,而无需执行单独的操作。上述语音识别方法基于识别与向显示装置预登记的命令相关联的所说语音的嵌入式方法。
然而,存在以下问题:用户不确切知晓向显示装置预登记的命令,并不通过显示装置有效地使用语音识别服务。因此,为了在解决上述问题的同时,使得用户能够用更有趣和更灵活的方式来使用显示装置,已经开发了一种用于登记用户命令的方法的技术,其中向显示装置登记用户定义的用户命令。
然而,根据相关技术的登记用户命令的方法关注用于登记用户简单定义的用户命令的方法。也就是说,根据相关技术的登记用户命令的方法不考虑对用户定义的用户命令的误识别概率的问题,而是仅关注相应用户命令的登记。
在其中通过根据相关技术的登记用户命令的方法来登记用户命令的状态中,响应于输入相应用户命令的所说语音,可能发生显示装置由于周围环境因素而不能准确地识别用户所说语音的问题。此外,在其中预登记了与相应用户命令类似的其他命令的状态下,响应于输入相应用户命令的所说语音,可能发生以下问题:显示装置基于与通过输入的所说语音的用户命令相类似的其他命令,执行并非用户意在的控制操作。
技术实现要素:
在以下的描述中将部分地阐述附加方面和/或优点,并且附加方面和/或优点将部分地从该描述中显而易见,或可以通过本公开的实践来获知。
本公开的示例实施例克服以上缺点和以上未描述的其他缺点。此外,不要求本公开克服上述缺点,并且本公开的示例实施例可以不解决上述问题中的任何一个。
本公开提供了一种能够登记用户定义的用户命令中抗误识别并保证高识别率的用户命令的显示装置。
根据本公开的一方面,显示装置包括:输入单元,被配置为接收用户命令;输出单元,被配置为输出用户命令的登记合适性确定结果,以及处理器,被配置为生成用户命令的音标,分析生成的音标以确定用户命令的登记合适性,并控制所述输出单元输出针对用户命令的登记合适性确定结果。
处理器可以分析生成的音标的总数量和生成的音标中的元音和辅音的连续配置中的至少一个,以确定用户命令的登记合适性。
处理器还分析以下各项的至少一个以确定用户命令的登记合适性:生成的音标的配置形式、每个单词的音标的数量、以及音标是否包括弱音标,以及所述弱音标可以包括由于周围环境而降低或丢失频带或能量幅度使得其识别率降级的特定发音的音标。
响应于确定用户命令的登记不合适,输出单元可以显示引导可登记用户命令的引导用户界面(ui),并且响应于确定用户命令的登记合适,输出用户命令的音频。
显示装置还可以包括存储单元,其中,响应于在其中输出用户命令的音频的状态下输入用户命令的所说语音,处理器根据用户命令的文本与所说语音的文本之间的相似性,在存储单元中登记并存储用户命令。
处理器可以确定用户命令的登记合适性,并且在用户命令的登记既不属于合适情况也不属于不合适情况的情况下,根据用户的选择命令在存储单元中登记并存储用户命令。
处理器可以测量多个预登记的命令的音标与用户命令的音标之间的相似性,以根据测量出的相似性来确定用户命令的登记合适性。
处理器可以根据用户命令是否与禁用命令相对应来确定用户命令的登记合适性。
响应于输入了用户命令的所说语音,输入单元可以从语音识别装置接收所说语音的一个或更多个文本,以及处理器可以确定用户在一个或更多个输出文本中选择的文本,作为用户命令的文本。
用户命令可以包括用于进入语音识别模式的触发命令和用于控制显示装置的操作的控制命令中的至少一个。
根据本公开的一方面,一种登记用户命令的方法包括:接收用户命令;基于预定义的音标集生成用户命令的音标;通过分析生成的音标来确定用户命令的登记合适性;以及提供针对用户命令的登记合适性确定。
在确定登记合适性时,可以通过分析生成的音标的总数量和生成的音标中的元音和辅音的连续配置中的至少一个,来确定用户命令的登记合适性。
在确定登记合适性时,还通过分析以下各项的至少一个来确定用户命令的登记合适性:生成的音标的配置形式、每个单词的音标的数量,以及音标是否包括弱音标,以及所述弱音标包括由于周围环境而降低或丢失频带或能量幅度使得其识别率降级的特定发音的音标。
在提供针对用户命令的登记合适性确定结果时,可以响应于确定用户命令的登记不合适,提供引导可登记用户命令的引导用户界面(ui),并且可以响应于确定用户命令的登记合适,输出用户命令的音频。
该方法还包括:响应于在输出用户命令的音频的状态下输入用户命令的所说语音,根据用户命令的文本与所说语音的文本之间的相似性来登记用户命令。
在登记用户命令时,可以确定用户命令的登记合适性,并且可以在用户命令的登记不属于合适情况也不属于不合适情况的情况下,根据用户的选择命令来登记用户命令。
在确定用户命令的登记合适性时,可以根据多个预登记命令的音标与用户命令的音标之间的相似性来确定用户命令的登记合适性。
在确定用户命令的登记合适性时,可以根据用户命令是否与禁用命令相对应,来确定用户命令的登记合适性。
在接收用户命令时,响应于输入用户命令的所说语音,可以从语音识别装置输入所说语音的一个或更多个文本,并且可以将一个或更多个输入文本中用户选择的文本确定为用户命令的文本。
用户命令可以包括用于进入语音识别模式的触发命令和用于控制显示装置的操作的控制命令中的至少一个。
根据本公开的一方面,提供了一种在与显示装置耦合的记录介质中存储以执行以下步骤的计算机程序:接收用户命令;基于预定义的音标集生成用户命令的音标;通过分析生成的音标来确定用户命令的登记合适性;以及提供针对用户命令的登记合适性确定结果,其中计算机程序登记用户命令。
附图说明
通过参照附图描述本公开的特定示例实施例,本公开的以上和/或其他方面、将会更加显而易见,在附图中:
图1是根据本公开的示例实施例的语音识别系统的框图;
图2是根据本公开的示例实施例的显示装置的框图;
图3是示出根据本公开的示例实施例的显示装置的详细框图;
图4是示出根据本公开的实施例的确定合适性的模块的视图;
图5是根据本公开的示例实施例的基于通过显示装置中的确定登记合适性的模块计算出的结果值来确定用户命令的登记合适性的示意性视图;
图6是根据本公开的示例实施例的提供显示装置中的用户命令的登记不合适性确定结果的第一示意性视图;
图7是根据本公开的示例实施例的提供显示装置中的用户命令的登记不合适性确定结果的第二示意性视图;
图8是根据本公开的示例实施例的提供显示装置中的用户命令的登记不合适性确定结果的第三示意性视图;
图9是根据本公开的示例实施例的用于确定显示装置中的用户命令的登记合适性的方法的流程图;以及
图10是根据本公开的示例实施例的显示装置中的登记用户命令的方法的流程图。
具体实施方式
现在将具体参照实施例,在附图中示出其示例,其中贯穿本文类似的参考符号指的是类似的元素。以下通过参照附图解释本公开来描述这些实施例。
可以不同地修改本公开的示例实施例。因此,在附图中示出并在详细说明中具体描述特定示例实施例。然而,应当理解的是本公开不限于特定示例实施例,还包括不离开本公开的范围和精神的全部修改、等价和替代。此外,不具体描述熟知的功能或结构,原因在于它们将用不必要的细节使本公开模糊。
术语“第一”、“第二”等可以用于描述各种组成部分,但是这些组成部分不受术语限制。这些术语仅用于将组成部分彼此区分开。
本申请中所使用的术语仅用于描述示例实施例,而不旨在限制本公开的范围。只要在上下文中单数表达不区别地表意,单数表达还包括复数含义。在本申请中,术语“包括”和“包含”指示存在说明书中所写的特征、数量、步骤、操作、组成部分、元素或其组合,但不排除添加一个或更多个特征、数量、步骤、操作、组成部分、元素或其组合的存在或可能性。
在本公开的示例实施例中,“模块”或“单元”执行至少一个功能或操作,并可以用硬件、软件或硬件和和软件的组合来实现。此外,除了必须用特定硬件来实现的“模块”或“单元”以外,可以将多个“模块”或者多个“单元”集成到至少一个模块中,并可以用至少一个处理器(未示出)来实现。
以下,将参照附图详细描述本公开。
图1是根据本公开的示例实施例的语音识别系统的框图。
如图1所示,语音识别系统包括显示装置100、输入装置200和网络服务器300。
可以用各种电子装置(智能电视、智能手机、平板电脑等)来实现显示装置100,显示装置100是识别用户所说语音以执行用户意在的操作的装置。
输入装置200可以是例如遥控器、键盘等,输入装置200是执行与显示装置100的数据通信以控制显示装置100的操作的装置。
具体地,在语音识别模式下第一用户可以说话来操作显示装置100。响应于向显示装置100输入上述的用户所说语音,显示装置100分析输入所说语音的语音信号,以确定相应的语音信号是否是用于使显示装置100进入语音识别模式的触发命令。作为确定结果,响应于相应语音信号是在语音识别模式下操作显示装置100的命令,显示装置100进入语音识别模式。这样,在显示装置100进入语音识别模式的状态中,响应于将附加的用户所说语音输入到显示装置100中,显示装置100内部地将附加的所说语音转换为文本。然而,本公开不限于此。例如,在显示装置100进入语音识别模式的状态中,响应于通过输入装置200来输入用户所说语音,或不可能进行针对用户所说语音的语音识别,显示装置100可以通过语音识别装置300来接收用户所说语音的文本。
这里,语音识别装置300可以是执行与显示装置100的数据通信41以执行针对来自显示装置100的用户所说语音的语音识别并向显示装置100发送识别出的语音识别结果的装置。
此后,显示装置100可以基于用户所说语音的文本来控制显示装置100的操作,或从网络服务器(未示出)接收并显示与用户所说语音相对应的响应信息。
这里,网络服务器(未示出)是提供内容相关信息的服务器。例如,如果从用户输入“请检索○○○”的语句,则通信单元160可以从网络服务器(未示出)接收与“○○○”相关联的检索到的结果。
同时,可以由用户登记并设置关于用户所说语音的控制显示装置100的操作的执行命令。以下,意在由用户登记并设置的执行命令被称为用户命令。具体地,用户可以通过输入装置200输入意在由他或她自己登记并设置的用户命令。如果向显示装置100输入了上述用户命令,则输入装置200向显示装置100发送包括文本类型的用户命令的用户命令登记请求信息。然而,本公开不限于此。例如,在用户命令登记模式下设置显示装置100的状态中,显示装置100可以通过麦克风接收用户命令的所说语音。响应于向显示装置100输入上述用户命令的所说语音,显示装置100可以向语音识别装置300发送输入所说语音,并可以从语音识别装置300接收转换为文本类型的用户命令。
响应于从输入装置200或语音识别装置300接收上述文本类型的用户命令,显示装置100生成文本类型的用户命令的音标。此后,显示装置100通过预定的合适性确定条件来分析用户命令的音标,以确定用户请求的用户命令的登记合适性。这里,合适性确定条件可以是以下各项中的至少一个:音标的总数、音标的元音和辅音是否是连续的、音标的配置形式、每个单词的音标的数量以及是否包括预定义的弱音标。
因此,显示装置100通过上述合适性确定条件来分析用户命令的音标,以确定用户命令的登记合适性,并向用户界面(ui)和音频设备中的至少一个输出确定结果。在确定用户命令的登记不合适的情况下,用户可以重新输入可登记用户命令,并且显示装置100可以重新执行上述操作,以重新执行针对重新输入的用户命令的登记合适性确定。同时,在确定用户命令的登记合适的情况下,显示装置100根据相应用户命令的登记请求来登记用户命令。因此,用户可以使用由他或她自己设置的用户命令来控制显示装置100的操作。
以上,已经示意性地描述了根据本公开的语音识别系统的相应配置。以下,将具体描述上述显示装置100的各配置。
图2是根据本公开的示例实施例的显示装置的框图,以及图3是示出根据本公开的示例实施例的显示装置的详细框图。
如图2所示,显示装置100包括输入单元110、输出单元120和处理器140。附加地,如图3所示,除输入单元110、输出单元120和处理器140的配置以外,显示装置100还可以包括语音处理单元150、通信单元160和存储单元170。
可以将输入单元110实现为输入面板,输入单元110是用于接收各种用户操作并向处理器140发送各种用户操作的输入。这里输入面板可以用包括各种功能键、数字键、特殊键、字母键等的触摸面板、或按键面板或触摸屏类型来形成。此外,输入单元170可以接收从遥控装置200(例如遥控器或控制显示装置100的操作的键盘)发送的控制命令。此外,输入单元110可以通过麦克风(未示出)来接收用户所说语音。上述输入单元110可以从遥控装置220接收文本类型的用户命令或者可以通过麦克风(未示出)来接收用户命令的所说语音。这里,用户命令可以是用于使显示装置100进入语音识别模式的触发命令和用于控制显示装置100的操作的控制命令中的至少一个,用户命令是由用户定义来控制显示装置100的操作的执行命令。
输出单元120输出针对通过输入单元110的用户命令输入的登记合适性确定结果。如图3所示,上述输出单元120可以包括显示单元121和音频输出单元123。因此,输出单元120可以通过显示单元121和音频输出单元123中的至少一个输出针对用户命令的登记合适性确定结果。
同时,处理器140是通常负责对装置的控制的配置,可以与中央处理单元、微处理器、控制单元等互换地使用。此外,可以将要控制装置的一般操作的处理器140实现为片上系统(soc)或具有其他功能单元的片上系统(soc)。
这种处理器140通常控制构成显示装置100的所有配置的操作。具体地,处理器140可以根据用户命令将在存储单元170中预存储的音标生成相关程序复制到随机存取存储器(ram)中用于用户命令登记,并可以使用在ram中复制的音标生成相关程序来生成文本类型的用户命令的音标。
更具体地,处理器140可以基于预定义的音标集来生成文本类型的用户命令的音标。这里,预定义的音标集可以包括以下各项中的至少一个:元音、双元音、辅音、破擦音、口音和符号。如果生成了用户命令的这种音标,则处理器140基于预定的合适性确定条件来分析预生成的音标,以确定用户命令的登记合适性。此后,处理器140控制输出单元120输出针对用户命令的登记合适性确定结果。
具体地,如果通过输入单元110输入由用户定义的用户命令的登记请求信息,则处理器140进入用户命令的登记执行模式。这里,登记请求信息可以是用于登记与进入语音识别模式的触发命令相关联的用户命令的请求信息,或用于登记与控制显示装置100的操作的控制命令相关联的用户命令的请求信息。响应于与在输入这种登记请求信息之后通过输入单元110输入与用户的登记请求相对应的用户命令,处理器140以音标形式生成输入用户命令。根据示例实施例,响应于通过输入单元110输入与从麦克风(未示出)输出的用户命令相关联的所说语音,处理器140执行控制以使得语音处理单元150执行针对用户所说语音的语音识别。根据这种控制命令,语音处理单元150可以使用语音到文本(stt)算法将用户所说语音转换为文本。
根据示例实施例,响应于通过输入单元110输入与从麦克风(未示出)输出的用户命令相关联的所说语音,处理器140向语音识别装置300发送与用户命令相关联的所说语音。因此,语音识别装置300针对接收到的所说语音进行语音识别,并向显示装置100发送文本类型的语音识别结果。在这种情况下,语音识别装置300可以向显示装置100发送关于用户所说语音的文本类型的至少一个语音识别结果。因此,在从语音识别装置300接收针对用户所说语音的多个文本的情况下,处理器140控制输出单元120显示多个文本的列表。因此,输出单元120通过显示单元121显示多个文本的列表。在显示这种列表的状态中,响应于输入针对一个文本的选择命令,处理器140可以确定与输入选择命令相对应的文本作为用户所说语音的文本。
根据示例实施例,处理器140可以根据是否可以通过通信单元160执行与语音识别装置300的数据通信来确定执行针对用户所说语音的语音识别的主体。也就是说,如果可以执行与语音识别装置300的数据通信,则处理器140可以从语音识别装置300接收针对用户所说语音的语音识别结果,并且如果不能执行与语音识别装置300的数据通信,则处理器140可以通过语音处理单元150执行针对用户所说语音的语音识别。
这里,通信单元160执行与语音识别装置300的数据通信,并从语音识别装置300接收针对用户所说语音的语音识别结果。此外,通信单元160可以执行与输入装置200的数据通信,并可以接收用于控制显示装置100的操作的用户命令和用户所说语音中的至少一个。附加地,通信单元160可以执行与网络服务器(未示出)的数据通信,并可以接收与用户所说语音相对应的响应信息。
这种通信单元160可以包括各种通信模块,例如局域无线通信模块(未示出)、无线通信模块(未示出)等。这里,局域无线通信模块(未示出)可以是例如蓝牙、zigbee等,局域无线通信模块是执行与位于局域的输入装置200和网络服务器(未示出)的至少一个的无线通信的通信模块。无线通信模块(未示出)是根据无线通信协议(例如wifi、ieee等)与外部网络连接以执行通信的模块。无线通信模块还可以包括根据各种移动通信标准(例如第三代(3g)、第三代合作伙伴计划(3gpp)、长期演进(lte)等)与移动通信网连接以执行通信的移动通信模块。
同时,如果根据上述各示例实施例将与用户命令相关联的所说语音转换为文本类型或从语音识别装置300接收与用户命令相关联的所说语音,则处理器140基于预定义的音标集来生成文本类型的用户命令的音标。例如,响应于输入被称为“kangazi”的文本类型的用户命令,处理器140可以根据被称为“kangazi”的文本类型的用户命令来生成音标[k:ang_a:_zi]。
如果生成了这种音标,则处理器140基于预定的合适性确定条件来分析生成的音标,以确定用户命令的登记合适性。作为确定结果,如果确定用户命令的登记是合适的,则处理器140在存储单元170中登记并存储由用户定义的用户命令。此后,响应于输入存储单元170中登记并存储的用户命令的语句,处理器140可以基于与输入语句相关联的用户命令来控制显示装置100的操作。图4是示出根据本公开的实施例的确定合适性的模块的视图。
如图4所示,确定登记合适性的模块410可以包括以下的至少一个:分析音标总数的模块411、分析配置音标的元音和辅音配置的模块413、分析音标配置形式的模块415、分析配置用户命令的每个单词的音标的模块417和检测弱音标的模块419。
这里,分析音标总数的模块(以下称为第一条件)是确定用户命令的音标总数是否包括预定数量或更多的模块。此外,分析配置音标的元音和辅音的配置的模块(以下称为第二条件)是确定元音或辅音是否在用户命令的音标上连续重叠的模块。此外,分析音标配置形式的模块(以下称为第三条件)是基于预定义音标集检测以何种形式列出了用户命令的音标的配置的模块。此外,分析每个单词的音标的模块(以下称为第四条件)是确定配置用户命令的相应单词数和与每个单词相对应的音标数大于等于预定数量还是小于预定数量的模块。此外,检测弱音标的模块(以下称为第五条件)是确定配置用户命令的音标中的开始和结尾的音标是否是预定义的弱音标的模块。这里,预定义的弱音标可以是由于例如生活噪声等周围环境而降低或丢失频带或能量幅度使得其识别率降级的特定发音的音标。
因此,处理器140可以使用包括在确定登记合适性模块中的第一至第五条件中的至少一个分析用户命令的音标,以确定用户命令的登记合适性。
根据示例实施例,处理器140可以使用与确定登记合适性的模块中包括的模块中的第一和第二条件相对应的模块,来分析根据用户命令生成的音标,以确定用户命令的登记合适性。
例如,如果输入了被称为“kangazi”的文本类型的用户命令,则处理器140可以根据被称为“kangazi”的文本类型的用户命令生成音标[k:ang_a:_zi]。如果生成了这种音标,则处理器140使用确定登记合适性的模块中包括的模块中与第一条件相对应的模块,来确定音标[k:ang_a:_zi]的总数是否是预定数量或更多。例如,如果与第一条件相匹配的预定数量是5并且音标[k:ang_a:_zi]的总数是7,则处理器140确定音标的总数是预定数量或更多,并确定用户命令与第一条件相匹配。
如果用户命令与这种第一条件相匹配,则处理器140使用包括在确定登记合适性的模块中的模块中与第二条件相对应的模块确定音标[k:ang_a:_zi]上的元音和辅音的至少一个是否以连续形式配置。作为确定结果,如果元音和辅音的至少一个没有以连续形式配置,则处理器140确定用户命令与第二条件相匹配。这样,如果用户命令与第一和第二条件相匹配,则处理器140可以确定用户命令“kangazi”的登记是合适的。
作为另一示例,如果输入了被称为“aaaaa”的文本类型的用户命令,则处理器140可以根据被称为“aaaaa”的文本类型的用户命令来生成音标[a_a_a_a_a]。在这种情况下,处理器140确定音标[a_a_a_a_a]的元音是连续的。这样,如果用户命令未与第一和第二条件中的至少一个相匹配,则处理器140可以确定用户命令“aaaaa”的登记不合适。也就是说,具有连续元音的用户命令存在以下问题:用户关于登记的用户命令所说的所说语音可以被识别为与相应用户命令不同。因此,如在上述示例中一样,处理器140可以确定具有连续元音的用户命令不适合用作用户命令。根据示例实施例,处理器140可以使用包括在确定登记合适性模块中的模块中与第一和第二条件相对应的模块以及与第三至第五条件中的至少一个相对应的模块来确定用户命令的登记合适性。
例如,如果根据文本类型的用户命令“skypetv”生成了音标[skaip_tv],则处理器140使用包括在确定登记合适性的模块中的模块中与第一和第二条件相对应的模块来分析音标[skaip_tv]以确定相应用户命令的登记合适性。作为确定结果,如果音标[skaip_tv]的总数大于等于预定数量,并且元音和辅音中的至少一个不是连续的,则处理器140确定用户命令“skypetv”与第一和第二条件相匹配。这样,如果用户命令与第一和第二条件相匹配,则处理器140使用确定登记合适性的模块中包括的模块中与第三至第五条件中的至少一个相对应的模块来分析音标[skaip_tv],以确定相应用户命令的登记合适性。
具体地,处理器140通过与第三条件相对应的模块来分析音标[skaip_tv]的配置形式,以确定是否以与预定样式相对应的顺序分布配置了相应音标的组成部分。
例如,可以用辅音、辅音、元音、元音、辅音、辅音等的顺序来定义被预定义的第一样式,可以用元音、辅音、符号、破擦音、元音、辅音等的顺序来定义第二样式,以及可以用辅音、元音、辅音、元音、辅音、元音、辅音等的顺序来定义第三样式。
在这种情况下,处理器140可以确定基于第一至第三样式中的第一样式列出配置音标[skaip_tv]的组成部分。
同时,如在上述示例中,可以根据文本类型的用户命令“kangazi”来生成音标[k:ang_a:_zi]。在这种情况下,处理器140可以确定基于第一至第三样式中的第三样式列出配置音标[k:ang_a:_zi]的组成部分。这样,如果确定基于预定样式列出了配置根据文本类型的用户命令生成的配置音标的组成部分,则处理器140确定用户命令与第三条件相匹配。
如果用户命令与第三条件相匹配,则处理器140通过与第四条件相对应的模块来确定配置用户命令的单词数和每个单词的音标数是大于等于预定数量,还是小于预定数量。
如上述示例中,关于用户命令“skypetv”生成的音标[skaip_tv]可以与第三条件相匹配。在这种情况下,处理器140通过与第四条件相对应的模块来确定配置用户命令的单词数和音标[skaip_tv]中的每个单词的音标数是大于等于预定数量,还是小于预定数量。
例如,适于登记的用户命令可以由两个或更多个单词组成,并且可以将每个单词的音标预定为两个或更多。同时,用户命令“skypetv”可以由两个单词“skype”和“tv”配置,并且“skype”和“tv”中的每一个的音标可以是[skaip]和[tv]。在这种情况下,用户命令“skypetv”可以由两个单词配置,并且每个单词的音标数可以是两个或更多。这样,如果配置用户命令“skypetv”的单词数和每个单词的音标数是大于等于预定数量,或小于预定数量,则处理器140可以确定用户命令“skypetv”与第四条件相匹配。
如果用户命令与第四条件匹配,则处理器140通过与第五条件相对应的模块来确定配置用户命令的每个单词的音标的开始和结尾的音标是否包括预定义的弱音标。这里,预定义弱音标可以是由于例如生活噪声等的周围环境而降低或丢失了特定发音的频带或能量幅度使得其识别率降级的特定发音的音标。通常,在其中发音用例如[s]、[p]、[f]和[k]的音标开始或结尾的情况下,与相应音标相关联的发音具有通过周围环境降低或丢失了的频带或能量幅度,使得其识别率可能降级。
因此,处理器140对配置用户命令“skypetv”的“skype”和“tv”中的每一个的每个单词的音标进行分析,以确定音标的开始和结尾是否包括预定义的弱音标。如上所述,单词“skype”的音标可以是“[skaip]”,并且上述音标的开始和结尾可以包括[s]和[p]。因此,处理器140可以确定用户命令“skypetv”不与第五条件相匹配。
这样,如果通过与第一和第二条件相对应的模块确定其登记合适的用户命令被通过与第三至第五条件中的至少一个相对应的模块确定为其登记不合适,则处理器140可以最终确定相应用户命令的登记不合适。
根据示例实施例,处理器140可以针对确定登记合适性的模块中包括的与第一至第五条件相对应的各模块确定用户命令的登记合适性,并且可以基于根据确定结果的结果值来确定用户命令的登记合适性。
如上所述,处理器140针对确定登记合适性的模块中包括的与第一至第五条件相对应的各模块确定用户命令的登记合适性。此后,处理器140可以基于每个模块的登记合适性确定结果来计算用户命令的结果值,并可以基于计算出的结果值来最终确定用户命令的登记合适性。
根据示例实施例,处理器140针对包括在确定合适性的模块中的与第一至第五条件相对应的各模块确定用户命令的登记合适性。如果确定关于第一至第五条件中的至少一个条件的登记不合适,则处理器140可以对与第一至第五条件中除登记不合适的条件之外的其他条件相对应的模块的预定参考值求和,以计算用户命令的结果值。
这里,可以将针对与第一至第五条件相对应的各模块设置的参考值设置为彼此相等或彼此不同。在针对与第一至第五条件相对应的各模块设置不同参考值的情况下,可以将在与第一至第五条件相对应的模块中与登记合适性确定参考中的最高优先级相对应的模块的参考值设置为最高,并可以将与最低优先级相对应的模块的参考值设置为最低。如果通过上述示例实施例计算与用户命令的分析结果相对应的结果值,则处理器140可以基于计算出的结果值来最终确定用户命令的登记合适性。
图5是根据本公开的示例实施例基于通过显示装置中的确定登记合适性的模块计算出的结果值来确定用户命令的登记合适性的示意性视图。
处理器140可以针对与确定登记合适性的模块中包括的第一至第五条件相对应的各模块确定用户命令的登记合适性,并可以基于每个模块的登记合适性确定结果来计算用户命令的结果值。
如果计算出了用户命令的结果值,则参照图5中所示的登记确定参考模型500,处理器140可以根据计算出的结果值所属的部分来确定用户命令的登记合适性。
具体地,如果与用户命令的分析结果相对应的结果值属于第一阈值部分510,则处理器140确定用户命令的登记不合适。同时,如果与用户命令的分析结果相对应的结果值属于第二阈值部分530,则处理器140确定用户命令的登记合适。同时,如果与用户命令的分析结果相对应的结果值属于第一和第二阈值部分之间的第三阈值部分520,则处理器140可以根据针对用户命令的用户选择命令来确定用户命令的登记是合适的。
同时,如果与用户命令的分析结果相对应的结果值属于第二阈值部分530,则处理器140可以根据用户的登记请求信息来确定用户命令的登记适合作为控制命令,还是适合作为触发命令。
具体地,在输入用于控制显示装置100的操作的登记请求信息的状态中,与用户命令的分析结果相对应的结果值可以属于第二阈值部分530的第2-1阈值部分531。在这种情况下,处理器140可以确定用户命令的登记适合作为控制显示装置100的操作的控制命令。
同时,在输入用于在语音识别模式下操作显示装置100的登记请求信息的状态中,与用户命令的分析结果相对应的结果值可以属于第二阈值部分530的第2-2阈值部分533。在这种情况下,处理器140可以确定用户命令的登记适合作为在语音识别模式下操作显示装置100的触发命令。
同时,在输入用于在语音识别模式下操作显示装置100的登记请求信息的状态中,如果与用户命令的分析结果相对应的结果值属于第二阈值部分530的第2-1阈值部分531,则处理器140可以根据用户命令的用户的选择命令确定用户命令的登记适合作为在语音识别模式下操作显示装置100的触发命令。
同时,根据本公开的一方面,在处理器140确定用户所说语音和多个预登记的命令之间的相似性或用户所说语音是否与禁用命令相对应之后,处理器140可以根据上述各示例实施例来确定用户命令的登记合适性。
根据示例实施例,处理器140使用相似性算法(例如混淆矩阵)来测量根据用户命令生成的音标与预存储的多个命令的音标之间的相似性,以相应地计算可靠性值。此后,处理器140将各个计算出的可靠性值与预定阈值进行比较,以确定各个可靠性值是否小于预定阈值。作为确定结果,如果至少一个可靠性值是预定阈值或更多,则处理器140确定用户命令和至少一个预登记的命令彼此类似,并确定用户命令的登记不合适。同时,如果全部可靠性值小于预定阈值,则处理器140确定用户命令的登记是合适的。
根据示例实施例,处理器140参考在存储单元170中登记并存储的禁用命令,确定用户命令是否是不可登记的命令。作为确定结果,如果用户命令与至少一个禁用命令相关联,则处理器140确定用户命令的登记是不合适的。同时,如果用户命令与至少一个禁用命令不相关联,则处理器140确定用户命令的登记是合适的。
在这种情况下,如上所述,处理器140可以执行以下操作的至少一个:确定用户命令是否与预登记的命令相似的第一确定操作,和确定相应用户命令是否是禁用命令的第二确定操作。
如果主要通过上述第一确定操作和第二确定操作的至少一个确定用户命令的登记合适性,则处理器140根据上述各示例实施例确定用户命令的登记合适性。如果确定用户命令的登记是合适的,则处理器140可以通过输出单元120提供用户命令的登记合适性确定结果。具体地,如果确定用户命令的登记是合适的,则音频输出单元123根据处理器140的控制命令来输出用户命令的音频。在输出上述音频的状态中,如果在预定阈值时间内输入了用户所说语音,则处理器140根据用户命令的文本与用户所说语音的文本之间的相似性的程度来在存储单元170中登记并存储用户命令。具体地,如果在输出用户命令之后输入了所说语音,则处理器140可以将输入的所说语音转换为文本类型,或从语音识别装置300接收转换为文本类型的语音识别结果。此后,处理器140使用相似性算法(例如混淆矩阵)来测量用户命令的音标与所说语音的音标之间的相似性,并且如果根据该测量的相似性值是预定阈值或更多,则在存储单元170中登记并存储用户命令。
同时,如果确定用户命令的登记不合适,则显示单元121显示根据预定的合适性确定条件分析得到的分析结果和引导可登记的用户命令的引导ui。因此,用户可以参照在显示装置100的屏幕上显示的引导ui,重新输入与登记确定条件相匹配的用户命令。
以下,在显示装置100中用户命令的登记不合适的情况下,将具体参照图6至8来描述根据上述不合适登记的提供确定结果的操作。
图6是根据本公开的示例实施例提供显示装置中的用户命令的登记不合适性确定结果的第一示意性视图。
如图6中所示,可以通过上述确定登记合适性的模块中包括的模块中与第四条件相对应的模块,来确定用户定义的第一用户命令610的登记不合适。如上所述,与第四条件相对应的模块是确定配置用户命令的相应单词的数量和与每个单词相对应的音标数量大于等于预定数量、还是小于预定数量的模块。
因此,如果配置第一用户命令610的相应单词数超过预定数量,则处理器140可以确定第一用户命令610的登记不合适。这样,如果确定第一用户命令610的登记不合适,则显示装置100可以通过显示单元121在其屏幕上显示引导ui620“这是过长的命令”。
因此,用户可以参照屏幕上显示的引导ui620,来重新输入由比第一用户命令610的单词更少的单词所组成的用户命令。
图7是根据本公开的示例实施例提供显示装置中的用户命令的登记不合适性确定结果的第二示意性视图。
如图7中所示,可以通过上述确定登记合适性的模块中包括的模块中与第四条件相对应的模块,来确定用户定义的第二用户命令710的登记不合适。如上所述,与第四条件相对应的模块是确定配置用户命令的相应单词的数量和与每个单词相对应的音标数量大于等于预定数量、还是小于预定数量的模块。
因此,如果配置第二用户命令710的相应单词数小于预定数量,则处理器140可以确定第二用户命令710的登记不合适。这样,如果确定第二用户命令710的登记不合适,则显示装置100可以通过显示单元121在其屏幕上显示包括确定结果信息“输入命令不适于登记”以及用户命令的推荐信息(例如“推荐:运行skype、skypetv”)的引导ui720。
因此,用户可以参照关于通过引导ui720在屏幕上显示的第二用户命令710推荐的用户命令,来重新输入他或她想要的用户命令。
图8是根据本公开的示例实施例提供显示装置中的用户命令的登记不合适性确定结果的第三示意性视图。
如图8中所示,可以通过上述确定登记合适性的模块中包括的模块中与第五条件相对应的模块,来确定用户定义的第三用户命令810的登记不合适。如上所述,与第五条件相对应的模块是确定配置用户命令的音标中开始和结尾的音标是否是预定义的弱音标的模块。
因此,如果配置第三用户命令810的各单词的音标的开始或结尾的至少一个的音标是弱音标,则处理器140可以确定第三用户命令810的登记不合适。这样,如果确定第三用户命令810的登记不合适,则显示装置100可以通过显示单元121在其屏幕上显示包括确定结果信息“这包括不合适的发音”和引导不合适的发音的发音信息例如“skype[s,pe]”的引导ui820。
因此,用户可以参照屏幕上显示的引导ui820,来重新输入排除了不合适的弱发音的用户命令。
以上,已经详细描述了根据本公开登记在显示装置100中由用户定义的用户命令操作。以下,将具体描述根据本公开的显示装置100中由用户定义的登记用户命令的方法。
图9是根据本公开的示例实施例用于确定显示装置中的用户命令的登记合适性的方法的流程图。
如图9所示,如果输入了用户定义的用户命令,则显示装置100确定输入用户命令是文本类型的命令还是所说语音(操作s910和操作s920)。
具体地,如果输入了用户定义的用户命令的登记请求信息,则显示装置100进入用户命令的登记执行模式。这里,登记请求信息可以是登记与用于进入语音识别模式的触发命令相关联的用户命令的请求信息,或登记用于控制显示装置100的操作的控制命令相关联的用户命令的请求信息。
在输入这种登记请求信息的状态中,显示装置100确定是否从输入装置200输入了与用户的登记请求相对应的用户命令。作为确定结果,如果通过例如麦克风(未示出)或遥控器的输入装置200输入了用户命令的所说语音,则显示装置100从语音识别装置300接收被转换为文本的所说语音的语音识别结果(操作s930)。然而,本公开不限于此。如果没有执行与语音识别装置300的数据通信,或通过麦克风输入了用户命令的所说语音,则显示装置100可以使用语音到文本(stt)算法来将用户所说语音转换为文本。同时,向显示装置100发送针对与用户命令相关联的所说语音的语音识别结果的所说语音识别装置300可以向显示装置100发送关于用户所说语音的至少一个文本类型的语音识别结果。因此,在从语音识别装置300接收用户所说语音的多个文本的情况下,显示装置100显示多个文本的列表。此后,如果输入针对一个文本的选择命令,则显示装置100可以确定与输入选择命令相对应的文本作为用户所说语音的文本。
如果根据上述各示例实施例输入了文本类型的用户命令,则显示装置100基于预定的音标集来生成文本类型的用户命令的音标(操作s940)。此后,显示装置100基于预先确定的合适性确定条件分析生成的音标,以确定用户命令的登记合适性(操作s950)。此后,显示装置100提供用户命令的登记合适性确定结果(操作s960)。
具体地,显示装置100根据关于合适性确定条件预先确定的登记合适性确定模块,来分析关于用户命令的预生成的音标,以确定用户命令的登记合适性。这里,如图4中所描述的,确定登记合适性可以包括以下模块的至少一个:分析音标总数的模块(第一条件)、分析配置音标的元音和辅音的配置的模块(第二条件)、分析音标的配置形式的模块(第三条件)、分析配置用户命令的每个单词的音标的模块(第四条件)、检测弱音标的模块(第五条件)。由于已经参照图4描述了相应模块,将省去其具体描述。
根据示例实施例,显示装置100可以使用确定登记合适性的模块中包括的模块中与第一和第二条件相对应的模块,来分析根据用户命令生成的音标,以确定用户命令的登记合适性。
根据示例实施例,显示装置100可以使用确定登记合适性的模块中包括的模块中与第一和第二条件相对应的模块和与第三至第五条件中的至少一个相对应的模块,来确定用户命令的登记合适性。
根据示例实施例,显示装置100可以针对在确定登记合适性的模块中包括的与第一至第五条件相对应的各模块确定用户命令的登记合适性,并可以基于根据确定结果的结果值来最终确定用户命令的登记合适性。
具体地,显示装置100针对确定登记合适性的模块中包括的与第一至第五条件相对应的各模块确定用户命令的登记合适性。如果确定关于第一至第五条件的至少一个条件的登记不合适,则显示装置100可以对与第一至第五条件中除登记不合适的条件之外的其他条件相对应的各模块的预定的参考值求和,以计算用户命令的结果值。
这里,可以将针对与第一至第五条件相对应的各模块设置的参考值设置为彼此相等或彼此不同。在针对与第一至第五条件相对应的各模块设置不同参考值的情况下,可以将在与第一至第五条件相对应的模块中与登记合适性确定参考中的最高优先级相对应的模块的参考值设置为最高,并可以将与最低优先级相对应的模块的参考值设置为最低。
因此,如果通过上述确定合适性的模块计算出了用户命令的结果值,则显示装置100可以参照登记确定参考模型,根据计算出的结果值所属的部分来确定用户命令的登记合适性。具体如图5中所示,如果与用户命令的分析结果相对应的结果值属于第一阈值部分510,则显示装置100确定用户命令的登记不合适。同时,如果与用户命令的分析结果相对应的结果值属于第二阈值部分530,则显示装置100确定用户命令的登记合适。同时,如果与用户命令的分析结果相对应的结果值属于第一和第二阈值部分之间的第三阈值部分520,则显示装置100可以根据针对用户命令的用户选择命令来确定用户命令的登记是合适的。
同时,显示装置100可以根据用户的登记请求信息来确定属于第二阈值部分的用户命令的登记适合用作控制命令还是适合用作触发命令。
同时,根据本公开的方面,在显示装置100确定用户所说语音和多个预登记的命令之间的相似性或用户所说语音是否与禁用命令相对应之后,显示装置100可以根据上述各示例实施例来确定用户命令的登记合适性。根据示例实施例,显示装置100根据多个预登记的命令与用户命令之间的相似性程度来确定用户命令的登记合适性(第一确定操作)。作为确定结果,如果确定用户命令与多个命令的至少一个相似,则显示装置100确定用户命令的登记不合适。同时,如果确定用户命令与多个命令不相似,则显示装置100可以根据上述各示例实施例执行确定用户命令的登记合适性的操作。
根据示例实施例的显示装置100参考预登记的禁用命令确定用户命令是否是未登记的命令(第二确定操作)。作为确定结果,如果用户命令与至少一个禁用命令相关联,则显示装置100确定用户命令的登记是不合适的。同时,如果用户命令与至少一个禁用命令不相关联,则显示装置100可以执行根据上述各示例实施例的确定用户命令的登记合适性的操作。
在这种情况下,显示装置100可以执行以下操作的至少一个:确定用户命令是否与预登记的命令相似的第一确定操作,和确定相应用户命令是否是禁用命令的第二确定操作。
如果主要通过第一确定操作和第二确定操作的至少一个确定了用户命令的登记合适性,则显示装置100提供用户命令的登记合适性确定结果。具体地,如果确定用户命令的登记不合适,则显示单元100在其屏幕上显示根据关于合适性确定条件预定的确定登记合适性的模块分析的分析结果信息和引导可登记的用户命令的引导ui。相应地,用户可以参照在显示装置100的屏幕上显示的引导ui来重新输入或说出可登记的用户命令。同时,如果确定用户命令的登记是合适的,则显示装置100输出用户命令的音频。在输出上述用户命令的音频之后,显示装置100可以根据以下操作来执行相应用户命令的登记。
图10是根据本公开的示例实施例显示装置中的登记用户命令的方法的流程图。
如图10所示,如果确定用户命令的登记是合适的,则显示装置100输出用户命令的音频(操作s1010)。此后,显示装置100确定在预定的阈值时间内是否输入了用户所说语音(操作s1020)。作为确定结果,如果在预定阈值时间内输入了所说语音,则显示装置100根据用户命令的文本与输入所说语音的文本之间的相似性程度来登记用户命令(操作s1030和操作s1040)。
具体地,如果在输出用户命令的音频之后输入了所说语音,则显示装置100可以将输入的所说语音转换为文本类型,或从语音识别装置300接收转换为文本类型的语音识别结果。此后,显示装置100使用相似性算法(例如混淆矩阵)来测量用户命令的音标与所说语音的音标之间的相似性,并且如果根据测量小于预定阈值,则重新讲话。此后,如果重新输入了用户所说语音,则显示装置100重新执行上述操作(操作s1030和操作s1040)。如果通过上述重新执行的用户命令和所说语音之间测量的相似性值大于等于预定阈值或小于预定阈值,则显示装置100结束执行用户命令的登记的操作。同时,如果通过操作(操作s1040)在用户命令和所说语音之间测量的相似性值大于等于预定阈值,则显示装置100登记并存储用户命令(操作s1050)。在通过上述操作登记了用户定义的用户命令之后,用户可以通过与预登记的用户命令相关联的所说语音来控制显示装置100的操作。
此外,可以在执行如上所述的登记用户命令的方法的至少一个执行程序中实现上述登记用户命令的方法,其中可以在非瞬时性计算机可读介质中存储执行程序。
可以在程序中实现根据上述各示例实施例的显示装置的登记用户命令的方法,以便供给显示装置。具体地,可以在非瞬时性计算机可读介质中存储并提供包括显示装置的登记用户命令的方法的程序。
非瞬时性计算机可读介质不是指短时间存储数据的介质(例如寄存器、高速缓存、存储器等),而是指半永久地存储数据的机器可读介质。具体地,可以在非瞬时性计算机可读介质(例如压缩光盘(cd)、数字多功能光盘(dvd)、硬盘、蓝光盘、(通用串行总线)usb存储卡和只读存储器(rom)等)中存储和提供上述程序。
根据上述本公开的示例实施例,显示装置可以登记在用户定义的用户命令中的抗误识别并保证高识别率的用户命令。
以上,已经参照其示例实施例描述了本公开。
尽管为了说明的目的已经描述了本公开的示例实施例,本领域技术人员将理解的是,可以做出各种修改、添加和替代,而不离开根据所附权利要求中所公开的本公开的范围和精神。因此,应当理解这种修改、添加和替代落入本公开的范围内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除