语音数据处理方法及装置与流程
2021-01-28 12:01:19|271|起点商标网
[0001]
本申请涉及计算机技术中的语音数据处理领域,尤其涉及一种语音数据处理方法及装置。
背景技术:
[0002]
随着电子技术的发展,语音识别技术逐渐进入人们生活中的工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。作为与人们生活最为接近的生活场景,常见的电视机、空调、洗衣机等电子设备一般都能够具备语音识别功能,以实现用户与电子设备之间进行语音内容的交互。
[0003]
相关技术中,电子设备在接收到用户的语音数据后,一个重要的处理是需要识别出语音数据所对应的语义,从而明确用户说出的语音数据所对应的指令,最终才能够根据用户的指令实现相关的任务。由于电子设备的功能较为固定,例如空调的功能通常包括开启、关闭、降低温度、升高温度等,此时用户就需要按照空调的要求说出对应的“空调温度升高2度”的指令,则当空调对采集到的语音数据进行识别,识别出语音数据中包括的“空调温度升高2度”的指令后,执行将空调温度升高2度的任务。
[0004]
但是,用户通常在与电子设备进行语音交互时,不完全按照电子设备规定的方式说出指令,例如用户说出“帮我把空调加2度”,则空调采集到语音数据后,只能确定其中是将“空调”和“2度”,无法确定此时的任务是将空调的“温度”“升高”2度,造成了电子设备在对语音数据对应的语义进行识别时,由于识别的准确率较低,导致了电子设备无法根据用户的指令执行相应的任务,进而降低了电子设备的用户体验。
技术实现要素:
[0005]
本申请提供一种语音数据处理方法,以提高电子设备在对语音数据进行处理时,语义识别的准确率,进而保证电子设备可以根据用户的指令执行相应的任务,提高用户体验。
[0006]
本申请第一方面提供一种语音数据处理方法,包括:获取待处理语音数据;确定所述待处理语音数据中的多个第一词语;确定与每个所述第一词语对应的词语集合;其中,所述词语集合中包括至少一个第二词语,以及每个所述第二词语对应的权重值;根据所述多个第一词语对应的多个词语集合中的所有第二词语,以及每个所述第二词语的权重值,确定所述待处理语音数据的语义。
[0007]
在本申请第一方面一实施例中,所述确定与所述多个第一词语一一对应的多个词语集合,包括:从图数据库中获取所述第一词语的第一节点所指向的至少一个第二词语的第二节点,以及所述第一节点到第二节点路径的权重值;其中,所述图数据库包括多个词语的节点、所述多个节点之间的指向关系,以及每个指向关系的权重值。
[0008]
在本申请第一方面一实施例中,所述第一节点指向所述第二节点的指向关系的权重值,用于表示所述第一词语与所述第二词语之间的语义关联程度。
[0009]
在本申请第一方面一实施例中,所述第二词语包括以下的一项或多项:所述第一词语的近义词语;所述第一词语的反义词语;所述语音数据对应的业务中,所述第一词语关联的词语;所述语音数据对应的业务中,所述第一词语与所述语音数据中其他词语共同关联的词语。
[0010]
在本申请第一方面一实施例中,所述确定所述待处理语音数据中的多个第一词语,包括:根据多个预设属性,从所述待处理语音数据中,分别确定属于每个所述预设属性的多个第一词语。
[0011]
在本申请第一方面一实施例中,根据所述多个词语集合中的第二词语,以及每个所述第二词语的权重值,确定所述待处理语音数据的语义,包括:根据所述多个词语集合中的第二词语,以及每个所述第二词语的权重值,得到候选词语集合;所述候选集合中包括所述多个词语集合中不重复的多个第三词语,以及在所述多个词语集合中所有第三词语的权重值之和;按照所述多个预设属性,从所述候选词语集合中,确定每个预设属性对应的第三词语中权重值最大的至少一个第四词语;在每个所述预设属性对应的至少一个第四词语中,确定多个第五词语,使得所述多个预设属性对应的多个第五词语的权重值相加之和最大;根据所述多个第五词语确定所述待处理语音数据的语义。
[0012]
本申请第二方面提供一种语音数据处理装置,可用于执行如本申请第一方面提供的语音数据处理方法,该装置可以是电视机或者是服务器,具体地,包括:获取部,用于获取待处理语音数据;第一词语确定部,用于确定所述待处理语音数据中的多个第一词语;词语集合确定部,用于确定与每个所述第一词语对应的词语集合;其中,所述词语集合中包括至少一个第二词语,以及每个所述第二词语对应的权重值;处理部,用于根据所述多个第一词语对应的多个词语集合中的所有第二词语,以及每个所述第二词语的权重值,确定所述待处理语音数据的语义。
[0013]
在本申请第二方面一实施例中,所述词语集合确定部,具体用于,从图数据库中获取所述第一词语的第一节点所指向的至少一个第二词语的第二节点,以及所述第一节点到第二节点路径的权重值;其中,所述图数据库包括多个词语的节点、所述多个节点之间的指向关系,以及每个指向关系的权重值。
[0014]
在本申请第二方面一实施例中,所述第一节点指向所述第二节点的指向关系的权重值,用于表示所述第一词语与所述第二词语之间的语义关联程度。
[0015]
在本申请第二方面一实施例中,所述第二词语包括以下的一项或多项:所述第一词语的近义词语;所述第一词语的反义词语;所述语音数据对应的业务中,所述第一词语关联的词语;所述语音数据对应的业务中,所述第一词语与所述语音数据中其他词语共同关联的词语。
[0016]
在本申请第二方面一实施例中,所述第一词语确定部具体用于,根据多个预设属性,从所述待处理语音数据中,分别确定属于每个所述预设属性的多个第一词语。
[0017]
在本申请第二方面一实施例中,所述处理部具体用于,根据所述多个词语集合中的第二词语,以及每个所述第二词语的权重值,得到候选词语集合;所述候选集合中包括所述多个词语集合中不重复的多个第三词语,以及在所述多个词语集合中所有第三词语的权重值之和;按照所述多个预设属性,从所述候选词语集合中,确定每个预设属性对应的第三词语中权重值最大的至少一个第四词语;在每个所述预设属性对应的至少一个第四词语
中,确定多个第五词语,使得所述多个预设属性对应的多个第五词语的权重值相加之和最大;根据所述多个第五词语确定所述待处理语音数据的语义。
[0018]
本申请第三方面提供一种显示设备,可以是电视机等,并检测器、通信器和控制器,所述控制器被配置用于:
[0019]
将通过所述检测器接收到的待处理语音数据发送至语音处理装置,以使所述语音处理装置按照如本申请第二方面任一项提供的方式,确定待处理语音数据的语义;此时,语音数据处理装置可以是服务器,
[0020]
通过所述通信器接收所述语音数据处理装置发送的所述待处理语音数据的语义。
[0021]
本申请第四方面提供一种语音数据处理方法,应用于如本申请第三方面提供的显示设备执行,该方法包括:
[0022]
获取待处理语音数据;
[0023]
将所述待处理语音数据发送至语音处理装置,以使所述语音处理装置按照如本申请第二方面任一项提供的方式,确定待处理语音数据的语义;此时,语音数据处理装置可以是服务器,
[0024]
接收所述语音数据处理装置发送的所述待处理语音数据的语义。
[0025]
本申请提供的语音数据处理方法及装置,作为执行主体的电子设备当获取待处理的语音数据后,并不直接使用语音数据中包括的多个第一词语进行语义识别确定待处理语音数据中的指令,而是对待处理语音数据中的多个第一词语进行联想与扩展,得到第一词语一一对应的多个词语集合,并通过词语集合中更多的词语以及权重值,最终得到多个第五词语后,通过多个第五词语对语音数据中进行语义识别。因此,本申请能够在用户说出较为口语化的第一词语之后,通过图数据库确定与第一词语的语义相关的其他词语,并通过权重值确定出电子设备能够识别的第五词语,最终依靠确定出的多个第五词语进行语义识别,从而使得电子设备更加准确地确定出语音数据中的指令,提高了电子设备在对语音数据对应的语义进行识别时的准确率,进而保证电子设备能够根据用户的指令执行相应的任务,提高电子设备的用户体验。
附图说明
[0026]
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0027]
图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图;
[0028]
图2中示例性示出了根据示例性实施例中显示设备的硬件配置框图;
[0029]
图3示例性示出了根据示例性实施例中控制设备的配置框图;
[0030]
图4为本申请提供的显示设备的软件系统示意图;
[0031]
图5为本申请提供的显示设备能够提供的应用程序的示意图;
[0032]
图6为显示设备在语音交互场景的一种应用示意图;
[0033]
图7为显示设备应用在语音交互场景的流程示意图;
[0034]
图8为显示设备在语音交互场景的另一种应用示意图;
[0035]
图9为显示设备应用在语音交互场景的另一流程示意图;
[0036]
图10为识别模型的供应商下发识别模型的示意图;
[0037]
图11为服务器得到识别模型的一种流程示意图;
[0038]
图12为服务器对识别模型进行更新的一种流程示意图;
[0039]
图13为本申请另一种所应用的场景示意图;
[0040]
图14为本申请提供的语音数据处理方法一实施例的流程示意图;
[0041]
图15为本申请提供的一种图数据库的示意图;
[0042]
图16为本申请提供的词语集合一实施例的示意图;
[0043]
图17为本申请提供的词语集合另一实施例的示意图;
[0044]
图18为本申请提供的候选词语集合一实施例的示意图;
[0045]
图19为本申请提供的图数据库另一实施例的示意图;
[0046]
图20为本申请提供的图数据库又一实施例的示意图;
[0047]
图21为本申请提供的语音数据处理装置一实施例的结构示意图。
具体实施方式
[0048]
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
[0049]
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
[0050]
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
[0051]
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
[0052]
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
[0053]
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
[0054]
本申请中使用的术语“遥控器”,是指电子设备(如本申请中公开的显示设备)的一个组件,通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(rf)信号和/或蓝牙与电子设备连接,也可以包括wifi、无线usb、蓝牙、动作传感器等功能模块。例如:手持式触摸遥控器,是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。
[0055]
本申请中使用的术语“手势”,是指用户通过一种手型的变化或手部运动等动作,用于表达预期想法、动作、目的/或结果的用户行为。
[0056]
图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出,用户可通过移动终端1002和控制装置1001操作显示设备200。
[0057]
在一些实施例中,控制装置1001可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。如:用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令,来实现控制显示设备200的功能。
[0058]
在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上,在直观的用户界面(ui)中为用户提供各种控制。
[0059]
在一些实施例中,移动终端1002可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。如:可以实现用移动终端1002与显示设备200建立控制指令协议,将遥控控制键盘同步到移动终端1002上,通过控制移动终端1002上用户界面,实现控制显示设备200的功能。也可以将移动终端1002上显示音视频内容传输到显示设备200上,实现同步显示功能。
[0060]
如图1中还示出,显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的,显示设备200通过发送和接收信息,以及电子节目指南(epg)互动,接收软件程序更新,或访问远程储存的数字媒体库。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。
[0061]
显示设备200,可以液晶显示器、oled显示器、投影显示设备。具体显示设备类型,尺寸大小和分辨率等不作限定,本领技术人员可以理解的是,显示设备200可以根据需要做性能和配置上一些改变。
[0062]
显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能,包括但不限于,网络电视、智能电视、互联网协议电视(iptv)等。
[0063]
图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。
[0064]
在一些实施例中,显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275,音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。
[0065]
在一些实施例中,显示器275,用于接收源自第一处理器输出的图像信号,进行显示视频内容和图像以及菜单操控界面的组件。
[0066]
在一些实施例中,显示器275,包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件。
[0067]
在一些实施例中,显示视频内容,可以来自广播电视内容,也可以是说,可通过有
线或无线通信协议接收的各种广播信号。或者,可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。
[0068]
在一些实施例中,显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控ui界面。
[0069]
在一些实施例中,根据显示器275类型不同,还包括用于驱动显示的驱动组件。
[0070]
在一些实施例中,显示器275为一种投影显示器,还可以包括一种投影装置和投影屏幕。
[0071]
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如:通信器可以包括wifi芯片,蓝牙通信协议芯片,有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。
[0072]
在一些实施例中,显示设备200可以通过通信器220与外部控制设备1001或内容提供设备之间建立控制信号和数据信号发送和接收。
[0073]
在一些实施例中,用户接口265,可用于接收控制装置1001(如:红外遥控器等)红外控制信号。
[0074]
在一些实施例中,检测器230是显示设备200用于采集外部环境或与外部交互的信号。
[0075]
在一些实施例中,检测器230包括光接收器,用于采集环境光线强度的传感器,可以通过采集环境光可以自适应性显示参数变化等。
[0076]
在一些实施例中,检测器230中的图像采集器232,如相机、摄像头等,可以用于采集外部环境场景,以及用于采集用户的属性或与用户交互手势,可以自适应变化显示参数,也可以识别用户手势,以实现与用户之间互动的功能。
[0077]
在一些实施例中,检测器230还可以包括温度传感器等,如通过感测环境温度。
[0078]
在一些实施例中,显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时,可调整显示设备200显示图像色温偏冷色调,或当温度偏低的环境时,可以调整显示设备200显示图像偏暖色调。
[0079]
在一些实施例中,检测器230还可以包括声音采集器231等,如麦克风,可以用于采集语音数据,当用户通过语音方式说出指令时,麦克风能够采集到包括用户说出的指令的语音数据。示例性的,声音采集器231可以采集包括用户控制显示设备200的控制指令的语音信号,或采集环境声音,用于识别环境场景类型,使得显示设备200可以自适应适应环境噪声。
[0080]
在一些实施例中,如图2所示,输入/输出接口255被配置为,可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。
[0081]
在一些实施例中,外部装置接口240可以包括,但不限于如下:可以高清多媒体接口hdmi接口、模拟或数据高清分量输入接口、复合视频输入接口、usb输入接口、rgb端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。
[0082]
在一些实施例中,如图2所示,调谐解调器210被配置为,通过有线或无线接收方式接收广播电视信号,可以进行放大、混频和谐振等调制解调处理,从多多个无线或有线广播
电视信号中解调出音视频信号,该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号,以及epg数据信号。
[0083]
在一些实施例中,调谐解调器210解调的频点受到控制器250的控制,控制器250可根据用户选择发出控制信号,以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。
[0084]
在一些实施例中,广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号,模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。
[0085]
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。这样,机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备,主体设备经过第一输入/输出接口接收音视频信号。
[0086]
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器275上显示ui对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
[0087]
在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接或图标。与所选择的对象有关操作,例如:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。用于选择ui对象用户命令,可以是通过连接到显示设备200的各种输入装置(例如,鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。
[0088]
如图2所示,控制器250包括随机存取存储器251(random access memory,ram)、只读存储器252(read-only memory,rom)、视频处理器270、音频处理器280、其他处理器253(例如:图形处理器(graphics processing unit,gpu)、中央处理器254(central processing unit,cpu)、通信接口(communication interface),以及通信总线256(bus)中的至少一种。其中,通信总线连接各个部件。
[0089]
在一些实施例中,ram 251用于存储操作系统或其他正在运行中的程序的临时数据在一些实施例中,rom 252用于存储各种系统启动的指令。
[0090]
在一些实施例中,rom 252用于存储一个基本输入输出系统,称为基本输入输出系统(basic input output system,bios)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。
[0091]
在一些实施例中,在收到开机信号时,显示设备200电源开始启动,cpu运行rom 252中系统启动指令,将存储在存储器的操作系统的临时数据拷贝至ram 251中,以便于启动或运行操作系统。当操作系统启动完成后,cpu再将存储器中各种应用程序的临时数据拷贝至ram 251中,然后,以便于启动或运行各种应用程序。
[0092]
在一些实施例中,cpu处理器254,用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。
[0093]
在一些示例性实施例中,cpu处理器254,可以包括多个处理器。多个处理器可包括
一个主处理器以及一个或多个子处理器。主处理器,用于在预加电模式中执行显示设备200一些操作,和/或在正常模式下显示画面的操作。一个或多个子处理器,用于在待机模式等状态下一种操作。
[0094]
在一些实施例中,图形处理器253,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等。包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象。以及包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
[0095]
在一些实施例中,视频处理器270被配置为将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理,可得到直接可显示设备200上显示或播放的信号。
[0096]
在一些实施例中,视频处理器270,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。
[0097]
其中,解复用模块,用于对输入音视频数据流进行解复用处理,如输入mpeg-2,则解复用模块进行解复用成视频信号和音频信号等。
[0098]
视频解码模块,则用于对解复用后的视频信号进行处理,包括解码和缩放处理等。
[0099]
图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的gui信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。
[0100]
帧率转换模块,用于对转换输入视频帧率,如将60hz帧率转换为120hz帧率或240hz帧率,通常的格式采用如插帧方式实现。
[0101]
显示格式化模块,则用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出rgb数据信号。
[0102]
在一些实施例中,图形处理器253可以和视频处理器可以集成设置,也可以分开设置,集成设置的时候可以执行输出给显示器的图形信号的处理,分离设置的时候可以分别执行不同的功能,例如gpu+frc(frame rate conversion))架构。
[0103]
在一些实施例中,音频处理器280,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理,得到可以在扬声器中播放的声音信号。
[0104]
在一些实施例中,视频处理器270可以包括一颗或多颗芯片组成。音频处理器,也可以包括一颗或多颗芯片组成。
[0105]
在一些实施例中,视频处理器270和音频处理器280,可以单独的芯片,也可以于控制器一起集成在一颗或多颗芯片中。
[0106]
在一些实施例中,音频输出,在控制器250的控制下接收音频处理器280输出的声音信号,如:扬声器286,以及除了显示设备200自身携带的扬声器之外,可以输出至外接设备的发生装置的外接音响输出端子,如:外接音响接口或耳机接口等,还可以包括通信接口中的近距离通信模块,例如:用于进行蓝牙扬声器声音输出的蓝牙模块。
[0107]
供电电源290,在控制器250控制下,将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路,也可以是安装在显示设备200外部电源,在显示设备200中提供外接电源的电源接口。
[0108]
用户接口265,用于接收用户的输入信号,然后,将接收用户输入信号发送给控制
器250。用户输入信号可以是通过红外接收器接收的遥控器信号,可以通过网络通信模块接收各种用户控制信号。
[0109]
在一些实施例中,用户通过控制装置1001或移动终端1002输入用户命令,用户输入接口则根据用户的输入,显示设备200则通过控制器250响应用户的输入。
[0110]
在一些实施例中,用户可在显示器275上显示的图形用户界面(gui)输入用户命令,则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
[0111]
在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic user interface,gui),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素。
[0112]
存储器260,包括存储用于驱动显示设备200的各种软件模块。如:第一存储器中存储的各种软件模块,包括:基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。
[0113]
基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息,并进行数模转换以及分析管理的管理模块。
[0114]
例如,语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块,可以用于播放多媒体图像内容和ui界面等信息。通信模块,用于与外部设备之间进行控制和数据通信的模块。浏览器模块,用于执行浏览服务器之间数据通信的模块。服务模块,用于提供各种服务以及各类应用程序在内的模块。同时,存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。
[0115]
图3示例性示出了根据示例性实施例中控制设备1001的配置框图。如图3所示,控制设备1001包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。
[0116]
控制设备1001被配置为控制显示设备200,以及可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。如:用户通过操作控制设备1001上频道加减键,显示设备200响应频道加减的操作。
[0117]
在一些实施例中,控制设备1001可是一种智能设备。如:控制设备1001可根据用户需求安装控制显示设备200的各种应用。
[0118]
在一些实施例中,如图1所示,移动终端1002或其他智能电子设备,可在安装操控显示设备200的应用之后,可以起到控制设备1001类似功能。如:用户可以通过安装应用,在移动终端1002或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮,以实现控制设备1001实体按键的功能。
[0119]
控制器110包括处理器112和ram 113和rom 114、通信接口130以及通信总线。控制器用于控制控制设备1001的运行和操作,以及内部各部件之间通信协作以及外部和内部的
数据处理功能。
[0120]
通信接口130在控制器110的控制下,实现与显示设备200之间控制信号和数据信号的通信。如:将接收到的用户输入信号发送至显示设备200上。通信接口130可包括wifi芯片131、蓝牙模块132、nfc模块133等其他近场通信模块中至少之一种。
[0121]
用户输入/输出接口140,其中,输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如:用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能,输入接口通过将接收的模拟信号转换为数字信号,以及数字信号转换为相应指令信号,发送至显示设备200。
[0122]
输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中,可以红外接口,也可以是射频接口。如:红外信号接口时,需要将用户输入指令按照红外控制协议转化为红外控制信号,经红外发送模块进行发送至显示设备200。再如:射频信号接口时,需将用户输入指令转化为数字信号,然后按照射频控制信号调制协议进行调制后,由射频发送端子发送至显示设备200。
[0123]
在一些实施例中,控制设备1001包括通信接口130和输入输出接口140中至少一者。控制设备1001中配置通信接口130,如:wifi、蓝牙、nfc等模块,可将用户输入指令通过wifi协议、或蓝牙协议、或nfc协议编码,发送至显示设备200.
[0124]
存储器190,用于在控制器的控制下存储驱动和控制控制设备1001的各种运行程序、数据和应用。存储器190,可以存储用户输入的各类控制信号指令。
[0125]
供电电源180,用于在控制器的控制下为控制设备1001各元件提供运行电力支持。可以电池及相关控制电路。
[0126]
在一些实施例中,系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后,再加载shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
[0127]
图4为本申请提供的显示设备的软件系统示意图,参见图4,在一些实施例中,将系统分为四层,从上至下分别为应用程序(applications)层(简称“应用层”),应用程序框架(application framework)层(简称“框架层”),安卓运行时(android runtime)和系统库层(简称“系统运行库层”),以及内核层。
[0128]
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(window)程序、系统设置程序、时钟程序、相机应用等;也可以是第三方开发者所开发的应用程序,比如嗨见程序、k歌程序、魔镜程序等。在具体实施时,应用程序层中的应用程序包不限于以上举例,实际还可以包括其它应用程序包,本申请实施例对此不做限制。
[0129]
框架层为应用程序层的应用程序提供应用编程接口(application programming interface,api)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过api接口,可在执行中访问系统中的资源和取得系统的服务
[0130]
如图4所示,本申请实施例中应用程序框架层包括管理器(managers),内容提供者
(content provider)等,其中管理器包括以下模块中的至少一个:活动管理器(activity manager)用与和系统中正在运行的所有活动进行交互;位置管理器(location manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(package manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(notification manager)用于控制通知消息的显示和清除;窗口管理器(window manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
[0131]
在一些实施例中,活动管理器用于:管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。
[0132]
在一些实施例中,窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
[0133]
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的c/c++库以实现框架层要实现的功能。
[0134]
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器,温度传感器,触摸传感器、压力传感器等)等。
[0135]
在一些实施例中,内核层还包括用于进行电源管理的电源驱动模块。
[0136]
在一些实施例中,图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。
[0137]
在一些实施例中,以魔镜应用(拍照应用)为例,当遥控接收装置接收到遥控器输入操作,相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值,输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作,该确认操作所对应的控件为魔镜应用图标的控件,魔镜应用调用应用框架层的接口,启动魔镜应用,进而通过调用内核层启动摄像头驱动,实现通过摄像头捕获静态图像或视频。
[0138]
在一些实施例中,对于具备触控功能的显示设备,以分屏操作为例,显示设备接收用户作用于显示屏上的输入操作(如分屏操作),内核层可以根据输入操作产生相应的输入事件,并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口,然后将绘制的窗口数据发送给内核层的显示驱动,由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。
[0139]
在一些实施例中,图5为本申请提供的显示设备能够提供的应用程序的示意图,如图5中所示,应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件,如:直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。
[0140]
在一些实施例中,直播电视应用程序,可以通过不同的信号源提供直播电视。例
如,直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及,直播电视应用程序可在显示设备200上显示直播电视信号的视频。
[0141]
在一些实施例中,视频点播应用程序,可以提供来自不同存储源的视频。不同于直播电视应用程序,视频点播提供来自某些存储源的视频显示。例如,视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。
[0142]
在一些实施例中,媒体中心应用程序,可以提供各种多媒体内容播放的应用程序。例如,媒体中心,可以为不同于直播电视或视频点播,用户可通过媒体中心应用程序访问各种图像或音频所提供服务。
[0143]
在一些实施例中,应用程序中心,可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序,或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序,将它们储存在本地储存器中,然后在显示设备200上可运行。
[0144]
更为具体地,在一些实施例中,本申请前述的任一显示设备200,均可具有语音交互的功能,来提高显示设备200的智能化程度,并提高显示设备200的用户体验。
[0145]
在一些实施例中,图6为显示设备在语音交互场景的一种应用示意图,其中,用户1可以通过声音说出希望显示设备200执行的指令,则对于显示设备200可以实时采集语音数据,并对语音数据中包括的用户1的指令进行识别,并在识别出用户1的指令后,直接执行该指令,在整个过程中,用户1没有实际对显示设备200或者其他设备进行操作,只是简单地说出了指令。
[0146]
在一些实施例中,当如图2所示的显示设备200应用在如图6所示的场景中,显示设备200可以通过其声音采集器231实时采集语音数据,随后,声音采集器231将采集得到的语音数据发送给控制器250,最终由控制器250对语音数据中包括的指令进行识别。
[0147]
在一些实施例中,图7为显示设备应用在语音交互场景的流程示意图,可以由如图6所示场景中的设备执行,具体地,在s11中,显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据,并将所采集到的语音数据发送给控制器250进行识别。
[0148]
在一些实施例中,在如图7所示的s12中,控制器250在接收到语音数据后,对语音数据中包括的指令进行识别。例如,语音数据中包括用户1所出的“增大亮度”的指令,则控制器250并在识别到语音数据中包括的指令后,可以由该控制器250执行所识别出的指令,控制显示器275增加亮度。可以理解的是,这种情况下控制器250对每个接收到的语音数据进行识别,可能出现识别语音数据中没有指令情况。
[0149]
而在另一些实施例中,基于指令识别的模型较大、运算效率较低,还可以规定用户1在说出指令前加入关键词,例如“abcd”,则用户需要说出“abcd,增大亮度”的指令,使得在如图7所示的s12中,控制器250在接收到语音数据后,首先对每个语音数据中是否有“abcd”的关键词进行识别,在识别到有关键词之后,再使用指令识别模型对语音数据中的“增大亮度”对应的具体指令进行识别。
[0150]
在一些实施例中,控制器250在接收到语音数据后,还可以对语音数据进行去噪,包括去除回声和环境噪声,处理为干净的语音数据,并将处理后的语音数据进行识别。
[0151]
在一些实施例中,图8为显示设备在语音交互场景的另一种应用示意图,其中,显示设备200可以通过互联网与服务器400连接,则当显示设备200采集到语音数据后,可以将语音数据通过互联网发送给服务器400,由服务器400对语音数据中包括的指令进行识别,并将识别后的指令发送回显示设备200,使得显示设备200可以直接执行所接收到的指令。这种场景与如图6所示的场景相比,减少了对显示设备200运算能力的要求,能够在服务器400上设置更大的识别模型,来进一步提高对语音数据中指令识别的准确率。
[0152]
在一些实施例中,当如图2所示的显示设备200应用在如图6所示的场景中,显示设备200可以通过其声音采集器231实时采集语音数据,随后,声音采集器231将采集得到的语音数据发送给控制器250,控制器250通过通信器220将语音数据发送给服务器400,由服务器400对语音数据中包括的指令进行识别后,显示设备200再通过通信器220接收服务器400发送的指令,并最终由控制器250执行所接收到的指令。
[0153]
在一些实施例中,图9为显示设备应用在语音交互场景的另一流程示意图,可以由如图8所示的场景中的设备执行,其中,在s21中,显示显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据,并将所采集到的语音数据发送给控制器250,控制器250在s22中将语音数据进一步通过通信器220发送给服务器400,由服务器在s23中识别语音数据中包括的指令,随后,服务器400将识别得到的指令在s24中发送回显示设备200,对应地,显示设备200通过通信器220接收指令后发送给控制器250,最终控制器250可以直接执行所接收到的指令。
[0154]
在一些实施例中,如图7所示的s23中,服务器400在接收到语音数据后,对语音数据中包括的指令进行识别。例如,语音数据中包括用户1所出的“增大亮度”的指令。而由于指令识别的模型较大,且服务器400对每个接收到的语音数据进行识别,可能出现识别语音数据中没有指令情况,因此为了降低服务器400进行无效的识别、以及减少显示设备200和服务器400之间的通信交互数据量,在具体实现时,还可以规定用户1在说出指令前加入关键词,例如“abcd”,则用户需要说出“abcd,增大亮度”的指令,随后,由显示设备200的控制器250在s22中,首先通过模型较小、运算量较低的关键词识别模型,对语音数据中是否存在关键词“abcd”进行识别,若当前控制器250正在处理的语音数据中没有识别出关键词,则控制器250不会将该语音数据发送给服务器400;若当前控制器250正在处理的语音数据中识别出关键词,则控制器250再将该语音数据全部,或者语音数据中关键词之后的部分发送给服务器400,由服务器400对所接收到的语音数据进行识别。由于此时控制器250所接收到的语音数据中包括关键词,发送给服务器400所识别的语音数据中也更有可能包括用户的指令,因此能够减少服务器400的无效识别计算,也能够减少显示设备200和服务器400之间的无效通信。
[0155]
在一些实施例中,为了让显示设备200能够具有如图6所示的一种具体场景中,对语音数据中指令的识别功能,或者,让显示设备200能够具有如图6或图8所示的一种具体场景中,对语音数据中关键词的识别功能,作为显示设备200的语音交互功能的供应商,还需要制作可用于识别指令或者识别关键词的机器学习模型,例如textcnn、transform等深度学习模型。并将这些模型存储在显示设备200中,由显示设备200在进行识别时使用。
[0156]
在一些实施例中,图10为识别模型的供应商下发识别模型的示意图,其中,供应商所设置的服务器400得到识别模型(可以是指令识别模型,也可以是关键词识别模型)后,可
以将识别模型发送给各个显示设备200。其中,如图10所示的过程可以是显示设备200在生产时进行,由服务器400将服务器发送给每个显示设备200;或者,还可以在显示设备200开始使用后,服务器400通过互联网将识别模型发送给显示设备200。
[0157]
在一些实施例中,服务器400可以具体通过采集语音数据,并基于机器学习模型进行学习的方式,得到识别模型。例如,图11为服务器400得到识别模型的一种流程示意图,其中,在s31中,各显示设备(以显示设备1-显示设备n,共n个为例)采集语音数据1-n,并在s32中将采集到的语音数据1-n发送给服务器400。随后,在s33中,供应商的工作人员可以通过人工标注的方式,将每个语音数据以及语音数据中包括的指令或者关键词进行标注后,将语音数据本身,以及语音数据对应的标注信息作为数据送入机器学习模型中,由服务器进行学习,学习得到的识别模型在后续使用时,当输入一个待识别的语音数据后,识别模型将该语音数据与已经学习的语音数据进行比对,并输出每个标注信息的概率,最终最大概率对应的标注信息可以作为待识别的语音数据的识别结果。在s34中,服务器400可以将计算得到的识别模型发送各显示设备。
[0158]
在一些实施例中,服务器400也可以不使用如图11所示实施例中由显示设备1-n实际采集的语音数据计算识别模型,而是可以直接由工作人员输入不同的语音数据,以及每个语音数据的标注信息,并在计算得到识别模型后发送给各显示设备。
[0159]
在一些实施例中,如图11所示的采集语音数据并发送给服务器的显示设备1-n,与服务器计算得到识别模型后,发送给显示设备1-n中可以是两个独立的过程,也就是说,s32中服务器接收到n个显示设备采集的语音数据,s34中服务器可以向另外n个显示设备发送所训练得到的识别模型。这两个过程中n个显示设备可以相同或不同,或者也可以部分相同。
[0160]
在一些实施例中,由于在得到识别模型时,所使用的样本数量有限,使得显示设备200所设置的识别模型不可能做到完全百分百准确的识别,因此供应商还可以通过服务器400随时收集各显示设备200在实际使用过程中所采集的语音数据,并根据所采集的语音数据对已经识别得到的识别模型进行更新,来进一步提高识别模型的识别准确性。
[0161]
例如,图12为服务器对识别模型进行更新的一种流程示意图,可以理解的是,在执行如图12所示的实施例之前,每个显示设备中按照如图10所示的方式,设置了识别模型。则在如图12所示s31中,各显示设备(以显示设备1-显示设备n,共n个为例)采集语音数据1-n,并在s32中将采集到的语音数据1-n发送给服务器400。随后,在s33中,供应商的工作人员可以通过人工标注的方式,将每个语音数据以及语音数据中包括的指令或者关键词进行标注后,将语音数据本身,以及语音数据对应的标注信息作为数据送入机器学习模型中,由服务器根据接收到的新的语音数据,对已经计算得到的识别模型进行更新,并在s34中,服务器400可以将更新后的识别模型重新发送各显示设备200,使得每个显示设备200可以使用更新后的识别模型进行更新。其中,对于这n个显示设备中的任一个显示设备而言,由于新的学习模型采用了这个显示设备200所采集的语音数据,因此可以有效地提高后续对这个显示设备200对所采集的语音数据进行识别的准确性。
[0162]
在一些实施例中,如图12所示的每个显示设备,可以在接收到语音数据后就发送给服务器,或者,在固定的时间段结束后将在这个时间段内采集到的语音数据发送给服务器,又或者,当采集到的一定数量的语音数据后统一发送给服务器,又或者,可以根据显示
设备的用户的指示、或者根据服务器的工作人员的指示将已经接收到的语音发送给服务器。
[0163]
在一些实施例中,如图12所示的n个显示设备可以在同一个约定的时刻同时将语音数据发送给服务器,由服务器根据接收到的n个语音数据对识别模型进行更新;或者,n个显示设备还可以分别将语音数据发送给服务器,服务器在接收到语音数据的数量大于n个之后,即可开始根据接收到的语音数据对识别模型进行更新。
[0164]
在一些实施例中,图13为本申请另一种所应用的场景示意图,其中,如图13所示的场景中,用户1可以通过语音交互的方式,控制电子设备2执行任务,所述电子设备可以是电视机、空调、洗衣机、音箱、电脑等家用电器,例如在图13中以电子设备为空调21和电视机22作为示例,如图13所示的电视机22可以是本申请如图1-12中所提供的显示设备。此时,用户可以向空调21说出“空调温度增加2度”的指令,则空调21内设置的语音处理装置对采集到的语音数据进行识别,并在确定语音数据中包括“空调温度增加2度”的指令后,执行将空调温度增加2度的任务。同样地,用户可以向电视机22说出“电视音量减少”的指令,则电视机22内的语音处理装置从采集到的语音数据通过语义识别的方式,识别出该指令后,执行将音量减少的任务。
[0165]
在上述过程中,为了能够从语音数据中确定用户所说出的指令是什么,进而准确执行用户通过指令指示的任务,电子设备在采集到语音数据之后,一个重要的处理是需要识别出语音数据所对应的语义,从而确定用户通过语音说出的“空调温度增加2度”的意图,并将语音数据“翻译”为电子设备能够理解的指令并使得电子设备来执行指令对应的任务。同时,由于在如图13所示的场景中,每个电子设备所执行的动作较为固定,例如对于空调21而言,其能够执行的任务可以包括:开启、关闭、降低温度、升高温度等,因此一些电子设备对用户1所说的指令进行限定,可以规定用户需要以“a设备、b项目、c命令、d数值”的形式说出指令,例如“a:空调、b:温度、c:升高、d:2度”这样的固定形式。电子设备在采集到语音数据后,可以通过较为简单的字符匹配方式,对语音数据中的词语进行识别,并只有在检测到语音数据中包括这种“a设备、b项目、c命令、d数值”形式的指令后,才能够执行指令对应的任务。
[0166]
但是,在如图13所示的场景应用在实际生活中,用户1通常在与电子设备2进行语音交互时,不完全按照上述规定的方式说出指令,而是以趋向杂乱的口语化的说法,描述出用户1想要电子设备2执行的任务,使得指令中包括了大量的常识性词语、语言性词语以及业务词语等。例如,用户在语音控制空调时,可能会说出“帮我把空调加2度”的语音,则当空调采集到语音数据后,直接根据“a设备、b项目、c命令、d数值”的形式只能够确定语音数据中的包括“a:空调和d:2度”,受到固定句法形式的限制较大,无法识别出固定形式中所对应的b项目和c命令,使得电子设备无法确定此时的指令对应的任务是将空调的温度上升2度,造成了电子设备在对语音数据进行语义识别时,由于识别的准确率较低,导致了电子设备无法根据用户的指令执行相应的任务,进而降低了电子设备的用户体验。
[0167]
因此,本申请还提供一种语音数据处理方法及装置,在通过语义识别的方式识别语音数据中用户说出的指令时,不局限于语音数据中用户说出的词语本身,而是对词语进行联想与扩展,并通过更多的词语以及不同词语的权重值,最终得到的语音数据进行语义识别,从而更加准确地确定出语音数据中的指令,提高了电子设备在对语音数据对应的语
义进行识别时的准确率,进而保证电子设备能够根据用户的指令执行相应的任务,提高电子设备的用户体验。
[0168]
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0169]
图14为本申请提供的语音数据处理方法一实施例的流程示意图,其中,如图14所示的方法可应用于如图13所示的场景中,由电子设备执行,或者由电子设备内设置的专用于处理语音数据的装置执行,本申请各实施例中以执行主体为电子设备作为示例性的说明,而非对其进行限定。所述电子设备可以是手机、电脑、电视机、洗衣机、空调、音箱等家用电器。当应用于如图13所示的场景中,所述电子设备可以是电视机22。如图14所示的语音数据处理方法包括:
[0170]
s101:获取待处理语音数据。
[0171]
具体地,电子设备在对语音数据进行处理时,实时通过麦克风等语音采集装置,对语音数据进行采集,并将获取的语音数据记为待处理语音数据,以供后续处理。例如,假设电子设备为空调,则用户可以向空调说出“帮我把空调上升2度”的指令,对于空调所采集到的待处理语音数据中包括用户说出的指令。
[0172]
s102:确定待处理语音数据中的多个第一词语。
[0173]
随后,电子设备在s102中开始对s101中所获取的待处理语音数据进行处理,例如,对上述示例待处理语音数据中包括的“帮我把空调上升2度”进行分词处理,此时分词得到的词语有:“帮我”、“把”、“空调”、“上升”、“2”、“度”等,将待处理语音数据中包括的上述多个词语记为第一词语。
[0174]
在一些实施例中,电子设备为了确定语音数据中的多个第一词语,作为执行主体的电子设备可以在获取待处理语音数据后,对待处理语音数据中的指令通过分词的方式进行词语的切分,并对每个词语进行按照多个预设属性进行标注。其中,所述预设属性可以是电子设备所对应的不同业务或者同一个业务的不同属性,例如,对于上述“帮我”、“把”、“空调”、“上升”、“2”、“度”这些词语,可以将“空调”的属性标注为“设备(device)”,将“上升”的属性标注为“命令(command)”,将“2”的属性标注为“数值(value)”,将“度”的属性标注为“单位(units)”等。
[0175]
其中,电子设备对确定待处理语音数据中的多个第一词语时,可以首先获取预设的属性,随后按照预设的属性从待处理语音数据中确定多个第一词语。例如,对于不同的电子设备,为了实现其功能都会设置不同的功能,通过预设的属性以及每个功能所对应的标准槽位值信息。
[0176]
表1
[0177][0178]
如表1所示,预设属性包括表1中的每一列:设备(device)、部分(section)、类型(type)、模式(property)、命令(command)、数值(value)和单位(unit)。则在上述示例中,用户说出的语音数据中“帮我把空调上升2度”,此时,电子设备可以根据表1从待处理的语音数据“帮我把空调上升2度”中,确定预设属性设备(device)对应的第一词语为“空调”、预设属性命令(command)对应的第一词语为“上升”,预设属性数值(value)对应的第一词语为“2”,预设属性为单位(unit)对应的第一词语为“度”。
[0179]
在一些实施例中,若一个词语对应有多个属性,则电子设备可以通过上下文无关分析法(context free grammar,简称:cfg)中的cyk算法(cocke
–
younger
–
kasami算法),将对第一词语进行标注的属性进行歧义消除,保证所确定的每个第一词语的属性的正确。例如,若“度”的属性标注为“单位(units)”和“气候条件(weatercondition)”,则通过cyk算法可以结合待处理语音数据整体的语义确定是对空调进行的控制,而非描述气候条件,因此可以删除“度”的属性标注中的“气候条件(weatercondition)”,保留“度”的属性标注为“单位(units)”。需要说明的是,本申请实施例中电子设备所具体使用的分词方法、上下文无关分析法等方法的具体实现及原理已经得到了较为成熟的应用,本申请对此不做限定并不再赘述。
[0180]
此外,在上述示例中,由于待处理的语音数据“帮我把空调上升2度”中,“帮我”和“把”两个词语没有属性或者其属性不在电子设备的业务考虑范围内,因此在s102中可以将
这两个词语删除,不进行后续s103的处理。
[0181]
s103:确定与多个第一词语中,每个第一词语所对应的词语集合,得到多个词语集合。
[0182]
具体地,当电子设备在s102中确定待处理语音数据中的多个第一词语后,在s103中进一步确定与多个第一词语对应的多个词语集合,其中,对于任一个第一词语,该第一词语对应的词语集合中包括了至少一个第二词语,以及每个所述第二词语对应的权重值。
[0183]
在一种具体的实现方式中,电子设备具体在s103中从图数据库中获取第一词语的第一节点所指向的至少一个第二词语的第二节点,以及所述第一节点到第二节点路径的权重值。其中,图数据库包括多个词语的节点、多个节点之间的指向关系,以及每个指向关系的权重值。
[0184]
图15为本申请提供的一种图数据库的示意图,在图15中以待处理语音数据包括“帮我把空调上升2度”作为示例,通过图数据的方式示出了在上述待处理语音数据中,“空调”、“上升”、“2”、“度”这四个第一词语对应的至少一个第二词语,如图15所示的图数据库可以理解为一种语义网络,即,通过网络中每个节点对应于一个词语,并在网络中以向量的形式标识出每个节点之间的指向关系以及每个指向关系的权重值。
[0185]
示例性地,当电子设备通过s102确定了多个第一词语“空调”、“上升”、“2”、“度”之后,首先可以将这四个词语转换为对应的图数据库中的节点,随后再根据图数据库中第一词语对应的节点查找第二词语对应的节点。例如,对于第一词语“空调”,在图15所示的图数据库中,可以通过“空调”对应的节点,找到该节点指向的节点以及每个节点对应的权重值。其中,在本实施例中为了便于图数据库的实现,所记录的权重值越小,说明两个节点之间的语义相关程度越高,此时,权重值与相关程度呈反比,因此权重值又可以被抽象地理解为两个节点之间的“阻力”。则词语“空调”指向的节点以及所指向的节点的权重值包括:空调-0、增加-1、设置-1、亮度-1、温度-0.9、风向-1和查询-1,记为词语集合。同样地,电子设备可以在图15所示的图数据库中分别查找“空调”、“上升”、“2”、“度”四个第一词语分别对应的四个词语集合,这四个从图数据库直接得到的词语集合可以通过图16的四个框图来表示,其中,图16为本申请提供的词语集合一实施例的示意图。
[0186]
需要说明的是,如图15所示的图数据库可以包括更多的词语对应的节点,以及更多节点之间的指向关系、权重值等,在图15中由于篇幅的限制,仅以待处理语音数据“帮我把空调上升2度”相关的节点作为示例性的说明。
[0187]
在一些实施例中,由于图数据库中通过两个节点之间的权重值越小,表示两个节点之间的语义相关程度越高,则为了后续计算,当得到如图16所示的词语集合后,可以将其中每个词语集合中的权重值进行处理使得其中每两个节点之间的权重值越大,表示两个节点之间的语义相关程度越高,例如,在如图16所示的词语集合中,根据经验值得到图数据库中最大的权重值为3.9,则用3.9减去将图16中每个权重值后,得到如图17所示的词语集合进行后续计算,其中,图17为本申请提供的词语集合另一实施例的示意图。
[0188]
在一些实施例中,所述第二词语可以包括以下的一项或多项:第一词语的近义词语、所述第一词语的反义词语、语音数据对应的业务中,第一词语关联的词语以及语音数据对应的业务中,第一词语与语音数据中其他词语共同关联的词语。例如:在如图15所示的图数据库中,第一词语“空调”所对应的语音数据的空调温度调节的业务中,与“空调”关联的
词语有“增加”、“设置”、“亮度”、“温度”、“风量”和“查询”等。
[0189]
s104:根据多个词语集合中的第二词语,以及每个第二词语的权重值,确定待处理语音数据的语义。
[0190]
具体地,电子设备可以根据如图17所示的词语集合中,每个词语集合中的所有第二词语,以及每个第二词语的权重值,确定出待处理语音数据的语义。在一种具体的实现方式中,s104中具体包括如下步骤:
[0191]
s1041:根据多个词语集合中的第二词语,以及每个第二词语的权重值,得到候选词语集合。
[0192]
其中,电子设备在s1041中首先根据如图17所示的多个词语集合,确定候选词语集合,所述候选词语集合用于筛选后续的词语因此又可被称为“联想池”,其中,所确定的候选集合中,包括多个词语集合中不重复的多个第三词语,以及在多个词语集合中所有第三词语的权重值之和,例如,图18为本申请提供的候选词语集合一实施例的示意图,其中,对于如图17所示的多个第一词语空调、上升、2和度的词语集合中,都存在第二词语“增加”,则将所有“增加”的权重值相加后,2.9+2.9+1.9+1.8=9.5得到权重值之和,并将相加后的词语记为第三词语,则按照相同的方法,最终得到如图18所示的候选词语集合,其中包括了多个第三词语以及每个第三词语对应的权重值之和:增加-9.5、查询-6、设置-5.8、温度-7.7、风量-4.8、亮度-4.8、空调-3.9、2-3.9、摄氏度-3.8、数字2.9和度2.9等。其中,由于数字对应的属性不属于表1中的预设属性(在图18中的slot为空),因此可以将数字和度从候选词语集合中删除(通过图中划线的方式表示删除),不进行后续的计算。
[0193]
s1042:按照所述多个预设属性,从所述候选词语集合中,确定每个预设属性对应的第三词语中权重值最大的至少一个第四词语。
[0194]
具体地,在s1042中,电子设备根据如图18所示的第三词语中,所有第三词语所归属的预设属性,从每个预设属性的第三词语中挑选权重值最大的3个词语作为第四词语。例如,在如图18所示的示例中,预设属性“command”对应的权重值最大的三个词语为增加、查询和设置,预设属性“property”对应的权重值最大的三个词语为温度、风量和亮度,预设属性“device”对应的权重值最大的三个词语为空调,预设属性“units”对应的权重值最大的词语为设置度,将所选取的每个属性对应的权重值最大的3个词语记为第四词语。由于本示例中每个预设属性对应的词语最多为三个或者少于三个,因此每个预设属性所选取的第四词语等于或少于三个。
[0195]
s1043:在每个所述预设属性对应的至少一个第四词语中,确定多个第五词语,使得所述多个预设属性对应的多个第五词语的权重值相加之和最大;
[0196]
随后,当通过s1042确定了每个预设属性对应的第四词语后,可以将全部第四词语分别代入到如表1所示的设备(device)、部分(section)、类型(type)、模式(property)、命令(command)、数值(value)和单位(unit)的预设属性的结构中,并加入每个第四词语的权重值,得到按照不同预设属性的第四词语之间任意组合为如表2所示:
[0197]
表2
[0198][0199]
通过表2可以得到,经过预设属性组合后的第一行中“空调”、“温度”、“增加”、“2”、“摄氏度”的词语得到的总分最高,将得到的“空调”、“温度”、“增加”、“2”、“摄氏度”这五个词语记为第五词语。
[0200]
s1044:根据所述多个第五词语确定所述待处理语音数据的语义。
[0201]
最终,电子设备根据s1043中得到的多个第五词语,进行语义分析,进而确定待处理语音数据的语义。本申请对确定词语的语义的具体方式不做限定。
[0202]
综上,本申请实施例提供的语音数据处理方法中,作为执行主体的电子设备当获取待处理的语音数据后,并不直接使用语音数据中包括的多个第一词语进行语义识别确定待处理语音数据中的指令,而是对待处理语音数据中的多个第一词语进行联想与扩展,得到第一词语一一对应的多个词语集合,并通过词语集合中更多的词语以及权重值,最终得到多个第五词语后,通过多个第五词语对语音数据中进行语义识别。因此,本申请实施例与相关技术中直接通过语音数据中多个第一词语进行语义识别相比,能够在用户说出较为口语化的第一词语之后,通过图数据库确定与第一词语的语义相关的其他词语,并通过权重值确定出电子设备能够识别的第五词语,最终依靠确定出的多个第五词语进行语义识别,
从而使得电子设备更加准确地确定出语音数据中的指令,提高了电子设备在对语音数据对应的语义进行识别时的准确率,进而保证电子设备能够根据用户的指令执行相应的任务,提高电子设备的用户体验。
[0203]
在一些实施例中,在本申请实施例中,由于图数据库是提前由工作人员制作并存储在电子设备中,电子设备在执行上述语音数据处理方法时可以直接使用。因此,在制作如图15所示的图数据库时,工作人员还可以向其中添加更多常识性知识,汉语语言知识,以及业务知识,从而通过使得电子设备根据图数据库,实现“模拟”人类理解句子的方式,扩展语音数据中不同词语得到的语句的语义,使得电子设备能够具备类似于人类进行“思考”的能力,提高了语音数据处理方法的智能化程度和自动化程度。
[0204]
其中,在所制作的图数据库中,将任意第一节点对应的词语记为第一词语,则第一节点指向的第二词语可以通过如下四种语义联想策略实现:一、常规语义联想,偏向图数据库所应用的电子设备实现的业务,“床单”可以联想到“大件劲洗”,“夜间”可以联想到“睡眠”,“颜色”可以联想到“色度”,“水珠”可以联想到“除湿”,例如用户说“空调调到水珠模式”,可以根据常规联想推理出“空调模式设置除湿”。
[0205]
二、相近语义联想,相当于近义词机制,例如:“打开”与“启动”是属于相近语义的,但是在部分设备中这两中说法都属于机器代码转换的标准槽位值,并不是一模一样的意思,例如:“洗衣机”,“扫地机器人”都有打开和启动两种机器指令,但是“空调”,“台灯”这类设备就只有打开这一种机器指令,这样用户说“启动空调”和“打开空调”这都是一个意思,但是“启动洗衣机”和“打开洗衣机”就是不一样的意思。
[0206]
三、反转语义联想,相当于反义词机制,例如:“关闭”和“打开”是属于反转语义的,用户说“红外探测器取消撤防”,其中“撤防”有关闭的意思,根据“取消”可以得到“撤防”需要反转语义,而“撤防”的常规联想语义是“关闭”,所以可以得到最终“打开”的语义。从而最终得到“红外探测器打开”。
[0207]
四、激活语义联想,即第一词语以及其他词语,共两个或者两个以上特定词语出现时,一个语义的重要性会激增,例如:“左边”+“冷藏室”=“左冷藏室”,“关闭”+“音量”=“静音”,“关闭”+“静音”=“取消静音”,可以顺利解决“电视关闭声音”,“电视关掉静音”,“电视打开静音”,“帮我关掉冰箱左侧的冷藏室”,“打开冰箱靠右边的冷藏室”。本发明的计算机制在后面详细介绍。
[0208]
例如,图19为本申请提供的图数据库另一实施例的示意图,在图19中,以待处理语音数据包括“扫地机靠着墙扫地吧”作为示例,通过图数据的方式示出了在上述待处理语音数据中,“扫地机”、“靠着墙”、“扫地”这三个第一词语对应的至少一个第二词语,其中,“吧”的实际意义不大所以不体现在图中,其余的用户原词都标记在图中,“靠着墙”先进行了近义联想转换得到了“沿边”然后与“扫地”进行激活语义的结合,转换成“沿边清扫”的标准功能值,进而推理出“扫地机器人模式设置沿边清扫”。“扫地”在近义联想到“清扫”后,会有多个激活语义的可能,例如“沿边清扫”“重点清扫”“定点清扫”,但是用户还说了还说了“沿边清扫”激活语义的另一条边的接入,所以这里可以唯一确定是“沿边清扫”。
[0209]
又例如,图20为本申请提供的图数据库又一实施例的示意图,在图20中,以待处理语音数据包括“我想让洗衣机左侧的筒帮我洗一下宝宝的衣服”作为示例,通过图数据的方式示出了在上述待处理语音数据中,“洗衣机”、“左侧”、“筒”、“洗一下”、“宝宝”、“衣服”这
六个第一词语对应的至少一个第二词语,其中“我想让”“的”“帮我”之类的词语进行了剔除,不在图中显示,“左侧”和“筒”经过转换得到了洗衣机是三筒类型,并且控制的是三筒洗衣机的左筒部件。然后“洗一下”这个词语有多个意思,有启动洗衣机的意思,也有设置洗衣机的意思,这里所有意思都进行了延伸,通过其下文进一步确定最终的意思。“宝宝”和“衣服”可以联想到“婴幼护洗”功能,这里面既有激活语义也有业务联想的成分。根据后面的“婴幼护洗”可以确定“洗一下”是想要设置洗衣机的意思。这样结合前面的所有推理,最终得到“三筒洗衣机左筒模式设置婴幼护洗”这样标准的语义输出。
[0210]
在另一些实施例中,如图13-图19所示的示例中,示出了电视机等电子设备本身作为执行主体,在采集到待处理语音数据后,执行本申请中语音数据处理方法的过程。而在其他可能的实现方式中,如图13-如图19所示的对待处理语音数据进行处理的过程,也可以由服务器来执行,例如,当本申请提供的语音数据处理方法应用在如图8所示的场景中,并由服务器作为执行主体来执行时,电视机等显示设备在采集到用户说出的语音数据后,将语音数据发送给服务器,由服务器作为如图13-如图19所示的电子设备,对待处理语音数据进行处理,并按照相同的方式得到待处理语音数据的语义后,将待处理语音数据的语义发送给显示设备。
[0211]
则作为显示设备,以如图2所示的结构作为示例,可以通过例如检测器230接收到语音数据后,由控制器250通过通信器220发送到服务器,并在服务器根据待处理语音数据得到其语义后,显示设备再通过通信器220接收服务器发送的语义,再由控制器250接收到的语音数据的语义进行处理。
[0212]
在前述实施例中,对本申请实施例提供的语音数据处理方法进行了介绍,而为了实现上述本申请实施例提供的语音数据处理方法中的各功能,作为执行主体的电子设备可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
[0213]
例如,图21为本申请提供的语音数据处理装置一实施例的结构示意图,如图21所示的装置210可用于作为如图13-19中的电子设备,并执行由电子设备所执行的方法,该装置具体包括:获取部2101、第一词语确定部2102、词语集合确定部2103和处理部2104。其中,获取部2101用于获取待处理语音数据;第一词语确定部2102用于确定待处理语音数据中的多个第一词语;词语集合确定部2103用于确定与每个第一词语对应的词语集合;其中,词语集合中包括至少一个第二词语,以及每个第二词语对应的权重值;处理部2104用于根据多个第一词语对应的多个词语集合中的所有第二词语,以及每个第二词语的权重值,确定待处理语音数据的语义。
[0214]
在一些实施例中,词语集合确定部2103具体用于,从图数据库中获取第一词语的第一节点所指向的至少一个第二词语的第二节点,以及第一节点到第二节点路径的权重值;其中,图数据库包括多个词语的节点、多个节点之间的指向关系,以及每个指向关系的权重值。
[0215]
在一些实施例中,第一节点指向第二节点的指向关系的权重值,用于表示第一词语与第二词语之间的语义关联程度。
[0216]
在一些实施例中,第二词语包括以下的一项或多项:第一词语的近义词语;第一词
语的反义词语;语音数据对应的业务中,第一词语关联的词语;语音数据对应的业务中,第一词语与语音数据中其他词语共同关联的词语。
[0217]
在一些实施例中,第一词语确定部具体用于,根据多个预设属性,从待处理语音数据中,分别确定属于每个预设属性的多个第一词语。
[0218]
在一些实施例中,处理部2104具体用于,根据多个词语集合中的第二词语,以及每个第二词语的权重值,得到候选词语集合;候选集合中包括多个词语集合中不重复的多个第三词语,以及在多个词语集合中所有第三词语的权重值之和;按照多个预设属性,从候选词语集合中,确定每个预设属性对应的第三词语中权重值最大的至少一个第四词语;在每个预设属性对应的至少一个第四词语中,确定多个第五词语,使得多个预设属性对应的多个第五词语的权重值相加之和最大;根据多个第五词语确定待处理语音数据的语义。
[0219]
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理部2104可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0220]
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,asic),或,一个或多个微处理器(digital signal processor,dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,soc)的形式实现。
[0221]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0222]
本申请实施例还提供一种可读存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如本申请前述任一实施例中由电子设备所执行的方法。
[0223]
本申请实施例还提供一种运行指令的芯片,所述芯片用于执行如本申请前述任一实施例中由电子设备所执行的方法。
[0224]
本申请实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,至少一个处理器可以从所述存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现如本申请前述任一实施例中由电子设备所执行的方法。
[0225]
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0226]
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
热门咨询
tips