数据处理方法、装置、系统、介质与流程
本公开涉及计算机技术领域,更具体地,涉及一种数据处理方法、一种数据处理装置、一种数据处理系统、以及一种计算机可读存储介质。
背景技术:
随着计算机技术发展,电子设备趋向智能化,各种各样的智能设备广泛应用于诸多领域,例如智能家居、智能车辆等得到广泛应用。语音是人类的最常使用的交互方式,所以通过语音唤醒智能设备的技术成为研究热点。现有技术通常通过训练语音模型,并将训练好的语音模型运用于唤醒智能没备,语音模型包括各种各样的神经网络模型。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题,现有技术中语音模型由于样本数据不够丰富,造成语音模型的泛化能力不足,场景适用性不佳,唤醒效果较差。
技术实现要素:
有鉴于此,本公开提供了一种优化的数据处理方法和装置、系统、介质。
本公开的一个方面提供了一种数据处理方法,包括:获取当前语音数据,根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,所述历史语音数据包括至少一个语音子数据,基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,其中,所述目标语音子数据包括用于控制电子设备失败的语音数据,响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。
根据本公开实施例,上述方法还包括:确定所述当前语音数据的类别,所述类别包括第一类别和第二类别。所述根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,包括:响应于确定所述当前语音数据的类别为所述第一类别,根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值。
根据本公开实施例,上述基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,包括:确定所述当前分值与第一阈值之间的分值关系,确定所述历史语音数据中的至少一个语音子数据对应的至少一个第一差值,其中,所述第一差值为第二概率和第一概率之间的差值,所述第一概率为所述至少一个语音子数据属于所述第一类别的概率,所述第二概率为所述至少一个语音子数据属于所述第二类别的概率,基于所述分值关系以及所述至少一个第一差值确定所述历史语音数据是否包括至少一个目标语音子数据。
根据本公开实施例,上述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:在所述分值关系表示所述当前分值大于或等于所述第一阈值并且所述至少一个第一差值中包括满足预设差值的第一差值时,确定所述历史语音数据包括至少一个目标语音子数据,存储所述历史语音数据。
根据本公开实施例,上述基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,包括:获取第二阈值、第三阈值以及分值变量,将所述当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,根据所述比较结果确定所述历史语音数据是否包括至少一个目标语音子数据。
根据本公开实施例,上述将所述当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,包括:将当前分值与所述第二阈值和所述第三阈值进行比较,响应于当前分值小于所述第二阈值并且大于所述第三阈值,将所述当前分值和所述分值变量进行比较,以获得所述比较结果。
根据本公开实施例,上述历史语音数据包括n个语音子数据,n为大于0的整数。所述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:响应于当前分值小于所述分值变量,确定所述所述n个语音子数据中的第n个语音子数据为所述至少一个目标语音子数据,存储所述至少一个目标语音子数据。
根据本公开实施例,上述方法还包括:更新所述分值变量。其中,更新所述分值变量包括以下至少一项:响应于当前分值大于所述第二阈值,更新所述分值变量,以及响应于当前分值大于或等于所述分值变量,基于所述当前分值更新所述分值变量。
本公开的另一个方面提供了一种数据处理装置,包括获取模块、处理模块、第一确定模块以及存储模块。其中,获取模块获取当前语音数据,处理模块根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,所述历史语音数据包括至少一个语音子数据,第一确定模块基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,其中,所述目标语音子数据包括用于控制电子设备失败的语音数据,存储模块响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。
根据本公开实施例,上述装置还包括:第二确定模块,确定所述当前语音数据的类别,所述类别包括第一类别和第二类别。所述根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,包括:响应于确定所述当前语音数据的类别为所述第一类别,根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值。
根据本公开实施例,上述第一确定模块包括:第一确定子模块、第二确定子模块以及第三确定子模块。其中,第一确定子模块确定所述当前分值与第一阈值之间的分值关系,第二确定子模块确定所述历史语音数据中的至少一个语音子数据对应的至少一个第一差值,其中,所述第一差值为第二概率和第一概率之间的差值,所述第一概率为所述至少一个语音子数据属于所述第一类别的概率,所述第二概率为所述至少一个语音子数据属于所述第二类别的概率,第三确定子模块基于所述分值关系以及所述至少一个第一差值确定所述历史语音数据是否包括至少一个目标语音子数据。
根据本公开实施例,上述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:在所述分值关系表示所述当前分值大于或等于所述第一阈值并且所述至少一个第一差值中包括满足预设差值的第一差值时,确定所述历史语音数据包括至少一个目标语音子数据,存储所述历史语音数据。
根据本公开实施例,上述第一确定模块包括:获取子模块、比较子模块以及第四确定子模块。其中,获取子模块获取第二阈值、第三阈值以及分值变量,比较子模块将所述当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,第四确定子模块根据所述比较结果确定所述历史语音数据是否包括至少一个目标语音子数据。
根据本公开实施例,上述将所述当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,包括:将当前分值与所述第二阈值和所述第三阈值进行比较,响应于当前分值小于所述第二阈值并且大于所述第三阈值,将所述当前分值和所述分值变量进行比较,以获得所述比较结果。
根据本公开实施例,上述历史语音数据包括n个语音子数据,n为大于0的整数。所述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:响应于当前分值小于所述分值变量,确定所述所述n个语音子数据中的第n个语音子数据为所述至少一个目标语音子数据,存储所述至少一个目标语音子数据。
根据本公开实施例,上述装置还包括:更新模块,更新所述分值变量。其中,更新所述分值变量包括以下至少一项:响应于当前分值大于所述第二阈值,更新所述分值变量,以及响应于当前分值大于或等于所述分值变量,基于所述当前分值更新所述分值变量。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,可以至少部分地解决现有技术中语音模型由于样本数据不够丰富,造成语音模型的泛化能力不足,场景适用性不佳,唤醒效果较差的问题,并因此可以实现提高样本数据的多样化,以提高语音模型的泛化能力,提高语音模型对更多场景的适用性,并提高语音模型的唤醒效果的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据处理方法和数据处理系统的系统架构;
图2示意性示出了根据本公开实施例的数据处理方法的应用场景;
图3示意性示出了根据本公开实施例的数据处理方法的流程图;
图4示意性示出了根据本公开另一实施例的数据处理方法的流程图;
图5示意性示出了根据本公开实施例的确定目标语音子数据的流程图;
图6示意性示出了根据本公开另一实施例的确定目标语音子数据的流程图;
图7示意性示出了根据本公开实施例的确定目标语音子数据的示意图;
图8示意性示出了根据本公开实施例的数据处理装置的框图;
图9示意性示出了根据本公开另一实施例的数据处理装置的框图;
图10示意性示出了根据本公开实施例的第一确定模块的框图;
图11示意性示出了根据本公开另一实施例的第一确定模块的框图;以及
图12示意性示出了根据本公开实施例的适于数据处理的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
本公开的实施例提供了一种数据处理方法,包括:获取当前语音数据,根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值,历史语音数据包括至少一个语音子数据,基于当前分值和历史语音数据中的至少一个确定历史语音数据是否包括至少一个目标语音子数据,其中,目标语音子数据包括用于控制电子设备失败的语音数据,响应于历史语音数据包括至少一个目标语音子数据,存储至少一个目标语音子数据,以便将至少一个目标语音子数据作为训练用于控制电子设备的语音模型的样本数据。
图1示意性示出了根据本公开实施例的数据处理方法和数据处理系统的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,本公开实施例所获取的当前语音数据可以存储在终端设备101、102、103中,通过终端设备101、102、103将当前语音数据发送至服务器105中,服务器105可以根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值,并基于当前分值和历史语音数据中的至少一个确定历史语音数据是否包括至少一个目标语音子数据,或者,终端设备101、102、103也可以直接获取当前语音数据,并根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值,以及基于当前分值和历史语音数据中的至少一个确定历史语音数据是否包括至少一个目标语音子数据。另外,获取的当前语音数据还可以直接存储在服务器105中,由服务器105直接根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值,以及基于当前分值和历史语音数据中的至少一个确定历史语音数据是否包括至少一个目标语音子数据。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的数据处理方法的应用场景。
如图2所示,该应用场景200例如包括智能设备210和用户220。
其中,智能设备210例如可以是智能音箱、智能手机等等。用户220可以通过语音唤醒智能设备210。
其中,智能设备210中例如包括训练好的语音模型,语音模型可以是神经网络模型。其中,在智能设备210接收到用户220的语音后,通过语音模型判断该语音是否为唤醒词,如果判断语音为唤醒词,则唤醒智能设备210。
由于智能设备210的对语音的识别能力直接影响智能设备210的唤醒效果。因此,语音模型需要通过大量的样本数据进行训练,因此样本数据的丰富程度至关重要。
图3示意性示出了根据本公开实施例的数据处理方法的流程图。
如图3所示,该方法包括操作s310~s340。
在操作s310,获取当前语音数据。
在操作s320,根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值,历史语音数据包括至少一个语音子数据。
本公开实施例例如可以将实时获取的当前语音数据输入语音模型中,语音模型对当前语音数据进行计算得到相应的得分,得分越高例如表示当前语音数据越接近唤醒词,如果当前语音数据与唤醒词的相似程度满足一定条件即可唤醒相应的电子设备。例如,电子设备可以是智能设备,例如智能音箱、智能手机等等。其中,语音模型可以是神经网络模型。
例如,历史语音数据包括n个语音子数据,将每个语音子数据输入语音模型中得到n个得分。基于当前语音数据的得分和n个得分进行加权平均计算得到当前语音数据对应的当前分值。其中,通过加权平均计算可以适当减小当前语音数据受到噪音的干扰,确保当前分值较为准确地反映当前语音数据与唤醒词的相似程度。
在操作s330,基于当前分值和历史语音数据中的至少一个确定历史语音数据是否包括至少一个目标语音子数据,其中,目标语音子数据包括用于控制电子设备失败的语音数据。
根据本公开实施例,确定n个语音子数据中是否包括目标语音子数据,该目标语音子数据例如可以是与唤醒词较为相近但是不能唤醒电子设备的语音数据。其中,该操作s330具体如下所示的图5或图6中描述。
在操作s340,响应于历史语音数据包括至少一个目标语音子数据,存储至少一个目标语音子数据,以便将至少一个目标语音子数据作为训练用于控制电子设备的语音模型的样本数据。
在本公开实施例中,在n个语音子数据中包括至少一个目标语音子数据时,存储该至少一个目标语音子数据。由于该目标语音子数据与唤醒词较为相近,但不能唤醒电子设备,因此将该目标语音子数据作为训练或者更新语音模型的样本数据,以此提高样本数据的多样化,提高语音模型的泛化能力,提高语音模型对更多场景的适用性,并提高语音模型的唤醒效果。
图4示意性示出了根据本公开另一实施例的数据处理方法的流程图。
如图4所示,该方法包括操作s310~s340以及s410。其中,操作s310~s340如上参考图3描述的操作相同或类似,在此不再赘述。
在操作s410,确定当前语音数据的类别,类别包括第一类别和第二类别。其中,根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值,包括:响应于确定当前语音数据的类别为第一类别,根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值。
根据本公开实施例,在基于当前语音数据的得分和n个语音子数据对应的n个得分进行加权平均计算,得到当前语音数据对应的当前分值之前,例如可以首先初步判别当前语音数据的类别,在当前语音数据的类别满足一定条件时,才继续计算当前分值。
例如,将当前语音数据输入语音模型中进行分类,语音模型的输出结果例如为当前语音数据属于第一类别的得分,以及属于第二类别的得分,第一类别例如为唤醒词类别,第二类别例如为不是唤醒词类别。在当前语音数据属于第一类别的得分高于属于第二类别的得分时,初步判定当前语音数据属于第一类别,即当前语音数据属于唤醒词类别。
类似地,可以将n个语音子数据分别输入语音模型得到n个语音子数据属于第一类别的n个得分,并基于当前语音数据属于第一类别的得分与n个得分进行加权平均计算得到当前分值。
本公开实施例的操作s330例如包括两种实现方式,以下的图5中的操作为一种实现方式,图6描述的操作为另一种实现方式。
图5示意性示出了根据本公开实施例的确定目标语音子数据的流程图。
如图5所示,操作s330包括s331a~s333a。其中,本公开实施例例如基于当前分值和历史语音数据(即包括当前分值和历史语音数据两个)确定历史语音数据是否包括至少一个目标语音子数据。
在操作s331a,确定当前分值与第一阈值之间的分值关系。
根据本公开实施例,第一阈值例如作为语音数据是否能够唤醒电子设备的依据。第一阈值例如可以是具体的得分值,当初步判定当前语音数据属于第一类别(即当前语音数据属于唤醒词类别)时,进一步判定当前分值是否大于第一阈值,当大于第一阈值时,则确定当前语音数据能够唤醒电子设备。因此,分值关系例如包括当前分值大于第一阈值、当前分值小于等于第一阈值。
在操作s332a,确定历史语音数据中的至少一个语音子数据对应的至少一个第一差值,其中,第一差值为第二概率和第一概率之间的差值,第一概率为至少一个语音子数据属于第一类别的概率,第二概率为至少一个语音子数据属于第二类别的概率。
其中,历史语音数据中的n个语音子数据对应有n个第一差值。例如,以n个语音子数据中的一个为例,当将一个语音子数据输入语音模型后,输出的结果例如为该一个语音子数据属于第一类别的第一概率和属于第二类别的第二概率,其中,该第二概率与第一概率之间的差值为第一差值。
在操作s333a,基于分值关系以及至少一个第一差值确定历史语音数据是否包括至少一个目标语音子数据。
例如,在分值关系表示当前分值大于或等于第一阈值并且至少一个第一差值中包括满足预设差值的第一差值时,确定历史语音数据包括至少一个目标语音子数据,存储历史语音数据。
例如,在分值关系为当前分值大于第一阈值,并且n个第一差值中具有满足预设差值的第一差值时(例如n个第一差值中具有小于0.2的第一差值,该0.2例如为预设差值),可以存储历史语音数据。
举例来说,例如设置一个标记向量mark,该标记向量mark记录每个语音子数据的第一差值ti,其中,每个语音子数据属于时间长度为4s中的n个语音子数据。例如,经语音模型初步判别每个语音子数据是否满足如下条件:当利用语音模型计算每个语音子数据的得分(概率)时,得到的每个语音子数据的对应类别不是唤醒词类别(例如第一概率小于第二概率),并且该类别得分和唤醒词类别得分的差值小于0.2(即第二概率与第一概率的差值小于0.2)。如果满足该条件,则标记向量mark[ti]为1,否则为0。并且,在分值关系为当前分值大于第一阈值(表示当前语音数据能够唤醒电子设备),且标记向量mark中包括数值为1的元素时,那么可以将前4s中具有的n个语音子数据存储。
在本公开实施例中,由于用户首次尝试唤醒时,语音会比较随意自然,当首次唤醒失败时,用户进行二次尝试唤醒时通常会调整到较匹配的语音状态。在第二次唤醒成功后,首次未唤醒的数据是实际场景下最自然的数据,因此需要收集该数据。例如当前语音数据能够唤醒电子设备,则最近一段时间内(例如4s)的语音数据中包含首次唤醒失败的语音数据的可能性较大。
例如最近一段时间内(例如4s)的历史语音数据未能唤醒电子设备,但唤醒词类别得分较高(第一差值较小)该历史语音数据中包含首次唤醒失败的语音子数据的可能性较高。此时,可以收集将该历史语音数据,并经过筛选得到首次唤醒失败的语音子数据,以用于作为更新语音模型的样本数据,以此提高样本数据的多样化,提高语音模型的泛化能力,提高语音模型对更多场景的适用性,并提高语音模型的唤醒效果。
图6示意性示出了根据本公开另一实施例的确定目标语音子数据的流程图。
如图6所示,操作s330包括s331b~s333b。其中,本公开实施例例如基于当前分值(即可以仅包括当前分值)确定历史语音数据是否包括至少一个目标语音子数据。
在操作s331b,获取第二阈值、第三阈值以及分值变量。
其中,第二阈值、第三阈值以及分值变量例如可以是具体的数值。例如,第二阈值为a(此处的第二阈值可以和图5中描述的第一阈值相同),第三阈值为b,且a大于b。分值变量为s。
在操作s332b,将当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果。例如,可以将当前分值与第二阈值和第三阈值进行比较。响应于当前分值小于第二阈值并且大于第三阈值,将当前分值和分值变量进行比较,以获得比较结果。
例如,当前分值为st,当b<st<a时(此时,当前语音数据不能唤醒电子设备),将当前分值st与分值变量s进行比较,得到比较结果。
在操作s333b,根据比较结果确定历史语音数据是否包括至少一个目标语音子数据。
例如,当st<s时,表示历史语音数据包括至少一个目标语音子数据。
例如,历史语音数据包括n个语音子数据,n为大于0的整数。响应于历史语音数据包括至少一个目标语音子数据,存储至少一个目标语音子数据,包括:响应于当前分值小于分值变量,确定n个语音子数据中的第n个语音子数据为至少一个目标语音子数据,存储至少一个目标语音子数据。
本公开实施例例如可以更新分值变量。分值变量s的初始值例如可以为0。其中,更新分值变量包括以下至少一项:
(1)响应于当前分值st大于第二阈值a,更新分值变量s。例如将分值变量s更新为0。
(2)响应于当前分值st大于或等于分值变量s,基于当前分值st更新分值变量s。例如,将分值变量s更新为st。
为了便于理解本公开实施例的技术方案,图7示意性示出了根据本公开实施例的确定目标语音子数据的示意图。
如图7所示,x轴例如表示历史语音数据中的n个语音子数据,其中,x=1、2、3、……、n、……等等;y轴表示分值,例如y=0、a(第二阈值)、b(第三阈值)等等。
例如,分值变量s的初始值为0,当第n-2个语音子数据的加权平均分值sn-2≥0(0为分值变量s的初始值)时,则更新分值变量s=sn-2;当第n-1个语音子数据的加权平均分值sn-1≥s(此时s=sn-2)时,则更新分值变量s=sn-1;当第n个语音子数据的加权平均分值sn≥s(s=sn-1)时,则更新分值变量s=sn。当采集到的当前语音数据(当前语音数据例如为第n’个语音子数据)的当前分值sn’=st<s(此时s=sn)时,更新分值变量s=0,并存储历史语音数据中的第n个语音子数据。其中,在存储第n个语音子数据之后的一段时间内(例如1s内)可以不再存储其他语音数据,避免由于得分的小波动而导致存储重复的数据。由图7可得知,该第n个语音子数据的加权平均分值比第n-2、n-1、n’个语音子数据的加权平均分值均大(当前分值也为加权平均分值)。
根据本公开实施例,当由于噪音的干扰导致部分语音数据(例如第n-2、n-1、n、n’个语音子数据)的加权平均分值小于第二阈值a而不能唤醒电子设备时,该部分语音数据中加权平均分值较大的语音子数据(例如第n个语音子数据)也需要收集。其中,所收集的语音子数据例如能够用于作为更新语音模型的样本数据,以此提高样本数据的多样化,提高语音模型的泛化能力,提高语音模型对更多场景的适用性,并提高语音模型的唤醒效果。
图8示意性示出了根据本公开实施例的数据处理装置的框图。
如图8所示,数据处理装置800包括获取模块810、处理模块820、第一确定模块830以及存储模块840。
获取模块810可以用于获取当前语音数据。根据本公开实施例,获取模块810例如可以执行上文参考图3描述的操作s310,在此不再赘述。
处理模块820可以用于根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值,历史语音数据包括至少一个语音子数据。根据本公开实施例,处理模块820例如可以执行上文参考图3描述的操作s320,在此不再赘述。
第一确定模块830可以用于基于当前分值和历史语音数据中的至少一个确定历史语音数据是否包括至少一个目标语音子数据,其中,目标语音子数据包括用于控制电子设备失败的语音数据。根据本公开实施例,第一确定模块830例如可以执行上文参考图3描述的操作s330,在此不再赘述。
存储模块840可以用于响应于历史语音数据包括至少一个目标语音子数据,存储至少一个目标语音子数据,以便将至少一个目标语音子数据作为训练用于控制电子设备的语音模型的样本数据。根据本公开实施例,存储模块840例如可以执行上文参考图3描述的操作s340,在此不再赘述。
图9示意性示出了根据本公开另一实施例的数据处理装置的框图。
如图9所示,数据处理装置900包括获取模块810、处理模块820、第一确定模块830、存储模块840以及第二确定模块910。其中,获取模块810、处理模块820、第一确定模块830以及存储模块840与上参考图8描述的模块相同或类似,在此不再赘述。
第二确定模块910可以用于确定当前语音数据的类别,类别包括第一类别和第二类别。
根据本公开实施例,根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值,包括:响应于确定当前语音数据的类别为第一类别,根据历史语音数据处理当前语音数据以得到当前语音数据的当前分值。
根据本公开实施例,第二确定模块910例如可以执行上文参考图4描述的操作s410,在此不再赘述。
图10示意性示出了根据本公开实施例的第一确定模块的框图。
如图10所示,第一确定模块830包括第一确定子模块831a、第二确定子模块832a以及第三确定子模块833a。
第一确定子模块831a可以用于确定当前分值与第一阈值之间的分值关系。根据本公开实施例,第一确定子模块831a例如可以执行上文参考图5描述的操作s331a,在此不再赘述。
第二确定子模块832a可以用于确定历史语音数据中的至少一个语音子数据对应的至少一个第一差值,其中,第一差值为第二概率和第一概率之间的差值,第一概率为至少一个语音子数据属于第一类别的概率,第二概率为至少一个语音子数据属于第二类别的概率。根据本公开实施例,第二确定子模块832a例如可以执行上文参考图5描述的操作s332a,在此不再赘述。
第三确定子模块833a可以用于基于分值关系以及至少一个第一差值确定历史语音数据是否包括至少一个目标语音子数据。根据本公开实施例,第三确定子模块833a例如可以执行上文参考图5描述的操作s333a,在此不再赘述。
根据本公开实施例,响应于历史语音数据包括至少一个目标语音子数据,存储至少一个目标语音子数据,包括:在分值关系表示当前分值大于或等于第一阈值并且至少一个第一差值中包括满足预设差值的第一差值时,确定历史语音数据包括至少一个目标语音子数据,存储历史语音数据。
图11示意性示出了根据本公开另一实施例的第一确定模块的框图。
如图11所示,第一确定模块830包括第一获取子模块831b、比较子模块832b以及第四确定子模块833b。
第一获取子模块831b可以用于获取第二阈值、第三阈值以及分值变量。根据本公开实施例,第一获取子模块831b例如可以执行上文参考图6描述的操作s331b,在此不再赘述。
比较子模块832b可以用于将当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果。根据本公开实施例,比较子模块832b例如可以执行上文参考图6描述的操作s332b,在此不再赘述。
第四确定子模块833b可以用于根据比较结果确定历史语音数据是否包括至少一个目标语音子数据。根据本公开实施例,第四确定子模块833b例如可以执行上文参考图6描述的操作s333b,在此不再赘述。
根据本公开实施例,将当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,包括:将当前分值与第二阈值和第三阈值进行比较,响应于当前分值小于第二阈值并且大于第三阈值,将当前分值和分值变量进行比较,以获得比较结果。
根据本公开实施例,历史语音数据包括n个语音子数据,n为大于0的整数。响应于历史语音数据包括至少一个目标语音子数据,存储至少一个目标语音子数据,包括:响应于当前分值小于分值变量,确定n个语音子数据中的第n个语音子数据为至少一个目标语音子数据,存储至少一个目标语音子数据。
根据本公开实施例,装置还包括:更新模块,更新分值变量。其中,更新分值变量包括以下至少一项:响应于当前分值大于第二阈值,更新分值变量,以及响应于当前分值大于或等于分值变量,基于当前分值更新分值变量。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取取模块810、处理模块820、第一确定模块830、存储模块840、第二确定模块910、第一确定子模块831a、第二确定子模块832a、第三确定子模块833a、第一获取子模块831b、比较子模块832b以及第四确定子模块833b中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,检测数据获取模块810、传输状态确定模块820、反馈数据生成模块830、反馈数据发送模块840、预设规则获取模块910、目标专线确定子模块911以及目标预设规则获取子模块912中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取取模块810、处理模块820、第一确定模块830、存储模块840、第二确定模块910、第一确定子模块831a、第二确定子模块832a、第三确定子模块833a、第一获取子模块831b、比较子模块832b以及第四确定子模块833b中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图12示意性示出了根据本公开实施例的适于数据处理的计算机系统的方框图。图12示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,根据本公开实施例的计算机系统1200包括处理器1201,其可以根据存储在只读存储器(rom)1202中的程序或者从存储部分1208加载到随机访问存储器(ram)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在ram1203中,存储有系统1200操作所需的各种程序和数据。处理器1201、rom1202以及ram1203通过总线1204彼此相连。处理器1201通过执行rom1202和/或ram1203中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom1202和ram1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统1200还可以包括输入/输出(i/o)接口1205,输入/输出(i/o)接口1205也连接至总线1204。系统1200还可以包括连接至i/o接口1205的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至i/o接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是计算机非易失性的计算机可读存储介质,例如可以可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom1202和/或ram1203和/或rom1202和ram1203以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除