HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

设备的唤醒方法及装置、电子设备、存储介质与流程

2021-01-28 17:01:33|286|起点商标网
设备的唤醒方法及装置、电子设备、存储介质与流程

本公开涉及电子设备开启技术,尤其涉及一种设备的唤醒方法及装置、电子设备、存储介质。



背景技术:

在电子设备能够互相联网的应用场景下,如智能家居互相联网的应用场景下,而大多智能家居等电子设备支持语音开启功能。但是,不同的电子设备之间的唤醒引擎、本地运算能力和网络交互能力等都存在差异。在针对智能家居的多设备唤醒时,有一些电子设备可能由于唤醒系统的响应速度较慢、运算能力差或网络延迟等因素,会导致唤醒的速度非常慢。而且,可能会出现联网的电子设备越多,电子设备中唤醒响应较慢的电子设备也越多的情况。另外,对于协同工作的多个电子设备而言,如果某些电子设备因反应迟缓而不能及时被唤醒,将影响针对整个协同电子设备的处理效率。如何能在这种情况下发挥优势电子设备的计算能力,如果在其他设备还未完成唤醒引擎时,辅助未唤醒的电子设备进行唤醒,这有助于提升多协同电子设备的整体唤醒响应速度,提升用户使用体验。遗憾的是,目前尚无相关技术可供参考。



技术实现要素:

本公开提供一种设备的唤醒方法及装置、电子设备、存储介质。

根据本公开实施例的第一方面,提供一种设备的唤醒方法,应用于第一电子设备中,所述方法包括:

接收来自第二电子设备的唤醒消息,确定当前状态为未唤醒状态时,获取本地采集的语音数据;

对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的第一梅尔频率倒谱系数;

从所述唤醒消息中解析所述唤醒消息中携带的第二梅尔频率倒谱系数;

将所述第一梅尔频率倒谱系数与所述第二梅尔频率倒谱系数进行匹配,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值时,生成唤醒指令;

响应于所述唤醒指令,唤醒所述第一电子设备。

可选的,所述对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的第一梅尔频率倒谱系数,包括:

对所述语音数据中的高频部分进行补偿,提升所述高频部分的分辨率;

以设定时长将补偿后的所述语音数据划分为语音数据段;

将所述语音数据段与设定的汉明hamming窗函数相乘,形成加窗的语音数据段;

对所述加窗的语音数据段进行傅里叶变换,得到所述加窗的语音数据段的频谱;

将所述频谱通过由t个三角形带通滤波器组成的梅尔刻度滤波器进行滤波,对滤波后的频谱取对数,求出每一个输出的对数能量;其中,t的取值范围为20至30;

对所述对数进行离散余弦变换,得到所述第一梅尔频率倒谱系数。

可选的,所述以设定时长将补偿后的所述语音数据划分为语音数据段,包括:

以第一设定时长将补偿后的所述语音数据划分多个语音数据段,所述多个语音数据段中相邻的第一语音数据段和第二语音数据段中具有第二设定时长的重叠语音段;其中,所述第二设定时长与所述第一设定时长之比的取值范围为1/3至2/3。

可选的,所述将所述第一梅尔频率倒谱系数与所述第二梅尔频率倒谱系数进行匹配,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值,包括:

所述第一梅尔频率倒谱系数形成为序号1至n的第一时间序列;所述第二梅尔频率倒谱系数形成为序号1至m的第二时间序列,以(1,m)或(1,n)为原点,将所述第一时间序列和所述第二时间序列构成二维坐标系;m和n为大于1的自然数;

对于所述二维坐标系中的位置(i,j)的最小累计距离d(i,j),则有d(i,j)=dij+min[d(i-1,j),d(i,j-1),d(i-1,j-1)],其中,d(i-1,j)表示所述二维坐标系中的位置(i-1,j)的最小累计距离,d(i,j-1)表示所述二维坐标系中的位置(i,j-1)的最小累计距离,d(i-1,j-1)表示所述二维坐标系中的位置(i-1,j-1)的最小累计距离;

以d(i,j)的最小累计距离表征方式确定所述二维坐标系中的位置(m,n)的最小累计距离d(m,n),当d(m,n)小于或小于等于第一设定阈值时,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值。

可选的,所述方法还包括:

接收到来自所述第二电子设备的消息,在所述消息中携带有唤醒标识时,确定所述消息为唤醒消息;

确定当前状态为唤醒状态时,丢弃或屏蔽所述唤醒消息。

可选的,在生成唤醒指令后,所述方法还包括:

确定当前基于所述语音数据的唤醒机制是否已启动,启动时关闭当前基于所述语音数据的唤醒机制,未启动时屏蔽当前基于所述语音数据的唤醒机制。

根据本公开实施例的第二方面,提供一种电子设备的唤醒方法,应用于第二电子设备中,所述方法包括:

采集语音数据,对所述语音数据进行识别,生成识别语音信息;

将所述识别语音信息在语音指令数据库中进行匹配;

确定所述识别语音信息与唤醒指令匹配时,调用所述唤醒指令,唤醒所述电子设备,对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的梅尔频率倒谱系数;

生成唤醒消息,并通过通信接口广播所述唤醒消息,其中,所述唤醒消息中承载有所述梅尔频率倒谱系数。

可选的,所述对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的梅尔频率倒谱系数,包括:

对所述语音数据中的高频部分进行补偿,提升所述高频部分的分辨率;

以设定时长将补偿后的所述语音数据划分为语音数据段;

将所述语音数据段与设定的汉明hamming窗函数相乘,形成加窗的语音数据段;

对所述加窗的语音数据段进行傅里叶变换,得到所述加窗的语音数据段的频谱;

将所述频谱通过由t个三角形带通滤波器组成的梅尔刻度滤波器进行滤波,对滤波后的频谱取对数,求出每一个输出的对数能量;其中,t的取值范围为20至30;

对所述对数进行离散余弦变换,得到所述梅尔频率倒谱系数。

可选的,所述以设定时长将补偿后的所述语音数据划分为语音数据段,包括:

以第一设定时长将补偿后的所述语音数据划分多个语音数据段,所述多个语音数据段中相邻的第一语音数据段和第二语音数据段中具有第二设定时长的重叠语音段;其中,所述第二设定时长与所述第一设定时长之比的取值范围为1/3至2/3。

可选的,所述确定所述识别语音信息与唤醒指令匹配之后,所述方法还包括:

确定当前状态为唤醒状态时,丢弃所述识别语音信息,不调用所述唤醒指令。

根据本公开实施例的第三方面,提供一种电子设备的唤醒装置,配置于第一电子设备中,所述装置包括:

接收单元,用于接收来自第二电子设备的唤醒消息;

获取单元,用于在当前状态为未唤醒状态时,获取本地采集的语音数据;

提取单元,用于对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的第一梅尔频率倒谱系数;

解析单元,用于从所述唤醒消息中解析所述唤醒消息中携带的第二梅尔频率倒谱系数;

匹配单元,用于将所述第一梅尔频率倒谱系数与所述第二梅尔频率倒谱系数进行匹配,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值时,触发生成单元;

生成单元,用于生成唤醒指令;

唤醒单元,用于响应于所述唤醒指令,唤醒所述第一电子设备。

可选的,所述提取单元包括:

补偿子单元,用于对所述语音数据中的高频部分进行补偿,提升所述高频部分的分辨率;

划分子单元,用于以设定时长将补偿后的所述语音数据划分为语音数据段;

加窗子单元,用于将所述语音数据段与设定的hamming窗函数相乘,形成加窗的语音数据段;

傅里叶变换子单元,用于对所述加窗的语音数据段进行傅里叶变换,得到所述加窗的语音数据段的频谱;

梅尔滤波子单元,用于将所述频谱通过由t个三角形带通滤波器组成的梅尔刻度滤波器进行滤波,对滤波后的频谱取对数,求出每一个输出的对数能量;其中,t的取值范围为20至30;

余弦变换子单元,用于对所述对数进行离散余弦变换,得到所述第一梅尔频率倒谱系数。

可选的,所述划分子单元,还用于以第一设定时长将补偿后的所述语音数据划分多个语音数据段,所述多个语音数据段中相邻的第一语音数据段和第二语音数据段中具有第二设定时长的重叠语音段;其中,所述第二设定时长与所述第一设定时长之比的取值范围为1/3至2/3。

可选的,所述匹配单元,还用于:

所述第一梅尔频率倒谱系数形成为序号1至n的第一时间序列;所述第二梅尔频率倒谱系数形成为序号1至m的第二时间序列,以(1,m)或(1,n)为原点,将所述第一时间序列和所述第二时间序列构成二维坐标系;m和n为大于1的自然数;

对于所述二维坐标系中的位置(i,j)的最小累计距离d(i,j),则有d(i,j)=dij+min[d(i-1,j),d(i,j-1),d(i-1,j-1)],其中,d(i-1,j)表示所述二维坐标系中的位置(i-1,j)的最小累计距离,d(i,j-1)表示所述二维坐标系中的位置(i,j-1)的最小累计距离,d(i-1,j-1)表示所述二维坐标系中的位置(i-1,j-1)的最小累计距离;

以d(i,j)的最小累计距离表征方式确定所述二维坐标系中的位置(m,n)的最小累计距离d(m,n),当d(m,n)小于或小于等于第一设定阈值时,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值。

可选的,所述装置还包括:

确定单元,用于在所述接收单元接收到来自所述第二电子设备的消息,在所述消息中携带有唤醒标识时,确定所述消息为唤醒消息;

确定当前状态为唤醒状态时,丢弃或屏蔽所述唤醒消息。

可选的,所述装置还包括:

执行单元,用于确定当前基于所述语音数据的唤醒机制是否已启动,启动时关闭当前基于所述语音数据的唤醒机制,未启动时屏蔽当前基于所述语音数据的唤醒机制。

根据本公开实施例的第四方面,提供一种电子设备的唤醒装置,配置于第二电子设备中,所述装置包括:

采集单元,用于采集语音数据;

识别单元,用于对所述语音数据进行识别,生成识别语音信息;

匹配单元,用于将所述识别语音信息在语音指令数据库中进行匹配,确定所述识别语音信息与唤醒指令匹配时,触发执行单元;

执行单元,用于调用所述唤醒指令,唤醒所述电子设备;

提取单元,用于对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的梅尔频率倒谱系数;

生成单元,用于生成唤醒消息;其中,所述唤醒消息中承载有所述梅尔频率倒谱系数;

广播单元,用于通过通信接口广播所述唤醒消息。

可选的,所述提取单元包括:

补偿子单元,用于对所述语音数据中的高频部分进行补偿,提升所述高频部分的分辨率;

划分子单元,用于以设定时长将补偿后的所述语音数据划分为语音数据段;

加窗子单元,用于将所述语音数据段与设定的hamming窗函数相乘,形成加窗的语音数据段;

傅里叶变换子单元,用于对所述加窗的语音数据段进行傅里叶变换,得到所述加窗的语音数据段的频谱;

梅尔滤波子单元,用于将所述频谱通过由t个三角形带通滤波器组成的梅尔刻度滤波器进行滤波,对滤波后的频谱取对数,求出每一个输出的对数能量;其中,t的取值范围为20至30;

余弦变换子单元,用于对所述对数进行离散余弦变换,得到所述梅尔频率倒谱系数。

可选的,所述划分子单元,还用于以第一设定时长将补偿后的所述语音数据划分多个语音数据段,所述多个语音数据段中相邻的第一语音数据段和第二语音数据段中具有第二设定时长的重叠语音段;其中,所述第二设定时长与所述第一设定时长之比的取值范围为1/3至2/3。

可选的,所述执行单元,还用于在所述匹配单元确定所述识别语音信息与唤醒指令匹配,当前状态为唤醒状态时,丢弃所述识别语音信息,不调用所述唤醒指令。

根据本公开实施例的第五方面,提供一种电子设备,包括:处理器和用于存储处理器可执行指令的存储器,其中,所述处理器被配置为在调用存储器中的可执行指令时,能够执行上述的设备的唤醒方法。

根据本公开实施例的第六方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述的设备的唤醒方法。

本公开的实施例提供的技术方案可以包括以下有益效果:

在本公开的实施例中,当电子设备接收到唤醒语音指令后,计算能力较强的电子设备将率先被唤醒,此时,被唤醒的电子设备将通过广播方式向其他电子设备发送唤醒消息,所广播的唤醒消息中携带有基于语音指令的梅尔频率倒谱系数,而接收到语音指令由于处理能力较慢的电子设备接收到唤醒消息时,直接基于唤醒消息进行唤醒,而不再执行基于语音指令的唤醒机制,而由于基于唤醒消息的处理复杂度较低,接收到唤醒消息后通过基于本地接收的语音数据进行梅尔频率倒谱系数提取,再进行匹配,即可决定是否执行唤醒机制,因此,本公开实施例可以通过语音指令响应速度快的电子设备来唤醒其他电子设备,使处理速度较慢的电子设备不必再响应于语音指令进行唤醒,而直接通过其他电子设备发送的唤醒消息进行唤醒,提升了电子设备整体唤醒的效率,特别对于协同工作的电子设备而言,有助于提升协同工作的电子设备整体的唤醒效率。本公开实施例适用于智能家居等多电子设备组网场景下差异化的多设备预唤醒和预决策,不需要等待设备自身唤醒引擎工作后再做决策,大大的改善了计算能力差、网络延时大设备决策较慢的问题,显著提升用户体验。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1为本公开实施例示出的一种设备的唤醒方法流程示意图。

图2为本公开实施例示出的一种语音数据的梅尔频率倒谱系数提取流程示意图。

图3为本公开实施例示出的一种梅尔刻度滤波器滤波的示意图。

图4为本公开实施例示出的一种两序列相似度的衡量方法的示意图。

图5为本公开实施例示出的序列a的时刻i和序列b的时刻j的距离的示意图。

图6为本公开实施例示出的另一种设备的唤醒方法流程示意图。

图7为本公开实施例示出的一种设备的唤醒装置的组成结构示意图。

图8为本公开实施例示出的另一种设备的唤醒装置的组成结构示意图。

图9为本公开实施例示出的电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1为本公开实施例示出的一种设备的唤醒方法流程示意图,如图1所示,本公开实施例的设备的唤醒方法应用于第一电子设备中,所述方法包括以下步骤:

s11、接收来自第二电子设备的唤醒消息,确定当前状态为未唤醒状态时,获取本地采集的语音数据。

本公开的实施例的设备的唤醒方法,适用于以互联网组网、以局域网组网、以物联网组网或以近场通信组网的电子设备群组如智能家居、车联网终端、智能抄表终端等。通过物联网技术将家中的各种电子设备连接到一起,如音视频设备、照明系统、窗帘控制、空调控制、安防系统、数字影院系统等。用以提供家电控制、照明控制、窗帘控制、电话远程控制、室内外遥控、防盗报警、环境监测、暖通控制、红外转发以及可编程定时控制等多种功能和手段。一些家居设备支持语音唤醒功能,当用户需要开启处于休眠状态的家居设备时,向家居设备喊出唤醒语音,家居设备接收到唤醒语音,对唤醒语音进行识别,并在本地进行语音指令的匹配,匹配成功后开启自身的操作系统,以进行唤醒。然而,对于很多家居设备而言,特别是空调、冰箱等,由于自身的处理能力不足,响应唤醒语音时的处理时长较长,会导致这些家居设备的唤醒启动较慢。而对于家庭影院等家居设备,如智能音箱设备、智能电视机等,由于其处理能力强大,响应速度非常快,能快速识别出唤醒语音并执行唤醒操作。本公开实施例利用响应较快的第二电子设备作为本公开实施例的唤醒传达设备,通过响应较快的第二电子设备去唤醒还处于语音唤醒准备阶段的第一电子设备,使整个电子设备群组整体唤醒效率大大提升。

本公开的实施例中,第一电子设备是指组网电子设备中的唤醒响应机制处理较慢的电子设备,第二电子设备是指组网电子设备中的唤醒响应机制处理较快的电子设备,其中的“第一”、“第二”只是泛指,并非是限定电子设备类型或属性。

本公开实施例不仅适用于智能家居场景,也适用于其他电子设备群组中,如以物联网组网的电子设备群组,如智能停车管理系统中的各种检测传感器、智能摄像电子设备群组等应用场景中。

本公开实施例中,当第一电子设备接收到第二电子设备发送的消息后,首先确定所接收的消息是否为唤醒消息。例如,通过解析消息中的标识位来确定该消息是否为唤醒消息,若设定标识位携带有唤醒标识,确定所述消息为唤醒消息;或者,通过解析消息中是否携带梅尔频率倒谱系数(mfcc,mel-frequencycepstralcoefficients),来判断所接收消息是否为唤醒消息。本公开实施例中,当所接收到的消息中携带有mfcc时,确定所述消息为唤醒消息,否则不是唤醒消息。

当电子设备接收到唤醒消息时,还需要确定自身的当前状态,若处于非唤醒状态,则响应该唤醒消息,执行唤醒操作。若确定当前状态已经处于唤醒状态,则丢弃或屏蔽所述唤醒消息。

s12、对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的第一梅尔频率倒谱系数。

当第一电子设备确定接收到第二电子设备发送的唤醒消息,而第一电子设备尚处于非唤醒状态时,获取本地语音采集单元如麦克等采集到的语音数据。该语音数据可能即是语音唤醒指令,但由于电子设备的处理能力较差,尚未响应于该语音指令进行唤醒。此时,提取该可能的语音指令的梅尔频率倒谱系数,以确定是否启动其他的唤醒触发机制。

图2为本公开实施例示出的对语音数据的梅尔频率倒谱系数提取流程示意图。如图2所示,本公开实施例的语音数据的梅尔频率倒谱系数提取流程包括预加重处理、分帧及加窗处理、傅里叶变换处理、梅尔滤波组滤波处理、对数运算处理及离散余弦变换(dct,discretecosinetransform)处理等。以下详细说明各处理过程中的具体处理方式。

在本公开实施例中,首先对语音数据首先进行预加重处理,其实质是将语音信号通过一个高通滤波器,高通滤波器的数学表达式如下:

h(z)=1-μz-1(1)

式(1)中,z表示语音数据,h(z)表示预加重处理后的语音数据;μ的值介于0.9-1.0之间,本公开实施例中取0.97。当然,也可以取其他值如0.93、0.95、0.94、0.99等。预加重处理的目的是提升语音数据中的高频部分的分辨率,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了补偿语音信号受到发音系统所抑制的高频部分,突出高频的共振峰。

在本公开的实施例中,以设定时长将补偿后的所述语音数据划分为语音数据段。为了方便对语音数据进行分析,将语音分成一个个小语音数据段,也可以称之为帧。先将p个采样点集合成一个观测单位,称为帧。通常情况下p的值为256或512,涵盖的时间约为20至30ms左右。为了避免相邻两帧的变化过大,在对语音数据进行分段时,让两相邻语音数据段(帧)之间有一段重叠区域,此重叠区域包含了m个取样点,通常m的值约为p的1/2或1/3。通常语音识别所采用语音信号的采样频率为8khz或16khz,以8khz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。

在本公开的实施例中,以第一设定时长将补偿后的语音数据划分多个语音数据段,多个语音数据段中相邻的第一语音数据段和第二语音数据段中具有第二设定时长的重叠语音段;其中,第二设定时长与第一设定时长之比的取值范围为1/3至2/3。这里,第一设定时长为20至36ms,第二设定时长可以为10至20ms。

在本公开的实施例中,将所述语音数据段与设定的汉明hamming窗函数相乘,形成加窗的语音数据段。将每一语音数据段(帧)乘以汉明窗函数,以增加每一帧左端和右端的连续性。假设分帧后的信号为s(n),n=0,1…,n-1,n为帧数量,那么乘上汉明窗后s′(n)=s(n)×w(n),w(n)形式如下:

这里,不同的a值会产生不同的汉明窗,在本公开的实施例中,可以将a取为0.46。

在本公开的实施例中,还对所述加窗的语音数据段进行傅里叶变换,得到所述加窗的语音数据段的频谱。由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换(fft,fastfouriertransform)得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

在本公开的实施例中,将经过fft变换后的所述频谱通过由t个三角形带通滤波器组成的梅尔刻度滤波器进行滤波,对滤波后的频谱取对数,求出每一个输出的对数能量,其中,t的取值范围为20至30。图3为本公开实施例示出的一种梅尔刻度滤波器滤波的示意图,如图3所示,将每帧的功率谱通过一组mel尺度的三角形滤波器组,定义一个有t个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(t),t=1,2,...,t。各f(t)之间的间隔随着t值的减小而缩小,随着t值的增大而增宽,如图3所示。

计算每个滤波器组输出的对数能量。对所述对数进行离散余弦变换,得到所述第一梅尔频率倒谱系数。

s13、从所述唤醒消息中解析所述唤醒消息中携带的第二梅尔频率倒谱系数。

当电子设备确定接收到唤醒消息,且当前仍处于未唤醒状态时,从所接收到的唤醒消息中解析出唤醒消息中携带的第二梅尔频率倒谱系数。需要说明的是,步骤s13与s12可以并行执行,二者并无严格的时序要求。只是为了描述需要,对步骤s13和s12进行了相应编号。

s14、将所述第一梅尔频率倒谱系数与所述第二梅尔频率倒谱系数进行匹配,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值时,生成唤醒指令。

在本公开实施例中,所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数均为时间序列,假设其长度分别为n、m,所述第一梅尔频率倒谱系数形成为序号1至n的第一时间序列;所述第二梅尔频率倒谱系数形成为序号1至m的第二时间序列。图4为本公开实施例示出的一种两序列相似度的衡量方法的示意图,如图4所示,以(1,m)或(1,n)为原点,将所述第一时间序列和所述第二时间序列构成二维坐标系;m和n为大于1的自然数。本示例中,采用动态时间规整(dtw,dynamictimewarping)算法来确定两时间序列之间的相似度。dtw主要是应用在时间序列的模板匹配中,比如说用在孤立词语音识别,手势识别,数据挖掘和信息检索等中。

图5为本公开实施例示出的序列a的时刻i和序列b的时刻j的距离的示意图,如图5所示,对于所述二维坐标系中的位置(i,j)的最小累计距离d(i,j),则有d(i,j)=dij+min[d(i-1,j),d(i,j-1),d(i-1,j-1)],其中,d(i-1,j)表示所述二维坐标系中的位置(i-1,j)的最小累计距离,d(i,j-1)表示所述二维坐标系中的位置(i,j-1)的最小累计距离,d(i-1,j-1)表示所述二维坐标系中的位置(i-1,j-1)的最小累计距离。

在本公开实施例中,可以先把上述两个时间序列的每个点相对应的距离计算出来,构成一个m×n的矩阵。然后根据每个元素的代价计算一条最短路径。这里,相邻元素的差值的绝对值称为元素的代价。

以d(i,j)的最小累计距离表征方式确定所述二维坐标系中的位置(m,n)的最小累计距离d(m,n),当d(m,n)小于或小于等于第一设定阈值时,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值。

在本公开实施例中,当确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值时,生成唤醒指令,触发电子设备进行唤醒。若所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异大于设定阈值,则不生成唤醒指令,继续基于之前接收到的语音指令进行唤醒机制的操作。

s15、响应于唤醒指令,唤醒电子设备。

当基于梅尔频率倒谱系数比对的方式生成了唤醒指令后,唤醒电子设备,不必再处理基于语音指令的唤醒机制。

在本公开实施例中,生成唤醒指令后,确定当前基于所述语音数据的唤醒机制是否已启动,启动时关闭当前基于所述语音数据的唤醒机制,未启动时屏蔽当前基于所述语音数据的唤醒机制。

当电子设备接收到唤醒语音指令后,计算能力较强的电子设备将率先被唤醒,此时,被唤醒的电子设备将通过广播方式向其他电子设备发送唤醒消息,所广播的唤醒消息中携带有基于语音指令的梅尔频率倒谱系数。而接收到语音指令由于处理能力较慢的电子设备接收到唤醒消息时,直接基于唤醒消息进行唤醒,而不再执行基于语音指令的唤醒机制。而由于基于唤醒消息的处理复杂度较低,接收到唤醒消息后通过基于本地接收的语音数据进行梅尔频率倒谱系数提取,再进行匹配,即可决定是否执行唤醒机制。因此,本公开实施例可以通过语音指令响应速度快的电子设备来唤醒其他电子设备,使处理速度较慢的电子设备不必再响应于语音指令进行唤醒,而直接通过其他电子设备发送的唤醒消息进行唤醒,提升了电子设备整体唤醒的效率,特别对于协同工作的电子设备而言,有助于提升协同工作的电子设备整体的唤醒效率。本公开实施例适用于智能家居等多电子设备组网场景下差异化的多设备预唤醒和预决策,不需要等待设备自身唤醒引擎工作后再做决策,大大的改善了计算能力差、网络延时大设备决策较慢的问题,显著提升用户体验。

图6为本公开实施例示出的另一种设备的唤醒方法流程示意图,如图6所示,本公开实施例的电子设备的唤醒方法应用于第二电子设备中,所述方法包括以下处理步骤:

步骤s61,采集语音数据,对所述语音数据进行识别,生成识别语音信息。

本示例的设备的唤醒方法,适用于组网的电子设备群组如智能家居。家居设备支持语音唤醒功能,当用户需要开启处于休眠状态的家居设备时,向家居设备喊出唤醒语音,家居设备接收到唤醒语音,对唤醒语音进行识别,并在本地进行语音指令的匹配,匹配成功后开启自身的操作系统,以进行唤醒。本示例适用于处理速度较快,接收到语音指令后,对语音指令进行识别,确定语音指令为唤醒指令时,响应于语音唤醒指令,唤醒电子设备的操作系统。

电子设备处于未唤醒状态,当接收到语音信号后,对语音信号进行识别,如将语音信号识别为词汇文字内容,生成识别语音信息。

步骤s62,将识别语音信息在语音指令数据库中进行匹配。

电子设备本地一般都存储有语音指令库,将语音识别后的信息在语音指令库中进行匹配,确定电子设备接收到的语音数据是何种语音指令,以便执行该语音数据对应的语音指令。

步骤s63,确定识别语音信息与唤醒指令匹配时,调用所述唤醒指令,唤醒所述电子设备,对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的梅尔频率倒谱系数。

当确定当前所接收到的语音数据对应的识别语音信息与唤醒指令匹配时,直接调用该唤醒指令,唤醒电子设备。当然,如果确定所述识别语音信息与其他语音指令匹配,则执行其他语音指令,或者在未唤醒状态下丢弃其他的语音指令。

当电子设备调用唤醒指令并被唤醒后,电子设备需要基于所采集的语音数据进行梅尔频率倒谱系数提取,并生成唤醒消息,以通过通信接口向其他电子设备进行广播,以使对语音识别机制处理较差的电子设备在接收到唤醒消息后,直接基于唤醒消息进行唤醒。而本身处于唤醒状态的电子设备接收到唤醒消息后,直接丢弃或不作响应。本公开实施例即为电子设备的唤醒提供另一种唤醒机制,以协助语音识别能力较差或自身处理能力较差的电子设备不必执行语音指令的唤醒机制。直接通过唤醒消息进行唤醒,从而提升电子设备的唤醒效率。

在本公开实施例中,对所述语音数据进行梅尔频率倒谱系数提取,包括:对所述语音数据中的高频部分进行补偿,提升所述高频部分的分辨率;以设定时长将补偿后的所述语音数据划分为语音数据段;将所述语音数据段与设定的汉明hamming窗函数相乘,形成加窗的语音数据段;对所述加窗的语音数据段进行傅里叶变换,得到所述加窗的语音数据段的频谱;将所述频谱通过由t个三角形带通滤波器组成的梅尔刻度滤波器进行滤波,对滤波后的频谱取对数,求出每一个输出的对数能量;其中,t的取值范围为20至30;对所述对数进行离散余弦变换,得到所述梅尔频率倒谱系数。

所述对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的梅尔频率倒谱系数,包括:以第一设定时长将补偿后的所述语音数据划分多个语音数据段,所述多个语音数据段中相邻的第一语音数据段和第二语音数据段中具有第二设定时长的重叠语音段;其中,所述第二设定时长与所述第一设定时长之比的取值范围为1/3至2/3。

这里,对语音数据进行梅尔频率倒谱系数的提取方式可参见前述实施例的梅尔频率倒谱系数提取过程,本公开实施例的语音数据的梅尔频率倒谱系数提取流程包括预加重处理、分帧及加窗处理、傅里叶变换处理、梅尔滤波组滤波处理、对数运算处理及dct处理等,可参见前述实施例的相关描述而理解,如参见图2所示的梅尔频率倒谱系数提取方式而理解。

步骤s64,生成唤醒消息,并通过通信接口广播所述唤醒消息,其中,所述唤醒消息中承载有所述梅尔频率倒谱系数。

在本公开实施例中,当提取语音数据的梅尔频率倒谱系数,生成唤醒消息,唤醒消息中承载有语音数据的梅尔频率倒谱系数,还可以在唤醒消息中设置唤醒标识位,以在其他电子设备接收到该唤醒消息后,基于唤醒消息中的标识位确定该消息的类型。生成唤醒消息后,电子设备通过有线网络或无线网络如wifi网络、蓝牙网络等,将唤醒消息向其他电子设备广播。处于连接网络中的其他电子设备通过有线网络或无线网络能够接收电子设备广播的唤醒消息。

在本公开实施例中,所述确定所述识别语音信息与唤醒指令匹配之后,所述方法还包括:确定当前状态为唤醒状态时,丢弃所述识别语音信息,不调用唤醒指令。

当电子设备接收到唤醒语音指令后,计算能力较强的电子设备将率先被唤醒,此时,被唤醒的电子设备将通过广播方式向其他电子设备发送唤醒消息,所广播的唤醒消息中携带有基于语音指令的梅尔频率倒谱系数,而接收到语音指令由于处理能力较慢的电子设备接收到唤醒消息时,直接基于唤醒消息进行唤醒,而不再执行基于语音指令的唤醒机制。而由于基于唤醒消息的处理复杂度较低,接收到唤醒消息后通过基于本地接收的语音数据进行梅尔频率倒谱系数提取,再进行匹配,即可决定是否执行唤醒机制。因此,本公开实施例可以通过语音指令响应速度快的电子设备来唤醒其他电子设备,使处理速度较慢的电子设备不必再响应于语音指令进行唤醒,而直接通过其他电子设备发送的唤醒消息进行唤醒,提升了电子设备整体唤醒的效率,特别对于协同工作的电子设备而言,有助于提升协同工作的电子设备整体的唤醒效率。本公开实施例适用于智能家居等多电子设备组网场景下差异化的多设备预唤醒和预决策,不需要等待设备自身唤醒引擎工作后再做决策,大大的改善了计算能力差、网络延时大设备决策较慢的问题,显著提升用户体验。

图7为本公开实施例示出的一种设备的唤醒装置的组成结构示意图,如图7所示,本公开实施例的电子设备的唤醒装置配置于第一电子设备中,所述装置包括:

接收单元71,用于接收来自第二电子设备的唤醒消息;

获取单元72,用于在当前状态为未唤醒状态时,获取本地采集的语音数据;

提取单元73,用于对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的第一梅尔频率倒谱系数;

解析单元74,用于从所述唤醒消息中解析所述唤醒消息中携带的第二梅尔频率倒谱系数;

匹配单元75,用于将所述第一梅尔频率倒谱系数与所述第二梅尔频率倒谱系数进行匹配,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值时,触发生成单元76;

生成单元76,用于生成唤醒指令;

唤醒单元77,用于响应于所述唤醒指令,唤醒所述第一电子设备。

可选的,所述提取单元72包括:

补偿子单元(图中未示出),用于对所述语音数据中的高频部分进行补偿,提升所述高频部分的分辨率;

划分子单元(图中未示出),用于以设定时长将补偿后的所述语音数据划分为语音数据段;

加窗子单元(图中未示出),用于将所述语音数据段与设定的hamming窗函数相乘,形成加窗的语音数据段;

傅里叶变换子单元(图中未示出),用于对所述加窗的语音数据段进行傅里叶变换,得到所述加窗的语音数据段的频谱;

梅尔滤波子单元(图中未示出),用于将所述频谱通过由t个三角形带通滤波器组成的梅尔刻度滤波器进行滤波,对滤波后的频谱取对数,求出每一个输出的对数能量;其中,t的取值范围为20至30;

余弦变换子单元(图中未示出),用于对所述对数进行离散余弦变换,得到所述第一梅尔频率倒谱系数。

本公开实施例中,提取单元72的具体结构及实现方式可参见前述图2的相关描述。

可选的,所述划分子单元,还用于以第一设定时长将补偿后的所述语音数据划分多个语音数据段,所述多个语音数据段中相邻的第一语音数据段和第二语音数据段中具有第二设定时长的重叠语音段;其中,所述第二设定时长与所述第一设定时长之比的取值范围为1/3至2/3。

可选的,所述匹配单元75,还用于:

所述第一梅尔频率倒谱系数形成为序号1至n的第一时间序列;所述第二梅尔频率倒谱系数形成为序号1至m的第二时间序列,以(1,m)或(1,n)为原点,将所述第一时间序列和所述第二时间序列构成二维坐标系;m和n为大于1的自然数;

对于所述二维坐标系中的位置(i,j)的最小累计距离d(i,j),则有d(i,j)=dij+min[d(i-1,j),d(i,j-1),d(i-1,j-1)],其中,d(i-1,j)表示所述二维坐标系中的位置(i-1,j)的最小累计距离,d(i,j-1)表示所述二维坐标系中的位置(i,j-1)的最小累计距离,d(i-1,j-1)表示所述二维坐标系中的位置(i-1,j-1)的最小累计距离;

以d(i,j)的最小累计距离表征方式确定所述二维坐标系中的位置(m,n)的最小累计距离d(m,n),当d(m,n)小于或小于等于第一设定阈值时,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值。

可选的,在图7示出的设备的唤醒装置的基础上,本公开实施例的设备的唤醒装置还包括:

确定单元(图中未示出),用于在所述接收单元71接收到来自第二电子设备的消息,在所述消息中携带有唤醒标识时,确定所述消息为唤醒消息;

确定当前状态为唤醒状态时,丢弃或屏蔽所述唤醒消息。

可选的,在图7示出的设备的唤醒装置的基础上,本公开实施例的设备的唤醒装置还包括:

执行单元(图中未示出),用于确定当前基于所述语音数据的唤醒机制是否已启动,启动时关闭当前基于所述语音数据的唤醒机制,未启动时屏蔽当前基于所述语音数据的唤醒机制。

在本公开实施例中,图7示出的设备的唤醒装置中各个模块及单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图8为本公开实施例示出的另一种设备的唤醒装置的组成结构示意图,如图8所示,本公开实施例的设备的唤醒装置配置于第二电子设备中,所述装置包括:

采集单元81,用于采集语音数据;

识别单元82,用于对所述语音数据进行识别,生成识别语音信息;

匹配单元83,用于将所述识别语音信息在语音指令数据库中进行匹配,确定所述识别语音信息与唤醒指令匹配时,触发执行单元84;

执行单元84,用于调用所述唤醒指令,唤醒所述电子设备;

提取单元85,用于对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的梅尔频率倒谱系数;

生成单元86,用于生成唤醒消息;其中,所述唤醒消息中承载有所述梅尔频率倒谱系数;

广播单元87,用于通过通信接口广播所述唤醒消息。

可选的,所述提取单元85包括:

补偿子单元(图中未示出),用于对所述语音数据中的高频部分进行补偿,提升所述高频部分的分辨率;

划分子单元(图中未示出),用于以设定时长将补偿后的所述语音数据划分为语音数据段;

加窗子单元(图中未示出),用于将所述语音数据段与设定的hamming窗函数相乘,形成加窗的语音数据段;

傅里叶变换子单元(图中未示出),用于对所述加窗的语音数据段进行傅里叶变换,得到所述加窗的语音数据段的频谱;

梅尔滤波子单元(图中未示出),用于将所述频谱通过由t个三角形带通滤波器组成的梅尔刻度滤波器进行滤波,对滤波后的频谱取对数,求出每一个输出的对数能量;其中,t的取值范围为20至30;

余弦变换子单元(图中未示出),用于对所述对数进行离散余弦变换,得到所述梅尔频率倒谱系数。

本公开实施例中,提取单元85的具体结构及实现方式可参见前述图2的相关描述。

可选的,所述划分子单元,还用于以第一设定时长将补偿后的所述语音数据划分多个语音数据段,所述多个语音数据段中相邻的第一语音数据段和第二语音数据段中具有第二设定时长的重叠语音段;其中,所述第二设定时长与所述第一设定时长之比的取值范围为1/3至2/3。

可选的,所述执行单元84,还用于在所述匹配单元83确定所述识别语音信息与唤醒指令匹配,当前状态为唤醒状态时,丢弃所述识别语音信息,不调用所述唤醒指令。

在本公开实施例中,图8示出的设备的唤醒装置中各个模块及单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图9为根据一示例性实施例示出的一种电子设备800的框图,如图9所示,电子设备800支持多屏输出,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如wi-fi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例的设备的唤醒方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述实施例的电子设备的屏幕录制方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本公开实施例还记载了一种非临时性计算机可读存储介质,当所述存储介质中的指令由第一电子设备的处理器执行时,使得第一电子设备能够执行控制方法,所述方法包括:

接收来自第二电子设备的唤醒消息,确定当前状态为未唤醒状态时,获取本地采集的语音数据;

对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的第一梅尔频率倒谱系数;

从所述唤醒消息中解析所述唤醒消息中携带的第二梅尔频率倒谱系数;

将所述第一梅尔频率倒谱系数与所述第二梅尔频率倒谱系数进行匹配,确定所述第一梅尔频率倒谱系数和所述第二梅尔频率倒谱系数之间的差异小于或小于等于设定阈值时,生成唤醒指令;

响应于所述唤醒指令,唤醒所述第一电子设备。

本公开实施例还记载了一种非临时性计算机可读存储介质,当所述存储介质中的指令由第二电子设备的处理器执行时,使得第二电子设备能够执行控制方法,所述方法包括:

采集语音数据,对所述语音数据进行识别,生成识别语音信息;

将所述识别语音信息在语音指令数据库中进行匹配;

确定所述识别语音信息与唤醒指令匹配时,调用所述唤醒指令,唤醒所述电子设备,对所述语音数据进行梅尔频率倒谱系数提取,获取所述语音数据的梅尔频率倒谱系数;

生成唤醒消息,并通过通信接口广播所述唤醒消息,其中,所述唤醒消息中承载有所述梅尔频率倒谱系数。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 频谱分析
tips