HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种单声道语音关键词低功耗实时检测方法与流程

2021-01-28 15:01:33|249|起点商标网
一种单声道语音关键词低功耗实时检测方法与流程

本发明涉及关键词检测领域,特别是涉及一种单声道语音关键词低功耗实时检测方法。



背景技术:

目前在语音关键词检测中采用的门控循环单元(gru)+注意力机制(attention)方案存在计算量太大及检测效率和精度不足的问题。



技术实现要素:

针对上述问题,本发明提供了一种单声道语音关键词低功耗实时检测方法,具有计算量大大降低、检测效率和精度更高的优点。

本发明的技术方案是:

一种单声道语音关键词低功耗实时检测方法,包括以下步骤:

对语音数据进行预处理;

提取预处理后的数据的归一化通道能量特征,得到可以进行检测的数据;

卷积神经网络使用卷积核若干,卷积核大小固定,每一个卷积核在归一化通道能量特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到卷积神经网络层的输出;

使用一层门控循环单元神经元,对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;

门控循环单元的状态经过注意力机制层的变换得出一个重要性权重,与门控循环单元当前帧的状态做内积后,得到最终的预测概率值;

判断是否连续m帧预测概率值大于n,如是,则判定检测到关键词,反之则判定没有检测到关键词。

本发明将预处理后的数据进行归一化通道能量特征的提取,采用归一化通道能量特征检测,归一化通道能量特征比现有技术中的梅尔特征更加适合神经网络的检测;在检测模型中,在模型的选择上增加了一层卷积神经网络,检测效率和精度更高,整体的计算量更少。

在进一步的技术方案中,还包括模型训练方法:

对语音数据进行预处理;

提取预处理后的数据的归一化通道能量特征,得到可以进行训练的数据;

卷积神经网络使用卷积核若干,卷积核大小固定,每一个卷积核在归一化通道能量特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到卷积神经网络层的输出;

使用一层门控循环单元神经元,对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;

门控循环单元的状态经过注意力机制层的变换得出一个重要性权重,与门控循环单元当前帧的状态做内积后,得到最终的预测概率值;

将预测概率值与期望值作比较,使用交叉熵作为损失函数计算最终损失值,并进行反向传播。

在进一步的技术方案中,对语音数据进行预处理包括以下步骤:

预加重;

加窗。

在进一步的技术方案中,提取预处理后的数据的归一化通道能量特征包括以下步骤:

进行短时快速傅里叶变换,将信号分离到不同的子带;

计算不同子带的能量;

生成相应的梅尔滤波器对子带进行滤波;

提取归一化通道能量特征。

在进一步的技术方案中,提取归一化通道能量特征的函数如下:

在进一步的技术方案中,预加重因子为0.97。

在进一步的技术方案中,使用汉明窗进行加窗,汉明窗函数如下:

本发明的有益效果是:

本发明将预处理后的数据进行归一化通道能量特征的提取,采用归一化通道能量特征检测,归一化通道能量特征比现有技术中的梅尔特征更加适合神经网络的检测;在检测模型中,在模型的选择上增加了一层卷积神经网络,检测效率和精度更高,整体的计算量更少。

附图说明

图1是本发明实施例的检测流程图;

图2是本发明实施例的训练学习流程图;

图3是本发明采用卷积神经网络进行卷积拼接的示意图;

图4是本发明的门控循环单元的流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步说明。

实施例:

如图1所示,一种单声道语音关键词低功耗实时检测方法,包括以下步骤:

信息提取:

s1.1、对语音数据进行预处理;

s1.2、提取预处理后的数据的归一化通道能量(pcen)特征,得到可以进行检测的数据,每一帧的数据提取40个特征;

神经网络(cga):

s2.1、如图3所示,卷积神经网络(cnn)使用卷积核若干,卷积核大小固定,每一个卷积核在pcen特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到cnn的输出;

s2.2、如图4所示,使用一层门控循环单元(gru)神经元,对cnn层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;

s2.3、gru的状态经过注意力机制(attention)层的变换得出一个重要性权重,与gru当前帧的状态做内积后,得到最终的预测概率值;

判断是否连续m帧预测概率值大于n,如是,则判定检测到关键词,反之则判定没有检测到关键词。

在本实施例中,m=20,n=0.9,即判断是否连续20帧预测概率值大于0.9,如是,则判定检测到关键词,反之则判定没有检测到关键词。

本发明将预处理后的数据进行归一化通道能量特征的提取,采用归一化通道能量特征检测,归一化通道能量特征比现有技术中的梅尔特征更加适合神经网络的检测;在检测模型中,在模型的选择上增加了一层卷积神经网络,检测效率和精度更高,整体的计算量更少。

在另外一个实施例中,还包括模型训练方法:

信息提取:

s3.1、对语音数据进行预处理;

s3.2、提取预处理后的数据的归一化通道能量(pcen)特征,得到可以进行训练的数据,此时输入为40个,进入cga神经网络训练;

神经网络(cga):

s2.1、如图3所示,卷积神经网络(cnn)使用卷积核若干,卷积核大小固定,每一个卷积核在pcen特征上做内积,根据指定的步进进行卷积,最后把所有的卷积核内积的结果拼接起来得到cnn层的输出;

s2.2、如图4所示,使用一层门控循环单元(gru)神经元,对cnn层的输出特征结合历史状态进行记忆、更新和重置,最终得到当前帧的新状态;

s2.3、gru的状态经过注意力机制(attention)层的变换得出一个重要性权重,与gru当前帧的状态做内积后,得到最终的预测概率值;

将预测概率值与期望值作比较,使用交叉熵作为损失函数计算最终损失值loss,并进行反向传播。

在另外一个实施例中,对语音数据进行预处理包括以下步骤:

预加重;

加窗。

在另外一个实施例中,提取预处理后的数据的pcen特征包括以下步骤:

进行短时快速傅里叶变换(fft),将信号分离到不同的子带;

计算不同子带的能量;

生成相应的梅尔滤波器对子带进行滤波;梅尔滤波函数如下:

提取pcen特征。

在另外一个实施例中,提取pcen特征的函数如下:

在另外一个实施例中,预加重因子为0.97,即每个采样点减去上一个采样点的97%。

在另外一个实施例中,使用汉明窗进行加窗,汉明窗函数如下:

可防止频率泄露。

以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips