一种人工智能语音唤醒方法与流程

2021-01-28 12:01:17|

258|

起点商标网

本发明涉及语音唤醒，具体涉及一种人工智能语音唤醒方法。

背景技术：

在智能家居或者语音交互系统中，语音唤醒(wakeword)技术应用非常广泛。但是，语音唤醒识别的准确率和运算量大大降低其实际应用体验，提高了对设备硬件的要求，例如：如果语音唤醒的误唤醒率在应用中大于一个阈值，这样的唤醒误触发频率就有可能引起用户的反感；另一方面，如果语音唤醒的运算量超出一些低端芯片的运算能力，就会制约很多产品使用语音唤醒技术。

现有的相关技术中，语音唤醒使用的技术是关键词识别(keyword-spotting)，通过设计一个深度神经网络的模型，搭建一个巧妙的小解码网络，配合一些关键词检出的技术，实现语音唤醒功能。

但是，上述基于关键词识别方法的语音唤醒技术，模型参数量较大，而且针对不同的唤醒词，填充词的设计需要随之改变，相应的解码参数和关键词检出技术都要进行调整，很难有统一的算法来确保每个唤醒词的唤醒效果处于稳定水平，而且这种设定好填充词后，唤醒词的误识率就固定了，并不能灵活地对唤醒词进行调整，也无法进行自主学习。

技术实现要素：

(一)解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了一种人工智能语音唤醒方法，能够有效克服现有技术所存在的语音唤醒识别的准确率较低、不能对唤醒词进行灵活调整的缺陷。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种人工智能语音唤醒方法，包括以下步骤：

s1、获取语音数据；

s2、利用语音检测模型确定语音数据对应的能量特征，根据能量特征确定语音数据对应的文本数据；

s3、判断语音数据中是否包含唤醒关键词；

s4、若语音数据中包含唤醒关键词，利用唤醒判决模型进行唤醒判定，否则唤醒判决模型输出维持现状指令。

优选地，所述利用语音检测模型确定语音数据对应的能量特征，包括：

对语音数据进行预处理，确定语音数据中各滤波器组能量值；

利用训练后的语音检测模型，对语音数据中各滤波器组能量值进行处理。

优选地，所述利用训练后的语音检测模型，对语音数据中各滤波器组能量值进行处理，包括：

确定某一帧语音数据中各滤波器组能量值，以及对应平滑参数；

获取前一帧语音数据中各平滑后的滤波器组能量值；

根据滤波器组能量值、平滑后的滤波器组能量值和平滑参数，确定某一帧语音数据中对应的平滑后的滤波器组能量值。

优选地，所述语音检测模型的训练步骤包括：

获取训练语音数据，并对语音检测模型进行初始化；

利用训练语音数据对语音检测模型进行训练，确定训练后的语音检测模型以及对应平滑参数。

优选地，所述判断语音数据中是否包含唤醒关键词，包括：

对连续多帧的语音数据进行特征分析，并对音频特征进行缓存；

利用关键词对比模型将每一帧缓存音频特征与唤醒关键词进行对比，确定该帧音频特征与唤醒关键词之间的关联度；

根据各音频特征与唤醒关键词之间的关联度，确定语音数据包含唤醒关键词的置信度。

优选地，先对所述关键词对比模型进行训练，再训练所述唤醒判决模型。

优选地，所述关键词对比模型利用第一语音数据训练样本集进行训练，所述第一语音数据训练样本集包含唤醒关键词。

优选地，所述唤醒判决模型利用第二语音数据训练样本集、唤醒关键词文本数据进行训练，所述第二语音数据训练样本集中的背景噪音大于第一语音数据训练样本集中的背景噪音。

优选地，所述利用唤醒判决模型进行唤醒判定，包括：

将关键词对比模型检测出的唤醒关键词与s2中的文本数据一同输入训练好的唤醒判决模型，唤醒判决模型根据关键词对比模型的检测结果与文本数据综合进行唤醒判定。

优选地，若所述唤醒判决模型判定关键词对比模型的检测结果、文本数据中均包含唤醒关键词，则所述唤醒判决模型输出唤醒指令；否则，所述唤醒判决模型输出维持现状指令。

(三)有益效果

与现有技术相比，本发明所提供的一种人工智能语音唤醒方法，通过对语音数据、语音数据转换的文本数据与唤醒关键词之间的对比检测，能够有效提高语音唤醒识别的准确率，并且构建语音检测模型将语音数据转换成文本数据，构建关键词对比模型判断语音数据中是否包含唤醒关键词，构建唤醒判决模型进行唤醒判定，通过设置人工智能模型便于对唤醒关键词进行灵活调整。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语音唤醒的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种人工智能语音唤醒方法，如图1所示，获取语音数据；利用语音检测模型确定语音数据对应的能量特征，根据能量特征确定语音数据对应的文本数据。

本申请技术方案中，语音检测模型的训练步骤包括：