一种唤醒词的确认方法及系统与流程

2021-01-28 17:01:53|

316|

起点商标网

本发明涉及语音识别技术领域，具体涉及一种唤醒词的确认方法及系统。

背景技术：

随着人工智能的发展，智能设备逐渐被广泛应用。在智能设备中，唤醒在智能应用中具有重要的作用，为了人与智能设备之间进行交互，目前，一般都需要一个唤醒词将智能设备唤醒，然后再进行交互。

在唤醒智能设备时，唤醒智能设备的难易度与用户的使用体验息息相关。因此如何在保证唤醒率的同时减少误唤醒，是现如今亟需解决的问题。

技术实现要素：

有鉴于此，本发明实施例提供一种唤醒词的确认方法及系统，以在保证唤醒率的同时减少误唤醒。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种唤醒词的确认方法，所述方法包括：

获取待分析唤醒词的音素特征并判断是否唤醒智能设备；

当判断结果为唤醒智能设备时，对所述音素特征进行计算得到中间结果；

将所述中间结果输入预设的确认模型进行处理，得到唤醒确认结果。

优选的，判断是否唤醒智能设备的过程，包括：

利用所述音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值；

计算所述第一分值和第二分值之间的分值差；

若所述分值差小于分值阈值，确定唤醒智能设备；

若所述分值差大于等于分值阈值，确定未唤醒所述智能设备。

优选的，所述对所述音素特征进行计算得到中间结果，包括：

利用所述音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值；

计算所述第一分值和第二分值之间的分值差；

计算每个声韵母的时间长度和平均后验概率。

优选的，获取所述确认模型的过程包括：

将唤醒词样本数据和非唤醒词样本数据输入预设的神经网络模型，训练所述神经网络模型直至所述神经网络模型收敛，得到所述确认模型。

优选的，计算每个声韵母的平均后验概率的过程，包括：

确定每个所述声韵母的帧数；

针对每个所述声韵母，计算每帧所述声韵母的后验概率；

针对每个所述声韵母，计算每帧所述声韵母的后验概率的平均值，得到所述声韵母的平均后验概率。

优选的，所述将所述中间结果输入预设的确认模型进行处理，得到唤醒确认结果，包括：

将所述中间结果输入预设的确认模型进行唤醒词确认，判断所述待分析唤醒词是否为唤醒所述智能设备的唤醒词；

若是，确定所述待分析唤醒词为唤醒所述智能设备的唤醒词；

若否，确定所述待分析唤醒词不是唤醒所述智能设备的唤醒词。

优选的，所述将所述中间结果输入预设的确认模型进行处理，得到唤醒确认结果，包括：将所述分值差以及所述每个声韵母的时间长度和平均后验概率输入预设的确认模型进行处理，得到唤醒确认结果。

本发明实施例第二方面公开一种唤醒词的确认系统，所述系统包括：

处理单元，用于获取待分析唤醒词的音素特征并判断是否唤醒智能设备；

计算单元，用于当判断结果为唤醒智能设备时，对所述音素特征进行计算得到中间结果；

唤醒确认单元，用于将所述中间结果输入预设的确认模型进行处理，得到唤醒确认结果。

优选的，所述处理单元包括：

第一计算模块，用于利用所述音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值；

第二计算模块，用于计算所述第一分值和第二分值之间的分值差；

确定模块，用于若所述分值差小于分值阈值，确定唤醒智能设备，若所述分值差大于等于分值阈值，确定未唤醒所述智能设备。

优选的，所述计算单元包括：

第一计算模块，用于利用所述音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值；

第二计算模块，用于计算所述第一分值和第二分值之间的分值差；

第三计算模块，用于计算每个声韵母的时间长度和平均后验概率。

基于上述本发明实施例提供的一种唤醒词的确认方法及系统，该方法包括：获取待分析唤醒词的音素特征并判断是否唤醒智能设备；当判断结果为唤醒智能设备时，对音素特征进行计算得到中间结果；将中间结果输入预设的确认模型进行处理，得到唤醒确认结果。本方案中，利用待分析唤醒词的音素特征确定是否能唤醒智能设备。若能，对音素特征进行计算得到中间结果，将中间结果输入预设的确认模型得到唤醒确认结果，在保证智能设备唤醒率的同时减少误唤醒。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种唤醒词的确认方法的流程图；

图2为本发明实施例提供的判断是否唤醒智能设备的流程图；

图3为本发明实施例提供的待分析唤醒词的音素特征的示意图；

图4为本发明实施例提供的计算中间结果的流程图；

图5为本发明实施例提供的一种唤醒词的确认系统的结构框图；

图6为本发明实施例提供的一种唤醒词的确认系统的另一结构框图；

图7为本发明实施例提供的一种唤醒词的确认系统的又一结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前在唤醒智能设备时需要相应的唤醒词，唤醒智能设备的难易度与用户的使用体验息息相关。如何在保证唤醒率的同时减少误唤醒，是现如今亟需解决的问题。

因此，本发明实施例提供一种唤醒词的确认方法及系统，若唤醒智能设备，对待唤醒词的音素特征进行计算得到中间结果。将中间结果输入确认模型进行处理得到唤醒确认结果，以在保证唤醒率的同时减少误唤醒。

参见图1，示出了本发明实施例提供的一种唤醒词的确认方法的流程图，该确认方法包括以下步骤：

步骤s101：获取待分析唤醒词的音素特征。

需要说明的是，音素特征至少包括待分析唤醒词的声韵母，待分析唤醒词为当前用户用于唤醒智能设备所使用的词语。

可以理解的是，待分析唤醒词的声韵母指示构成待分析唤醒词的声母和韵母，也就是说，获取待分析唤醒词的声韵母即为获取待分析唤醒词对应的声母和韵母。

进一步需要说明的是，预先为智能设备设置相应的唤醒词，即当智能设备获取该唤醒词时执行唤醒操作。

例如：设置“开启音箱”为智能音箱的唤醒词。当用户对着智能音箱说：“开启音箱”时，智能音箱就会被唤醒，然后可以进行人机交互，其中，“开启音箱”就是预先设置的智能音箱的唤醒词。

在具体实现步骤s101的过程中，获取待分析唤醒词后，对该待分析唤醒词进行特征提取，获取待分析唤醒词的音素特征。

例如：“开启音箱”为待分析唤醒词。接收到“开启音箱”，然后提取“开启音箱”中每个字的声韵母(声母和韵母)。“开”字获得声母为“k”，“启”字获得声母“q”，“音”字获得的声母为“y”，“箱”字获得声母为“x”。“开”字获得韵母为“ai”，“启”字获得的韵母为“i”，“音”字获得的韵母为“in”，“箱”字获得韵母为“iang”。以上总共获取“开启音箱”对应的8个音素，再加上静音音素“sil”，即总共获取9类音素特征。

步骤s102：判断是否唤醒智能设备。若判断结果为唤醒智能设备，执行步骤s103。

在具体实现步骤s102的过程中，利用待分析唤醒词的音素特征，计算该待分析唤醒词的分值，若计算得到的分值满足预设的唤醒条件，确定待分析唤醒词唤醒智能设备，即若计算得到的分值满足预设的唤醒条件，则判断结果为唤醒智能设备。

步骤s103：对音素特征进行计算得到中间结果。

需要说明的是，在唤醒智能设备后，会产生相应的中间结果，中间结果至少包括：唤醒分值、每个声韵母的后验概率和每个声韵母的持续时间长度等。在具体实现步骤s103的过程中，对待分析唤醒词的音素特征进行计算，得到对应的中间结果。

需要说明的是，对于同一个唤醒词，由于用户发音的习惯不同，该唤醒词的每个声韵母的时间长度(持续时间长度)有所不同，并且每个声韵母之间的时间长度也会互相影响，例如：用户说话语速快，则每个声韵母的时间长度也会短。

步骤s104：将中间结果输入预设的确认模型进行处理，得到唤醒确认结果。

需要说明的是，确认模型预先基于样本数据训练神经网络模型得到，具体过程为：预先收集唤醒词样本数据和非唤醒词样本数据等样本数据，按照上述方式计算每个样本唤醒词和每个样本非唤醒词的中间结果，将每个样本唤醒词和每个样本非唤醒词的中间结果输入预设的神经网络模型，训练神经网络模型直至神经网络模型收敛，得到确认模型。

例如：利用唤醒词样本数据和非唤醒词样本数据，训练深度神经网络模型(deepneuralnetworks，dnn)直至收敛，得到确认模型。

在具体实现步骤s104的过程中，将待分析唤醒词对应的中间结果输入确认模型中进行处理，得到唤醒词确认结果，即判断待分析唤醒词是否为唤醒智能设备的唤醒词，若是，确定待分析唤醒词为唤醒智能设备的唤醒词，若否，确定待分析唤醒词不是唤醒智能设备的唤醒词。也就是说，该确认模型的输出结果即可确认待分析唤醒词是否为唤醒智能设备的唤醒词。

需要说明的是，将待分析唤醒词输入确认模型后，确认模型输出的结果是0至1之间的数。也就是说，若确认模型输出的结果大于等于唤醒词分数阈值，则确定待分析唤醒词为唤醒智能设备的唤醒词。若确认模型输出的结果小于唤醒词分数阈值，则确定待分析唤醒词不是唤醒智能设备的唤醒词。

在本发明实施例中，利用待分析唤醒词的音素特征确定是否能唤醒智能设备，若能，对音素特征进行计算得到中间结果，将中间结果输入预设的确认模型，确定待分析唤醒词是否为唤醒智能设备的唤醒词，在保证智能设备唤醒率的同时减少误唤醒。

上述本发明实施例图1步骤s102中涉及的判断是否唤醒智能设备的过程，参见图2，示出了本发明实施例提供的判断是否唤醒智能设备的流程图，包括以下步骤：

步骤s201：利用音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值。

在具体实现步骤s201的过程中，利用维特比算法和音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值。

为更好解释说明步骤s201中的内容，通过图3示出的待分析唤醒词的音素特征的示意图进行举例说明，需要说明的是，图3仅用于举例说明。

如图3所示，以“开启音箱”为待分析唤醒词，其中，该待分析唤醒词的音素特征为8类，再加上静音音素“sil”，总共9类音素特征。利用维特比算法，计算第一唤醒路径的第一分值，以及计算第二唤醒路径的第二分值。

步骤s202：计算第一分值和第二分值之间的分值差。

在具体实现步骤s202的过程中，计算第一分值和第二分值的差值，得到第一分值和第二分值之间的分值差。

预先设置相应的分值阈值，若分值差小于分值阈值，确定唤醒智能设备，即确定待分析唤醒词唤醒智能设备，若分值差大于等于分值阈值，确定未唤醒智能设备，即确定待分析唤醒词未唤醒智能设备。

步骤s203：若分值差小于分值阈值，确定唤醒智能设备。

步骤s204：若分值差大于等于分值阈值，确定未唤醒智能设备。

在本发明实施例中，利用维特比算法和音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值。利用第一分值和第二分值的分值差确定待分析唤醒词是否能唤醒智能设备，以保证唤醒率。

上述本发明实施例图1步骤s103中涉及的计算中间结果的过程，参见图4，示出了本发明实施例提供的计算中间结果的流程图，包括以下步骤：

步骤s401：利用音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值。

在具体实现步骤s401的过程中，计算第一分值和第二分值的过程，请参见上述本发明实施例图2步骤s201中的内容，在此不再进行赘述。

步骤s402：计算第一分值和第二分值之间的分值差。

步骤s403：计算每个声韵母的时间长度和平均后验概率。

需要说明的是，在利用分值差确定待分析唤醒词唤醒智能设备之后，确定待分析唤醒词的对齐结果，即确定待分析唤醒词的每个声韵母的帧数。也就是说，确定待分析唤醒词的每个声母的帧数，以及确定待分析唤醒词的每个韵母的帧数。

在具体实现步骤s403的过程中，确定每个声韵母的帧数，针对每个声韵母，计算每帧声韵母的后验概率。针对每个声韵母，计算每帧声韵母的后验概率的平均值，得到声韵母的平均后验概率。

例如：以“开启音箱”为待分析唤醒词，假设声母“k”的帧数为5帧，则计算每帧“k”的后验概率，计算5帧“k”的后验概率的平均值，即得到“k”的平均后验概率。通过以上方式，计算待分析唤醒词的每个声韵母的平均后验概率。

也就是说，待分析唤醒词的中间结果至少包括：分值差、每个声韵母的时间长度和每个声韵母的平均后验概率。

例如：以“开启音箱”为待分析唤醒词，“开启音箱”包括8个声韵母，每个声韵母对应各自的时间长度和平均后验概率。也就是说“开启音箱”的中间结果即为分值差、每个声韵母对应各自的时间长度和平均后验概率，总共17个值。

在将中间结果输入预设的确认模型进行唤醒词确认的过程中，将待分析唤醒词对应的分值差、每个声韵母的时间长度和平均后验概率输入确认模型进行处理(唤醒词确认)，得到唤醒确认结果，即确定待分析唤醒词是否为唤醒智能设备的唤醒词。

例如：将上述得到的待分析唤醒词对应的17个值(仅用于举例)输入确认模型进行唤醒词确认，确定待分析唤醒词是否为唤醒智能设备的唤醒词。

同理，在训练神经网络模型的过程中，针对每个样本唤醒词和每个样本非唤醒词等样本词，按照上述方式计算每个样本词对应的分值差、每个声韵母的时间长度和平均后验概率。例如：计算每个样本唤醒词对应的17个值，计算每个样本非唤醒词的17个值，将每个样本唤醒词和每个样本非唤醒词对应的17个值输入神经网络模型，训练神经网络模型直至神经网络模型收敛，得到确认模型。

在本发明实施例中，计算待分析唤醒词对应的第一分值和第二分值之间的分值差，以及计算每个声韵母的时间长度和平均后验概率。将待分析唤醒词对应的分值差、每个声韵母的时间长度和平均后验概率输入确认模型进行唤醒词确认，确定待分析唤醒词是否为唤醒智能设备的唤醒词，在保证智能设备唤醒率的同时减少误唤醒。

与上述本发明实施例提供的一种唤醒词的确认方法相对应，参见图5，本发明实施例还提供一种唤醒词的确认系统的结构框图，该确认系统包括：处理单元501、计算单元502和唤醒确认单元503；

处理单元501，用于获取待分析唤醒词的音素特征并判断是否唤醒智能设备。

计算单元502，用于当判断结果为唤醒智能设备时，对音素特征进行计算得到中间结果。

唤醒确认单元503，用于将中间结果输入预设的确认模型进行处理，得到唤醒确认结果。

在具体实现中，用于获取确认模型的唤醒确认单元503具体用于：将唤醒词样本数据和非唤醒词样本数据输入预设的神经网络模型，训练神经网络模型直至神经网络模型收敛，得到确认模型。

在具体实现中，唤醒确认单元503具体用于：将中间结果输入预设的确认模型进行唤醒词确认，判断待分析唤醒词是否为唤醒智能设备的唤醒词，若是，确定待分析唤醒词为唤醒智能设备的唤醒词，若否，确定待分析唤醒词不是唤醒智能设备的唤醒词。

在本发明实施例中，确定是否能唤醒智能设备，若能，对音素特征进行计算得到中间结果，将中间结果输入预设的确认模型进行处理得到唤醒确认结果，在保证智能设备唤醒率的同时减少误唤醒。

结合图5示出的内容，参见图6，示出了本发明实施例提供的一种唤醒词的确认系统的另一结构框图，处理单元501包括：第一计算模块5011、第二计算模块5012和确定模块5013；

第一计算模块5011，用于利用音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值。

第二计算模块5012，用于计算第一分值和第二分值之间的分值差。

确定模块5013，用于若分值差小于分值阈值，确定唤醒智能设备，若分值差大于等于分值阈值，确定未唤醒智能设备。

结合图5示出的内容，参见图7，示出了本发明实施例提供的一种唤醒词的确认系统的又一结构框图，计算单元502包括：第一计算模块5021、第二计算模块5022和第三计算模块5023；

第一计算模块5021，用于利用音素特征，分别计算第一唤醒路径的第一分值和第二唤醒路径的第二分值。

第二计算模块5022，用于计算第一分值和第二分值之间的分值差。

第三计算模块5023，用于计算每个声韵母的时间长度和平均后验概率。

在具体实现中，第三计算模块5023具体用于：确定每个声韵母的帧数，针对每个声韵母，计算每帧声韵母的后验概率，针对每个声韵母，计算每帧声韵母的后验概率的平均值，得到声韵母的平均后验概率。

相应的，唤醒确认单元503具体用于：将分值差以及每个声韵母的时间长度和平均后验概率输入预设的确认模型进行处理，得到唤醒确认结果。

在本发明实施例中，计算待分析唤醒词对应的第一分值和第二分值之间的分值差，以及计算每个声韵母的时间长度和平均后验概率。将待分析唤醒词对应的分值差、每个声韵母的时间长度和平均后验概率输入确认模型进行处理得到唤醒确认结果，在保证智能设备唤醒率的同时减少误唤醒。

综上所述，本发明实施例提供一种唤醒词的确认方法及系统，该方法包括：获取待分析唤醒词的音素特征并判断是否唤醒智能设备；当判断结果为唤醒智能设备时，对音素特征进行计算得到中间结果；将中间结果输入预设的确认模型进行处理，得到唤醒确认结果。本方案中，利用待分析唤醒词的音素特征确定是否能唤醒智能设备。若能，对音素特征进行计算得到中间结果，将中间结果输入预设的确认模型，得到唤醒确认结果，在保证智能设备唤醒率的同时减少误唤醒。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。