音频检测方法和装置与流程

2021-01-28 15:01:41|

298|

起点商标网

本公开涉及计算机技术领域，尤其是一种音频检测方法和装置。

背景技术：

现有的智能语音交互设备，通常对利用麦克风采集的用户语音进行识别，根据语音识别结果控制智能语音交互设备。麦克风采集的声音信号通常可能不仅仅包括用户的语音信号，还会包括来自各种干扰源的信号，例如电视机、微波炉、汽车、智能语音交互设备发出的提示音等，而各种干扰信号会降低语音识别的准确性。

技术实现要素：

本公开的实施例提供了一种音频检测方法和装置。

根据本公开实施例的一个方面，提供了一种音频检测方法，该方法包括：获取从声音采集设备采集的语音信号，以及获取目标设备播放的音频参考信号；基于音频参考信号，从语音信号中确定唤醒词；基于唤醒词，生成用于控制目标设备的控制信号。

根据本公开实施例的另一个方面，提供了一种音频检测装置，该装置包括：获取模块，用于获取从声音采集设备采集的语音信号，以及获取目标设备播放的音频参考信号；确定模块，用于基于音频参考信号，从语音信号中确定唤醒词；生成模块，用于基于唤醒词，生成用于控制目标设备的控制信号。

基于本公开上述实施例提供的音频检测方法和装置，通过获取语音信号和音频参考信号，再基于音频参考信号，从语音信号中确定唤醒词，最后基于唤醒词，生成用于控制目标设备的控制信号，可以在声音采集设备采集用户的语音时，减少目标设备播放的声音对识别语音信号中的唤醒词的干扰，以及减少识别唤醒词后的语音信号的干扰，从而有助于提高对用户的语音进行识别的准确性，进而提高对目标设备进行语音控制的准确性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的音频检测方法的流程示意图。

图3是本公开的实施例的音频检测方法的一个应用场景的示意图。

图4是本公开另一示例性实施例提供的音频检测方法的流程示意图。

图5是本公开另一示例性实施例提供的音频检测方法的流程示意图。

图6是本公开的实施例提供的从语音信号中提取待识别信号的流程示意图。

图7是本公开的一示例性实施例提供的音频检测装置的结构示意图。

图8是本公开另一示例性实施例提供的音频检测装置的结构示意图。

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

现有的智能语音交互设备上的音频检测方法，通常仅基于麦克风采集的语音信号的特征，不考虑设备本身发出的音频信号的特征。导致现有技术存在如下缺点：

1)若智能设备在唤醒后存在较大音量的播报反馈音，现有的激活音检测方案易将播报音误检出，与有效识别语音连在一起反馈给识别引擎，有时甚至会漏检识别语音，造成识别准确率下降。

2)未与唤醒引擎耦合，语音识别时缺少唤醒信息，影响准确率。

3)激活音检测策略未针对唤醒和识别分别采取针对性策略。

示例性系统

图1示出了可以应用本公开的实施例的音频检测方法或音频检测装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如语音识别应用、输入法应用、即时通信工具等。

终端设备101可以是各种可以接收语音信号的电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的语音信号进行处理的后台语音处理服务器。后台语音处理服务器可以对接收到的语音信号进行处理，得到处理结果(例如控制信号)。

需要说明的是，服务器可以是由多个服务器组成的分布式服务器集群，也可以是单个服务器，在此不做具体限定。

需要说明的是，本公开的实施例所提供的音频检测方法可以由服务器103执行，也可以由终端设备101执行，相应地，音频检测装置可以设置于服务器103中，也可以设置于终端设备101中。另外，本公开的实施例所提供的音频检测方法也可以由终端设备101和服务器103相结合共同执行，即音频检测方法的一些步骤由终端设备101执行，另一些步骤由服务器103执行。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

示例性方法

图2是本公开一示例性实施例提供的音频检测方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤201，获取从声音采集设备采集的语音信号，以及获取目标设备播放的音频参考信号。

在本实施例中，电子设备(例如图1所示的服务器或终端设备)可以获取从声音采集设备采集的语音信号，以及获取目标设备播放的音频参考信号。其中，声音采集设备(例如麦克风)可以是电子设备包括的电子部件，或者与电子设备通信连接的其他设备包括的电子部件。上述目标设备可以是上述电子设备，也可以是与上述电子设备通信连接的其他电子设备。作为示例，目标设备可以包括但不限于以下至少一种：智能手机、平板电脑、智能家电等。

上述目标设备可以输出音频参考信号。通常，音频参考信号为提示音。作为示例，当上述电子设备获取到用于表征用户发出的语音的语音信号后，目标设备会输出提示音。

步骤202，基于音频参考信号，从语音信号中确定唤醒词。

在本实施例中，电子设备可以基于音频参考信号，从语音信号中确定唤醒词。通常，由于声音采集设备和目标设备的距离较近，当目标设备发出声音时，会对用户发出的语音造成干扰，在识别语音信号时，造成识别准确率降低。

作为示例，电子设备可以利用主动回声消除算法，将音频参考信号作为主动回声消除算法所使用的参考信号，从语音信号中确定用于表征用户发出的语音的信号，再从所确定的信号中，按照确定唤醒词的方法(例如预先训练的深度神经网络)，确定唤醒词。

步骤203，基于唤醒词，生成用于控制目标设备的控制信号。

在本实施例中，电子设备可以基于唤醒词，生成用于控制目标设备的控制信号。其中，控制信号可以是用于控制目标设备进行各种操作的信号。例如，假设目标设备是智能电视，控制信号可以用于控制智能电视将当前播放的频道切换至与控制信号对应的频道。

作为示例，电子设备可以根据预先建立的、唤醒词与控制信号的对应关系，生成控制信号。

需要说明的是，当步骤201-步骤203由如图1所示的终端设备和服务器相结合执行时，步骤201-步骤202可以由终端设备执行，步骤203可以由服务器执行。从而可以缓解单个电子设备执行上述方法的压力。

参见图3，图3是根据本实施例的音频检测方法的应用场景的一个示意图。在图3的应用场景中，电视机301包括内置麦克风(即声音采集设备)，电视机301首先获取从麦克风采集的语音信号302，其中，语音信号302是用户304发出语音而生成的音频信号。例如，当接通电视机301的电源时，电视机301输出语音“欢迎使用本产品”(即音频参考信号303)。同时，用户304对着电视机发出语音“打开电视，切换到少儿频道”，电视机301执行上述步骤201，获取到通过麦克风接收的语音信号302，以及获取到音频参考信号303。由于用户发出语音的同时，电视机301正在播放音频，因此，音频参考信号303对语音信号302造成干扰。然后，电视机301执行上述步骤202，即基于音频参考信号303，利用主动回声消除算法，从语音信号中确定唤醒词305“打开电视”。再然后，电视机301可以进一步执行上述步骤203，即基于唤醒词，生成用于将电视机开启到对应的状态(例如主界面)的控制信号306。进而，电视机301利用主动回声消除算法，将音频参考信号对识别语音信号中处于唤醒词“打开电视”之后的音频信号造成的干扰滤除，得到待识别信号307(即对应于语音“切换到少儿频道”)，并对待识别信号307进行识别，生成识别结果对应的控制信号308(即用于将当前播放的频道切换到少儿频道的控制信号)。

本申请的上述实施例提供的方法，通过获取语音信号和音频参考信号，再基于音频参考信号，从语音信号中确定唤醒词，最后基于唤醒词，生成用于控制目标设备的控制信号，可以在声音采集设备采集用户的语音时，减少目标设备播放的声音对识别语音信号中的唤醒词的干扰，以及减少识别唤醒词后的语音信号的干扰，从而有助于提高对用户的语音进行识别的准确性，进而提高对目标设备进行语音控制的准确性。

如图4所示，在上述图2所示实施例的基础上，步骤202可以包括如下步骤：

步骤2021，确定音频参考信号是否包括激活音信号。

具体地，电子设备可以利用音频识别方法，确定音频参考信号是否包括激活音信号。其中，激活音信号是用于表征有效语音的信号。例如，如果一段音频信号中包括噪音信号(如电视机、微波炉、汽车等发出的噪音信号)，则将噪音信号滤除后，可以得到激活音信号。

可选的，电子设备可以利用预设的激活音信号判别模型，确定音频参考信号是否包括激活音信号。具体地，电子设备可以首先对音频参考信号进行快速傅里叶变换，将音频参考信号从时间域变换到频域。然后，将频域信号划分到多个频域子带，利用最小追踪法或者最小均方误差法得到各子带的噪声功率谱估计。接着，基于子带估计噪声和子带信号能量，提取子带能量特征，其中，子带能量特征可以包括但不限于以下至少一种：子带短时信噪比、子带长时信噪比、谱重心等。最后，将提取的子带能量特征输入上述激活音信号判别模型，激活音信号判别模型确定音频参考信号是否包括激活音信号。其中，激活音信号判别模型可以基于用于分类的模型预先训练得到。上述用于分类的模型可以包括但不限于以下至少一种：逻辑回归模型、支持向量机模型、混合高斯模型等。

步骤2022，若音频参考信号包括激活音信号，确定声音采集设备采集的、表征激活音信号的干扰信号。

通常，电子设备可以利用主动回声消除算法，以音频参考信号作为主动回声消除算法所用到的参考信号，从声音采集设备采集的语音信号中，确定表征激活音信号的干扰信号。干扰信号即声音采集设备在采集用户的语音信号时，由于目标设备播放了音频参考信号，导致声音采集设备同时采集了目标设备所播放的声音而产生的音频信号。

步骤2023，将干扰信号从语音信号中滤除，得到待检测语音信号。

步骤2024，从待检测语音信号中确定唤醒词。

其中，唤醒词可以是预设的用于使目标设备开启预设功能的词语。例如，假设目标设备为智能电视，唤醒词可以是“打开电视”，则智能电视开启并等待用于进一步的操作。

作为示例，电子设备可以利用现有的语音识别方法，从待检测语音信号中确定唤醒词。例如，上述语音识别方法可以包括但不限于以下至少一种：基于声道模型和语音知识的方法、模板匹配的方法、基于人工神经网络的方法等。

通过执行步骤2021-步骤2024，可以降低将目标设备播放的声音对语音信号造成的干扰，从而提高电子设备确定唤醒词的准确性，有利于提高后续步骤中对对语音信号进行识别的准确性。

在一些可选的实现方式中，电子设备可以按照如下步骤从待检测语音信号中确定唤醒词：

首先，从待检测语音信号中确定激活音信号。

具体地，作为示例，电子设备可以将待检测语音信号中的噪音信号滤除，得到激活音信号。

可选的，电子设备可以利用上述激活音信号判别模型，从待检测语音信号确定激活音信号。其中，激活音信号判别模型与上述步骤2021中的可选的实现方式中描述的激活音信号判别模型相同，这里不再赘述。通常，电子设备可以将由待检测语音信号中提取的子带能量特征输入上述激活音信号判别模型，得到激活音信号。

然后，基于激活音信号确定唤醒词。

具体地，作为示例，电子设备可以利用各种人工神经网络(例如dnn(deepneuralnetwork，深度神经网络)、cnn(convolutionalneuralnetworks，卷积神经网络)等)，从激活音信号中确定唤醒词。

本实现方式通过从待检测语音信号中确定激活音信号，再基于激活音信号确定唤醒词，可以细化确定唤醒词的步骤，提供确定唤醒词的准确性。

可选的，电子设备可以将待检测语音信号包括的激活音信号输入预设的唤醒词检测模型，得到唤醒词。具体地，作为示例，唤醒词检测模型可以是利用机器学习方法，利用预设的训练样本，对初始模型进行训练得到的。通常，初始模型可以包含基于深度神经网络的音素分类器模型和用于寻找音素状态最优路径的解码器(例如lstm(longshort-termmemory，长短期记忆网络)模型、crf(conditionalrandomfield，条件随机场)模型等)，用于检测激活音检测检出的语音中是否包含预设的唤醒词。如果包括唤醒词，则唤醒成功，并返回唤醒成功标志及相关唤醒信息(如唤醒词在待检测语音信号的起始位置、结束位置等)。

由于唤醒词检测模型是基于大量的训练样本有针对性地训练得到的，通过使用唤醒词检测模型，可以进一步提供确定唤醒词的准确性。

如图5所示，在上述图2所示实施例的基础上，步骤203可以包括如下步骤：

步骤2031，基于唤醒词从语音信号中提取待识别信号。

在本实施例中，电子设备可以基于唤醒词从语音信号中提取待识别信号。其中，待识别信号可以是不包括唤醒词的信号。作为示例，电子设备可以从语音信号中，将唤醒词删除后得到的信号确定为待识别信号。

步骤2032，对待识别信号进行识别，生成用于控制目标设备的控制信号。

具体地，电子设备可以利用现有的语音信号识别方法(例如神经网络)，对待识别信号进行识别，得到识别结果。其中，识别结果可以是各种类型的信息，例如，包括但不限于以下至少一种：文字、数字、符号等。根据预先设置的、识别结果与控制信号的对应关系，生成控制信号。

通过执行步骤2031-步骤2032，可以有针对性地从语音信号中提取待识别信号，与步骤201和202结合，可以针对唤醒词和识别语音分别采取针对性策略，从而提高生成控制信号的准确性。

在一些可选的实现方式中，步骤2031可以如下执行：

首先，确定语音信号中的、生成时间处于唤醒词之后的信号。具体地，电子设备可以利用上述可选的实现方式中的唤醒相关信息包括的唤醒词的结束位置，将该结束位置之后的信号确定为处于唤醒词之后的信号。

然后，确定处于唤醒词之后的信号中是否包括由声音采集设备采集的、表征目标设备播放的声音的干扰信号。通常，电子设备可以利用主动回声消除算法，确定处于唤醒词之后的信号中是否包括干扰信号。作为示例，当电子设备利用上述主动回声消除算法对处于唤醒词之后的信号进行降噪处理的降噪量小于或等于预设的降噪量阈值，确定处于唤醒词之后的信号中不包括干扰信号，否则包括干扰信号。干扰信号由于来自于目标设备播放的声音(及音频参考信号)，因此，当处于唤醒词之后的信号中包括干扰信号时，表示唤醒词之后的信号与音频参考信号叠加，及目标设备播放的声音对语音信号造成了干扰。

最后，若处于唤醒词之后的信号中包括干扰信号，从语音信号中的、生成时间处于唤醒词之后的信号中滤除干扰信号，得到待识别信号。通常，电子设备可以利用主动回声消除算法，将干扰信号从语音信号中滤除。本可选的实现方式可以在目标设备发出的参考音频信号对语音信号造成干扰时，将干扰信号滤除，进而可以进一步对滤除干扰信号后的语音信号进行识别，从而提高了对语音信号进行识别的准确性，降低了由于目标设备发出的声音造成的识别误差。

通常，若处于唤醒词之后的信号中包括干扰信号，此时，电子设备可以确定处于识别模式二(识别模式一如下述实现方式)。

在一些可选的实现方式中，若处于唤醒词之后的信号中不包括干扰信号，电子设备还可以基于语音信号中的、生成时间处于唤醒词之后的信号确定待识别信号。具体地，电子设备可以将语音信号中的、生成时间处于唤醒词之后的信号确定为待识别信号。或者，电子设备可以从生成时间处于唤醒词之后的信号中提取信号(例如音量大于或等于与预设音量的信号)作为待识别信号。通常，若处于唤醒词之后的信号中不包括干扰信号，此时，电子设备可以确定处于识别模式一。

在一些可选的实现方式中，电子设备可以按照如下步骤确定处于唤醒词之后的信号中是否包括由声音采集设备采集的、表征目标设备播放的声音的干扰信号：

首先，确定音频参考信号包括的、生成时间处于唤醒词之后的信号中，是否包括激活音信号。本步骤确定是否包括激活音信号的方法可以与上述步骤2021描述的方法相同，这里不再赘述。

然后，若音频参考信号包括的、生成时间处于唤醒词之后的信号中包括激活音信号，且经过降噪处理后的语音信号的降噪量大于或等于预设的降噪量阈值，确定语音信号包括干扰信号。通常，电子设备可以利用主动回声消除算法、波束形成算法、盲源分离算法等对语音信号进行降噪处理。如果将降噪量大于或等于预设的降噪量阈值，表示语音信号被其他声音干扰的程度成大，如果音频参考信号包括的、生成时间处于唤醒词之后的信号中包括激活音信号，则表示待识别的语音信号被音频参考信号干扰。本实现方式通过确定音频参考信号包括的、生成时间处于唤醒词之后的信号中是否包括激活音信号，并与降噪量阈值进行对比，从而可以准确地从语音信号中确定有目标设备发出的声音对语音信号的干扰，有利于进一步提高语音识别的准确性。

可选的，若音频参考信号包括的、生成时间处于唤醒词之后的信号中不包括激活音信号，电子设备可以确定语音信号不包括干扰信号。当确定唤醒词之后的信号中不包括激活音信号时，表示目标设备没有发出表征语音的音频信号，上述语音信号不受音频参考信号的干扰。

此外，若处于唤醒词之后的信号中包括激活音信号，且经过降噪处理后的语音信号的降噪量小于降噪量阈值，确定语音信号不包括干扰信号。此时，由于降噪量小于降噪量阈值，表示目标设备发出的声音虽然包括语音，但没有对声音采集设备采集的语音信号造成干扰。

下面参考图6，图6示出了根据上述各可选的实现方式，从所述语音信号中提取待识别信号的示意性流程图，包括如下步骤：

步骤601，若唤醒词检测模型未返回唤醒成功标志，则电子设备保持未唤醒状态。

步骤602，若唤醒词检测模型返回唤醒成功标志，电子设备由未唤醒状态跳转至识别模式检测状态。即检测当前处于上述识别模式一或识别模式二。

步骤603，在未检测到音频参考信号中的激活音信号(即唤醒反馈音)或者超时之前，持续进行识别模式状态检测。检测需要利用上述降噪量和频域子带能量特征(检测激活音信号时使用)。

步骤604，若识别模式为识别模式一，跳转到激活音等待状态。即此时语音信号和音频参考信号不重叠，继续等待对语音信号进行激活音检测的结果。当检测到语音信号包括激活音信号时，可以按照上述可选的实现方式中描述的在识别模式一的状态下确定待识别信号的方法，从语音信号中确定待识别信号。

步骤605，若识别模式为识别模式二，直接跳转到激活状态。即此时语音信号和音频参考信号重叠。此时可以按照上述可选的实现方式描述的在识别模式二的状态下确定待识别信号的方法，从语音信号中确定待识别信号。通常，电子设备还可以根据从语音信号中检测激活音的结果进行时间补偿，即将检测到的激活音的持续时间段延长，以使激活音信号保持完整。

步骤606，保持激活等待状态。

步骤607，当语音信号中的唤醒词之后的信号中包括激活音信号并且音频参考信号不包括激活音信号时跳转到激活状态。

步骤608，若二次唤醒(即用户重新发出包括唤醒词的语音)则返回识别模式检测状态。

步骤609，当语音信号中的唤醒词之后的信号中包括激活音信号时，保持激活状态。

步骤610，当语音信号中的唤醒词之后的信号中不再包括激活音信号时，跳转到未唤醒状态。

步骤611，若二次唤醒则返回识别模式检测状态。本公开实施例提供的任一种音频检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种音频检测方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种音频检测方法。下文不再赘述。

示例性装置

图7是本公开一示例性实施例提供的文本分类装置的结构示意图。本实施例可应用在电子设备上，如图7所示，文本分类装置包括：获取模块701，用于获取从声音采集设备采集的语音信号，以及获取目标设备播放的音频参考信号；确定模块702，用于基于音频参考信号，从语音信号中确定唤醒词；生成模块703，用于基于唤醒词，生成用于控制目标设备的控制信号。

在本实施例中，获取模块701可以获取从声音采集设备采集的语音信号，以及获取目标设备播放的音频参考信号。其中，声音采集设备(例如麦克风)可以是电子设备包括的电子部件，或者与电子设备通信连接的其他设备包括的电子部件。上述目标设备可以是上述电子设备，也可以是与上述电子设备通信连接的其他电子设备。作为示例，目标设备可以包括但不限于以下至少一种：智能手机、平板电脑、智能家电等。

在本实施例中，确定模块702可以基于音频参考信号，从语音信号中确定唤醒词。通常，由于声音采集设备和目标设备的距离较近，当目标设备发出声音时，会对用户发出的语音造成干扰，在识别语音信号时，造成识别准确率降低。

在本实施例中，生成模块703可以基于唤醒词，生成用于控制目标设备的控制信号。其中，控制信号可以是用于控制目标设备进行各种操作的信号。例如，假设目标设备是智能电视，控制信号可以用于控制智能电视将当前播放的频道切换至与控制信号对应的频道。

参照图8，图8是本公开另一示例性实施例提供的音频检测装置的结构示意图。

在一些可选的实现方式中，确定模块702包括：第一确定单元7021，用于确定音频参考信号是否包括激活音信号；第二确定单元7022，用于若音频参考信号包括激活音信号，确定声音采集设备采集的、表征激活音信号的干扰信号；滤除单元7023，用于将干扰信号从语音信号中滤除，得到待检测语音信号；第三确定单元7024，用于从待检测语音信号中确定唤醒词。

在一些可选的实现方式中，第三确定单元7024包括：第一确定子单元70241，用于从待检测语音信号中确定激活音信号；第二确定子单元70242，用于基于激活音信号确定唤醒词。

在一些可选的实现方式中，第二确定子单元70242进一步用于将待检测语音信号包括的激活音信号输入预设的唤醒词检测模型，得到唤醒词。

在一些可选的实现方式中，确定模块702进一步用于利用预设的激活音信号判别模型，确定音频参考信号是否包括激活音信号；以及第一确定子单元70241进一步用于利用激活音信号判别模型，从待检测语音信号确定激活音信号。

在一些可选的实现方式中，生成模块703包括：提取单元7031，用于基于唤醒词从语音信号中提取待识别信号；识别单元7032，用于对待识别信号进行识别，生成用于控制目标设备的控制信号。

在一些可选的实现方式中，提取单元7031包括：第三确定子单元70311，用于确定语音信号中的、生成时间处于唤醒词之后的信号；第四确定子单元70312确定处于唤醒词之后的信号中是否包括由声音采集设备采集的、表征目标设备播放的声音的干扰信号；滤除子单元70313，用于若处于唤醒词之后的信号中包括干扰信号，从语音信号中的、生成时间处于唤醒词之后的信号中滤除干扰信号，得到待识别信号。

在一些可选的实现方式中，提取单元7031还包括：生成子单元70314，用于若处于唤醒词之后的信号中不包括干扰信号，基于语音信号中的、生成时间处于唤醒词之后的信号确定待识别信号。

在一些可选的实现方式中，第四确定子单元70312进一步用于：确定音频参考信号包括的、生成时间处于唤醒词之后的信号中，是否包括激活音信号；若唤醒词之后的信号中包括激活音信号，且经过降噪处理后的语音信号的降噪量大于或等于预设的降噪量阈值，确定语音信号包括干扰信号。

在一些可选的实现方式中，第四确定子单元70312进一步用于：若处于唤醒词之后的信号中不包括激活音信号，确定语音信号不包括干扰信号；或者，若处于唤醒词之后的信号中包括激活音信号，且经过降噪处理后的语音信号的降噪量小于降噪量阈值，确定语音信号不包括干扰信号。

本申请的上述实施例提供的装置，通过获取语音信号和音频参考信号，再基于音频参考信号，从语音信号中确定唤醒词，最后基于唤醒词，生成用于控制目标设备的控制信号，可以在声音采集设备采集用户的语音时，减少目标设备播放的声音对识别语音信号中的唤醒词的干扰，以及减少识别唤醒词后的语音信号的干扰，从而有助于提高对用户的语音进行识别的准确性，进而提高对目标设备进行语音控制的准确性。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图9图示了根据本公开实施例的电子设备的框图。

如图9所示，电子设备900包括一个或多个处理器901和存储器902。

处理器901可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备900中的其他组件以执行期望的功能。

存储器902可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行程序指令，以实现上文的本公开的各个实施例的文本分类方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备900还可以包括：输入装置903和输出装置904，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置903可以是麦克风等设备，用于接收音频信号。在该电子设备是单机设备时，该输入装置903可以是通信网络连接器，用于从终端设备101和服务器103接收音频信号。

该输出装置904可以向外部输出各种信息，包括确定出的类别信息。该输出装置904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备900中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备900还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音频检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音频检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。