声音识别方法、交互方法、声音识别系统、计算机可读存储介质及可移动平台与流程

2021-01-28 17:01:47|

279|

起点商标网

本申请涉及声音识别领域，尤其涉及一种声音识别方法、交互方法、声音识别系统、计算机可读存储介质及可移动平台。

背景技术：

随着智能硬件在家居生活、教育等应用场合的普及，声音逐渐成为一种重要的人机交互方式，例如语音交互。但是，受制于硬件限制，当距离较远时，例如，当距离硬件设备2米以上时，由于信噪比较低，在语音信号中混杂的环境噪声会给语音识别带来很大的挑战。与语音信号相比，拍击声音信号单一，具有更强的抗干扰能力，且瞬时能量更强。因此可以利用拍击声音，例如掌声等，控制硬件设备，例如声控开关。然而，现有的基于波形比较电路的声控开关，在使用中鲁棒性不足，高音量的声音大多都能将其触发，误触发过于频繁，作为人机交互方式不可靠。

技术实现要素：

本申请提供改进的声音识别方法、交互方法、声音识别系统、计算机可读存储介质及可移动平台。

根据本申请实施例的一个方面，提供一种声音识别方法，用于识别拍击声音，声音识别方法包括：获取待识别声音信号的至少一个声音片段和所述声音片段的第一特征信息，所述第一特征信息为所述声音片段的能量值，若所述声音片段的中部区域的能量值大于能量阈值，则从所述声音片段中提取第二特征信息；及根据至少一个所述声音片段的所述第二特征信息，识别所述待识别声音信号是否包括拍击声音。

根据本申请实施例的一个方面，提供一种交互方法，包括：获取待识别声音信号；声音识别方法；及若根据所述声音识别方法识别出所述待识别声音信号包括拍击声音，根据所述拍击声音输出相应的控制指令。

根据本申请实施例的另一个方面，提供一种声音识别系统，包括一个或多个处理器，用于实现声音识别方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现声音识别方法。

根据本申请实施例的另一个方面，提供一种可移动平台，包括：机体；动力系统，设于所述机体，用于为所述可移动平台提供动力；麦克风，用于接收待识别声音，并产生相应的待识别声音信号；及一个或多个处理器，用于实现声音识别方法，并若根据所述声音识别方法识别出所述待识别声音信号包括拍击声音，则根据所述拍击声音输出相应的控制指令。

本申请实施例声音识别方法中，若所述声音片段的中部区域的能量值大于能量阈值，则从声音片段中提取第二特征信息，如此对待识别声音信号进行初筛，进而根据第二特征信息识别待识别声音信号是否包括拍击声音，从而在较远的距离范围内，拍击声音的识别率高，鲁棒性好，误触发可能性低，适合作为一种可靠的人机交互方式。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1所示为本申请声音识别方法的一个实施例的流程图。

图2所示为本申请声音识别方法的一个实施例的子流程图。

图3所示为本申请交互方法的一个实施例的流程图。

图4所示为本申请声音识别系统的一个实施例的示意图。

图5所示为本申请可移动平台的一个实施例的模块框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。除非另行指出，“前部”、“后部”、“下部”和/或“上部”等类似词语只是为了便于说明，而并非限于一个位置或者一种空间定向。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而且可以包括电性的连接，不管是直接的还是间接的。“多个”或者“若干”等类似词语表示至少两个。

本申请实施例的声音识别方法用于识别拍击声音。声音识别方法包括：获取待识别声音信号的至少一个声音片段和声音片段的第一特征信息，第一特征信息为声音片段的能量值，若声音片段的中部区域的能量值大于能量阈值，则从声音片段中提取第二特征信息；及根据至少一个声音片段的第二特征信息，识别待识别声音信号是否包括拍击声音。

声音识别方法中若所述声音片段的中部区域的能量值大于能量阈值，则从声音片段中提取第二特征信息，如此对待识别声音信号进行初筛，进而根据第二特征信息识别待识别声音信号是否包括拍击声音，从而在较远的距离范围内，拍击声音的识别率高，鲁棒性好，误触发可能性低，适合作为一种可靠的人机交互方式。

本申请实施例的一种交互方法包括：获取待识别声音信号；上述声音识别方法，包括获取至少一个声音片段的第一特征信息，第一特征信息为声音片段的能量值，若声音片段的中部区域的能量值大于能量阈值，则从声音片段中提取第二特征信息；及根据至少一个声音片段的第二特征信息，识别待识别声音信号是否包括拍击声音；及若根据声音识别方法识别出待识别声音信号包括拍击声音，根据拍击声音输出相应的控制指令。

声音识别方法对拍击声音的识别率高，鲁棒性好，误触发可能性低，因此使得交互方法可靠。而且拍击声音瞬时能量比语音强，在空气中不易衰减殆尽，因此对传播一定距离，例如2米以上距离，的拍击声音的识别效果也会比语音识别效果好，从而在较远的距离范围内也可利用拍击声音实现人机交互，有更高的识别率和更强的抗干扰性。

本申请实施例的声音识别系统包括一个或多个处理器，用于实现上述声音识别方法。

本申请实施例的机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述声音识别方法。

本申请实施例的可移动平台包括机体、动力系统、麦克风和一个或多个处理器。动力系统设于机体，用于为可移动平台提供动力。麦克风用于接收待识别声音，并产生相应的待识别声音信号。一个或多个处理器，用于实现上述声音识别方法，并若根据声音识别方法识别出待识别声音信号包括拍击声音，则根据所述拍击声音输出相应的控制指令。

图1所示为声音识别方法100的一个实施例的流程图。声音识别方法100用于识别拍击声音。在一些实施例中，拍击声音的频率范围为300hz至8000hz，声音清脆，瞬时能量比语音强，在空气中不易衰减殆尽，易于识别，识别效果好，识别率高，抗干扰性强。在一个实施例中，拍击声音包括掌声和敲打声中的至少一种拍击声音。敲打声可以包括敲打东西的声音，例如敲打墙、桌子等的声音，敲打声与掌声的波形相似。诸如掌声和/或敲打声的拍击声音识别率高，抗干扰性强，可以实现较远距离的识别。在本实施例中，声音识别方法100包括步骤101和102。

在步骤101中，获取待识别声音信号的至少一个声音片段和该声音片段的第一特征信息，第一特征信息为声音片段的能量值，若声音片段的中部区域的能量值大于能量阈值，则从声音片段中提取第二特征信息。

在一个实施例中，待识别声音信号可以为实时声音信号流中的一段或多段声音信号。在一个实施例中，声音识别方法100可以包括获取待识别声音信号。可以从实时声音信号流中截取待识别声音信号。在一个实施例中，可以截取相邻两个超过静音时间阈值的静音时间段之间的声音信号为待识别声音信号。静音时间段内的声音信号可以表示无声音或声音很小，可以称作“静音信号”，其能量值低于拍击声音的最小能量值。可以比较实时声音信号流的声音信号的能量值与设定的静音能量阈值，若声音信号的能量值小于静音能量阈值，则确定该声音信号为静音信号，且可以确定静音信号持续的时间，即静音时间段。静音能量阈值不超过拍击声音的最小能量值。静音时间阈值可以预先设定。在一个实施例中，静音时间阈值超过连续拍击中相邻两次拍击之间的间隔时间。在一个例子中，静音时间阈值为大于或等于2秒的任意值，当相邻两次拍击间隔时间小于2秒时，视为连续拍击。在另一个实施例中，待识别声音信号为实时声音信号流的所有声音信号。

在另一个实施例中，可以利用能量值对待识别声音信号进行初筛，若待识别声音信号的声音片段的中部区域的能量值大于能量阈值，说明该声音片段的中部区域对应的声音大，则说明该声音片段可能包括拍击声音，可以对拍击声音进行很好的初筛。例如，在一种实施方式中，该声音片段的中部区域为尖峰值，两端区域为较小且平缓的值，如此，该声音片段的波形为中间高两端低的波形，则说明该声音片段可能包括拍击声音。在一个实施例中，该声音片段的中部区域可以为该声音片段的正中心，也可以为该声音片段的正中心向一端扩展或向两端分别扩展的区域。在一个实施例中，能量阈值为预先设置的固定值或实时变化的值。在一个实施例中，能量阈值可以根据声音片段的中部区域之外的一端或两端区域的能量值确定，因此对于不同的声音片段，能量阈值可能不同。在另一个实施例中，能量阈值为预先设定的值，可以根据拍击声音的特点和经验，设定固定的能量阈值。

图2所示为步骤101的一个实施例的子流程图。步骤101包括子步骤111和112。在子步骤111中，对待识别声音信号进行分帧加窗处理，得到待识别声音信号对应的多个声音帧。

通过对待识别声音信号进行加窗处理实现分帧，得到多个声音帧。通常，一次拍击声音大约持续80～160毫秒，在一个实施例中，对待识别声音信号按11～23毫秒一帧进行分帧，每次对连续的4-15帧声音帧进行判断。在一个例子中，对待识别声音信号按16毫秒一帧进行分帧，每次对连续的7帧声音帧进行判断。在其他例子中，可以按照其他时间一帧进行分帧，和/或对包括其他帧数的声音帧进行判断，在此不作限定。

在子步骤112中，若声音片段对应的多个声音帧的中部区域的声音帧的能量值大于能量阈值，则从声音片段中提取第二特征信息。

在一个实施例中，中部区域的声音帧包括中心声音帧。在另一个实施例中，中部区域的声音帧包括中心声音帧和中心声音帧一侧或两侧的一个或多个声音帧。在一个实施例中，声音片段包括奇数帧的声音帧，中心声音帧为声音片段中心的一帧声音帧。在另一个实施例中，声音片段包括偶数帧的声音帧，中心声音帧为最靠近声音片段中心的一帧或两帧声音帧。当中部区域的声音帧为一帧时，中部区域的声音帧的能量值即为该一帧的声音帧的能量值；当中部区域的声音帧为多帧时，中部区域的声音帧的能量值可以通过合适的算法对该多帧的声音帧的能量值进行计算，例如求取平均值、中值、方差等算法，在此不作限定。

在一些实施例中，分帧加窗的窗口能够在多个声音帧之间顺次滑动，以对连续的多个声音帧进行判断，可以避免遗漏拍击声音，并且判断更为准确，鲁棒性更好。在一个例子中，窗口滑动多次中，判断过的若干连续声音帧为一个声音片段的多个声音帧。例如窗口滑动三次，每次滑动一帧，每次对连续的7帧进行判断，从窗口的初始位置至滑动三次后，共对连续的10帧声音帧进行了判断，将该10帧作为一个声音片段的多个声音帧。通过窗口的滑动获得声音片段。在一个实施例中，窗口每次滑动一帧。当然，在其他实施例中，根据实际需要，窗口也可以每次滑动两帧、三帧或更多帧，在此不作限定。

在一个实施例中，能量值包括声音帧的频谱值，可以对多个声音帧进行快速傅里叶变换，获得多个声音帧的频谱值。若声音片段的多个声音帧的中部区域的声音帧的频谱值大于能量阈值，则从声音片段中提取第二特征信息。频谱值可以体现声音的能量，在中部区域的声音帧的频谱值大于能量阈值时，说明声音片段可能包括拍击声音，因而从声音片段中提取第二特征信息。获得频谱值的方法简单，利用频谱值可以对待识别声音进行初筛，可以去除一些明显不包括拍击声音的声音片段，方法简单有效。

在一个实施例中，若窗口的中部区域的声音帧的频谱值大于能量阈值，产生触发信号；当窗口顺次滑动过若干个声音帧时，若连续产生的触发信号的数目达到触发数目阈值，则从该若干个声音帧所在的连续帧的声音片段中提取第二特征信息。窗口顺次滑动过若干个声音帧时，若连续产生多个触发信号，说明声音片段可能包含拍击声音。窗口可以每次移动一帧，一个拍击声音可能重复触发，产生多个触发信号，如此避免遗漏拍击声音，增强判断的准确性。

在一个实施例中，当窗口的中部区域的声音帧的频谱值大于第一能量值，窗口的两端区域的声音帧的频谱值小于第二能量值时，产生触发信号，其中，第一能量值大于第二能量值；当窗口顺次滑动过若干个声音帧时，若连续产生的触发信号的数目达到触发数目阈值，则从声音片段中提取第二特征信息。在一些实施例中，第一能量值包括预先设定的固定的值；和/或与两端区域的声音帧的频谱值相关的值，例如，第一能量值随着两端区域的声音帧的频谱值的变化而变化，如大于两端区域的声音帧的频谱值。在一些实施例中，第二能量值包括预先设定的固定的值；和/或与中部区域的声音帧的频谱值相关的值，例如第二能量值可以随着中部区域的声音帧的频谱值的变化而变化，如小于中部区域的声音帧的频谱值。当然，在其他实施例中，也可以设置窗口的两端区域中的一端的声音帧的频谱值小于第二能量值，另一端的声音帧的频谱值随着一端的声音帧的频谱值的变化而变化，在此不做限定。

在一个例子中，在待识别声音中，取连续的7帧声音帧进行判断，该7帧声音帧的中部区域的声音帧为第四帧。设这7帧中第x帧的频谱值为m(x)，第三到第五帧中的最小值为mi。例如，在一种实施方式中，预先设定：若m(4)>2*mi且m(4)>5*m(2)且m(4)>3*m(6)且m(4)>20*m(1)且m(4)>7*m(7)且m(4)>0.05，则判定触发一次，产生一个触发信号；m(4)为中间区域的声音帧。进一步地，无论是否触发，窗口都将滑动至下一帧重新进行上述的判断；若连续触发4次，则认为包含判断过的连续的若干声音帧的这段声音片段中包含拍击声音，即从窗口初始位置对应的第一帧至第十帧的十帧声音帧中包含拍击声音，则从这段声音片段中提取第二特征信息。在该例子中，触发数目阈值为4次，但不限于此，在其他例子中，可以设置其他的触发数目阈值。在该例子中，能量阈值包括多个能量阈值，为2*mi、5*m(2)、3*m(6)、20*m(1)、7*m(7)、0.05。能量阈值包括固定的阈值0.05，和与两端的声音帧的频谱值相关的能量阈值，可以为两端的声音帧的频谱值的倍数。如此可以较准确地进行初筛，避免遗漏拍击声音。

继续参考图1，在步骤102中，根据至少一个声音片段的第二特征信息，识别待识别声音信号是否包括拍击声音。

将初筛后的可能包含拍击声音的至少一个声音片段进行进一步识别，以确定待识别声音信号是否包括拍击声音。本申请实施例的声音识别方法100中若所述声音片段的中部区域的能量值大于能量阈值，则从声音片段中提取第二特征信息，如此对待识别声音信号进行初筛，进而根据第二特征信息识别待识别声音是否包括拍击声音，从而使得拍击声音即使在较远的距离范围内也可以实现高识别率，误触发可能性低，适合作为一种可靠的人机交互方式。

在一些实施例中，当待识别声音信号包括拍击声音时，识别拍击声音的类别，进一步地，拍击声音的类别对应于相应的控制指令。其中，拍击声音的类别包括拍击的次数、拍击的时长和拍击的频率中的至少一种。拍击的次数可以为一段拍击声音中连续拍击的次数。拍击的时长可以为一段拍击声音中连续拍击的总时长。拍击的频率可以体现拍击的快慢。如此不仅识别待识别声音信号是否包括拍击声音，而且在待识别声音信号包括拍击声音时，可以进一步识别拍击声音的类别，如此可以更好地用于人机交互中，不同类别的拍击声音可以实现不同的交互。

在一些实施例中，将第二特征信息输入识别模型中进行识别，以进一步识别待识别声音信号是否包括拍击声音。通过识别模型可以准确快速地识别。在一些实施例中，第二特征信息包括声学特征，声学特征包括梅尔频率倒谱系数(mfcc)特征、线性预测系数特征(linearpredictioncoefficient，lpc)、filterbank(滤波器组)特征、瓶颈特征(bottleneckfeature)中的至少一种。可以利用上述一种或多种声学特征，在识别模型中对拍击声音进行识别。

在一些实施例中，识别模型包括多种声音类别。分别确定第二特征信息与多种声音类别的特征信息的似然度；对似然度进行排序，将似然度最高的声音类别确定为待识别声音的类别，以识别待识别声音是否包括拍击声音。如此可以快速地进行识别。在一个实施例中，声音类别包括拍击声音类别和非拍击声音类别。可以确定第二特征信息与拍击声音类别的特征信息的似然度，和与非拍击声音类别的特征信息的似然度，将似然度最高的声音类别确定为待识别声音的类别。如此可以确定待识别声音是否包括拍击声音，识别准确度高，速度快。

在一些实施例中，拍击声音类别包括至少两种表示不同连续拍击次数的拍击声音类别。例如，表示连续两次拍击的拍击声音类别、表示连续三次拍击的拍击声音类别以及表示连续更多次拍击的拍击声音类别。第二特征信息输入识别模型中，可以确定待识别声音是否包括拍击声音，且可以确定连续拍击的次数。如此可以对不同连续拍击次数的拍击声音进行识别，识别得更精确。在其他一些实施例中，拍击声音类别可以包括至少两种表示拍击的时长和/或拍击的频率不同的拍击声音类别。

在一些实施例中，使用拍击声音训练数据和非拍击声音训练数据，训练识别模型。如此可以获得拍击声音类别和非拍击声音类别。非拍击声音训练数据可以包括噪声、说话声音等拍击以外的声音的数据。可以采集大量的拍击声音训练数据和非拍击声音训练数据来训练识别模型。在一些实施例中，可以对识别模型进行多次训练，以获得性能较好的识别模型。

在一些实施例中，拍击声音训练数据包括第一拍击声音训练数据和第二拍击声音训练数据，第一拍击声音训练数据和第二拍击声音训练数据表示的拍击的次数、拍击的时长和拍击的频率中的至少一种不同。使用第一拍击声音训练数据和第二拍击声音训练数据，训练识别模型。如此可以获得不同的拍击声音类别，从而可以用于识别拍击声音的类别。在一个实施例中，第一拍击声音训练数据和第二拍击声音训练数据表示的连续拍击的次数不同。在一个例子中，第一拍击声音训练数据表示连续拍击两次，第二拍击声音训练数据表示连续拍击三次，但不限于该例子。可以根据实际应用训练识别模型，获得不同的拍击声音类别。

在一些实施例中，识别模型包括深度模型和浅层模型中的至少一种，通过上述识别模型，识别率高。在一些实施例中，深度模型包括以下至少一种：深度神经网络(deepneuralnetworks，dnn)、长短时记忆网络(longshorttermmemorynetworks，lstm)和卷积神经网络(convolutionalneuralnetworks，cnn)。

在一个实施例中，浅层模型包括高斯混合模型-隐马尔科夫(gmm-hmm)模型，通过高斯混合模型-隐马尔科夫模型对待识别信号进行识别，识别率高，且识别速度快。在一些实施例中，使用拍击声音训练数据和非拍击声音训练数据训练高斯混合模型-隐马尔科夫模型，其中，拍击声音训练数据包括第一拍击声音训练数据和第二拍击声音训练数据，第一拍击声音训练数据和第二拍击声音训练数据表示的拍击的次数、拍击的时长和拍击的频率中的至少一种不同。如此训练好的高斯混合模型-隐马尔科夫模型包括非拍击声音类别和拍击声音类别，其中拍击声音类别包括表示的拍击的次数、拍击的时长和拍击的频率中的至少一种不同的第一拍击声音类别和第二拍击声音类别。具体可以参见上文所述。对拍击声音训练数据和非拍击声音训练数据训练提取mfcc特征，用于高斯混合模型-隐马尔科夫模型训练。

在一些实施例中，对隐马尔科夫(hmm)模型进行参数估计。在一个实施例中，对隐马尔科夫模型进行参数估计的方法包括：baum-welch算法和/或遗传算法(geneticalgorithm)。通过baum-welch算法和/或遗传算法对隐马尔科夫模型进行参数估计。baum-welch算法又称作前向-后向算法，baum-welch算法首先对于hmm模型的参数进行一个初始的估计，但这个很可能是一个错误的猜测，然后通过对于给定的训练数据评估这些参数的有效性(比如交叉验证)并减少它们所引起的错误来更新hmm模型的参数，使得和给定的训练数据的误差变小。遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。

在一些实施例中，高斯混合模型-隐马尔科夫模型的高斯数量的范围为3至12，适合识别拍击声音，平衡识别性能和识别速度，识别准确度尽可能高且识别速度尽可能快。第一拍击声音训练数据包括连续两次拍击的拍击声音训练数据，高斯混合模型-隐马尔科夫模型的对应第一拍击声音训练数据的状态数量范围为6至14，识别模型的性能尽可能好，且识别速度尽可能快。在一些实施例中，第二拍击声音训练数据包括连续三次拍击的拍击声音训练数据，高斯混合模型-隐马尔科夫模型的对应第二拍击声音训练数据的状态数量范围为9至21，识别模型的性能尽可能好，且识别速度尽可能快。在一些实施例中，高斯混合模型-隐马尔科夫模型的对应非拍击声音训练数据的状态数量范围为7至18，识别模型的性能尽可能好，且识别速度尽可能快。在一个例子中，第一拍击声音训练数据的状态数量为10，第二拍击声音训练数据的状态数量为15，非拍击声音训练数据的状态数量为12，高斯数量为3。上述仅是一个例子，并不限于该例子，在其他例子中，状态数量和/或高斯数量可以为其他值，例如高斯数量可以为5或8。

在一些实施例中，对高斯混合模型-隐马尔科夫模型中的高斯混合模型(gmm)模型可以进行多次训练，如此获得识别准确率高的模型。在一些实施例中，对高斯混合模型-隐马尔科夫模型进行多次训练的方法包括：期望最大化方法(expectationmaximization，em)或最大似然法。期望最大化方法或最大似然法对高斯混合模型-隐马尔科夫模型进行多次训练，获得识别准确率高的模型。期望最大化方法是求参数极大似然估计的一种方法。期望最大化方法是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。最大似然法(maximumlikelihood，ml)也称为最大概似估计，也叫极大似然估计，是一种具有理论性的点估计法，可以用来估计模型的参数。

如此，在对高斯混合模型-隐马尔科夫模型多次训练之后，以获得性能较好的高斯混合模型-隐马尔科夫模型识别模型。

图3所示为本申请交互方法200的一个实施例的流程图。交互方法200包括步骤201-203。

在步骤201中，获取待识别声音信号。可以从实时声音信号流中获取待识别声音信号。详细描述可以参照上文所述，在此不赘述。

在步骤202中，执行如上文所述的声音识别方法100，对获取到的待识别声音信号进行识别。

在步骤203中，若根据声音识别方法100识别出待识别声音信号包括拍击声音，根据拍击声音输出相应的控制指令。

交互方法200利用拍击声音进行交互。声音识别方法对拍击声音的识别率高，鲁棒性好，误触发可能性低，因此使得交互方法可靠。而且拍击声音瞬时能量比语音强，在空气中不易衰减殆尽，因此对传播一定距离，例如2米以上距离，的拍击声音的识别效果也会比语音识别效果好，从而可以在较远距离范围内利用拍击声音实现人机交互，有更高的识别率和更强的抗干扰性。

在一些实施例中，控制指令包括在待识别声音信号包括拍击声音时，控制可移动平台的控制指令。控制指令可以控制可移动平台，例如可以控制可移动平台前进、后退、转弯、旋转、静止、发射子弹等。可移动平台可以包括移动小车、无人飞行器、汽车、机器人或其他可移动装置。利用拍击声音与可移动平台交互，控制可移动平台，拍击声音的识别率高，对可移动平台的控制更准确，误控制的概率低，并且可以实现较远距离范围内的多种交互方式，提高用户体验。

在一些实施例中，控制指令包括在待识别声音信号包括拍击声音时，控制可移动平台的视觉系统的控制指令。在待识别声音信号包括拍击声音时，可以控制视觉系统的工作状态等。利用拍击声音实现对视觉系统的控制，可以提高控制视觉系统的准确性。在一个实施例中，控制指令包括控制视觉系统启动视觉追踪的控制指令，和/或控制视觉系统结束视觉追踪的控制指令。利用拍击声音可以启动和/或结束视觉追踪，可以准确地实现对视觉追踪的控制。

在其他一些实施例中，控制指令可以控制可移动平台的其他系统，例如可以控制可移动平台的动力装置，从而控制可移动平台的移动；可以控制可移动平台的摄像头拍照等。在其他一些实施例中，控制指令可以控制其他装置，并不限于可移动平台。

在一些实施例中，获取拍击声音的拍击的次数、拍击的时长和拍击的频率中的至少一种；根据拍击声音的拍击的次数、拍击的时长和拍击的频率中的至少一种输出不同的控制指令。拍击声音的拍击的次数、拍击的时长和拍击的频率中的至少一种不同，输出不同的控制指令，如此可以根据不同的拍击声音产生不同的控制指令，实现不同的控制。例如可以根据不同的拍击声音产生不同的控制指令，分别控制视觉追踪启动和结束。

在一个实施例中，根据不同的连续拍击的次数，产生不同的控制指令。在一个例子中，用户连续拍掌两次，交互方法200识别出表示连续拍击两次的拍击声音，控制可移动平台启动视觉跟踪，可移动平台开始跟随用户移动。跟随中，用户连续拍掌三次，交互方法200识别出表示连续拍击三次的拍击声音，控制可移动平台停止移动。上述仅是一个例子，并不限于上述的例子。在一个实施例中，拍击声音的类型与控制指令的映射关系可以是预先设定，也可以通过用户自主设置，从而增强交互控制的灵活性，提高用户体验。

图4所示为本申请声音识别系统300的一个实施例的示意图。声音识别系统300包括一个或多个处理器，用于实现声音识别方法。声音识别系统300的处理器301可以实现上文所述的声音识别方法100。在一些实施例中，声音识别系统300可以包括计算机可读存储介质304，计算机可读存储介质可以存储有可被处理器301调用的程序，可以包括非易失性存储介质。在一些实施例中，声音识别系统300可以包括内存303和接口302。在一些实施例中，声音识别系统300还可以根据实际应用包括其他硬件。

本申请计算机可读存储介质304，其上存储有程序，该程序被处理器301执行时，实现声音识别方法100。

图5所示为本申请可移动平台400的一个实施例的模块框图。可移动平台400包括机体401、动力系统402、麦克风403和一个或多个处理器404。可移动平台400可以包括移动小车、无人飞行器、汽车、机器人或其他可移动装置。动力系统402设于机体401，用于为可移动平台提供动力。在一些实施例中，动力系统402可以包括电机。在一个实施例中，可移动平台400为无人飞行器，动力系统402包括与电机连接的螺旋桨。在另一个实施例中，可移动平台400为移动小车，动力系统402包括与电机连接的车轮，例如万向轮。

麦克风403用于接收待识别声音，并产生相应的待识别声音信号。麦克风403可以安装于机体401。由于拍击声音瞬时能量比语音强，在空气中更不易衰减殆尽，拍击声音可以更好地被麦克风403接收。麦克风的数量可以是一个或多个。在一种实施方式中，麦克风还可以包括防风配件，例如防风毛罩、避震架等，以更好地接收待识别声音。

一个或多个处理器404，用于实现声音识别方法，并若根据声音识别方法识别出待识别声音信号包括拍击声音，则根据拍击声音输出相应的控制指令。处理器404可以控制动力系统402。

在一个实施例中，控制指令包括在待识别声音信号包括拍击声音时，控制可移动平台400的控制指令。在一个实施例中，可移动平台400包括视觉系统405，控制指令包括在待识别声音信号包括拍击声音时，控制视觉系统的控制指令。处理器404可以控制视觉系统405。在一个实施例中，控制指令包括控制视觉系统405启动视觉追踪的控制指令，和/或控制视觉系统405结束视觉追踪的控制指令。具体描述参加上文所述。

在一个实施例中，处理器404用于获取拍击声音的拍击的次数、拍击的时长和拍击的频率中的至少一种；根据拍击声音的拍击的次数、拍击的时长和拍击的频率中的至少一种输出不同的控制指令。具体描述参加上文所述。

本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括但不限于：相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

应当理解，本申请的各部分可以用硬件、软件或它们的组合来实现。在上述实施例中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或硬件来实现。例如，如果用硬件来实现，可用下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明实施例所提供的方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。