消除回声的方法、装置、电子设备及可读存储介质与流程

2021-01-28 16:01:20|

323|

起点商标网

本申请涉及语音识别技术领域，特别涉及一种消除回声的方法、装置、电子设备及可读存储介质。

背景技术：

随着语音识别技术的发展，语音识别的应用场景也越来越多，车载场景便是其中一种。在车载场景中，用于语音识别的音频往往包含用户发出的近端音频以及回声，回声是指扬声器播放的远端音频经车内物品反射得到的音频。由于回声会影响对近端音频的语音识别效果，因而需要对回声进行消除。

相关技术中，首先采用自适应滤波的方式对音频中的线性回声进行消除。之后，对于音频中残留的非线性回声，设置固定的增益阈值。若音频中存在部分音频的增益小于该门限值，则将该部分音频作为非线性回声进行消除。

然而，在音频中回声的增益大于增益阈值的情况下，若采用相关技术提供的方法，则会将该种回声也作为近端音频进行保留。可见，相关技术提供的方法对回声消除的不够彻底，消除效果较差。

技术实现要素：

本申请实施例提供了一种消除回声的方法、装置、电子设备及可读存储介质，以解决相关技术对回声消除不够彻底、消除效果较差的问题。所述技术方案如下：

一方面，提供了一种消除回声的方法，所述方法包括：

接收至少一个第一音频，按照第一增益阈值对所述第一音频进行回声消除处理，得到处理后的第一音频；

基于所述处理后的第一音频确定回声残留概率，所述回声残留概率用于指示按照所述第一增益阈值进行回声消除处理之后的回声残留程度；

响应于所述回声残留概率大于概率阈值，将所述第一增益阈值增大至第二增益阈值，所述第二增益阈值用于对所述第一音频之后接收到的第二音频进行回声消除处理。

在示例性实施例中，所述将所述第一增益阈值增大至第二增益阈值之后，所述方法还包括：

接收所述第二音频，按照所述第二增益阈值对所述第二音频进行回声消除处理，得到处理后的第二音频；

基于所述处理后的第二音频确定所述第二增益阈值对应的误消除概率；

响应于所述第二增益阈值对应的误消除概率大于所述第一增益阈值对应的误消除概率，将所述第二增益阈值减小至第三增益阈值，所述第三增益阈值用于对所述第二音频之后接收到的其他音频进行回声消除处理，所述第三增益阈值大于所述第一增益阈值。

在示例性实施例中，所述基于所述处理后的第二音频确定所述第二增益阈值对应的误消除概率，包括：

对所述处理后的第二音频进行语义识别，确定被正确识别出语义的处理后的第二音频的第一数量，以及未被正确识别出语义的处理后的第二音频的第二数量；

将所述第一数量与所述第二数量之和作为第三数量，将所述第二数量与所述第三数量的比值作为所述第二增益阈值对应的误消除概率。

在示例性实施例中，所述确定被正确识别出语义的处理后的第二音频的第一数量，以及未被正确识别出语义的处理后的第二音频的第二数量，包括：

对于任一个处理后的第二音频，确定所述任一个处理后的第二音频对应的特征值，所述特征值用于指示识别出正确语义的概率；

响应于所述任一个处理后的第二音频对应的特征值不小于特征阈值，将所述任一个处理后的第二音频作为所述被正确识别出语义的处理后的第二音频。

在示例性实施例中，所述方法还包括：

响应于所述任一个处理后的第二音频对应的特征值小于所述特征阈值，将所述任一个处理后的第二音频作为所述未被正确识别出语义的处理后的第二音频。

在示例性实施例中，所述基于所述处理后的第一音频确定回声残留概率，包括：

对所述处理后的第一音频进行语义识别，确定被正确识别出语义的处理后的第一音频的第四数量；

通过扬声器播放所述被正确识别出语义的处理后的第一音频对应的反馈音频；

基于所述反馈音频接收回声，按照所述第一增益阈值对所述回声进行回声消除处理，得到处理后的回声；

对所述处理后的回声进行语义识别，确定未被正确识别出语义的处理后的回声的第五数量，将所述第五数量与所述第四数量的比值作为所述回声残留概率。

在示例性实施例中，所述接收至少一个第一音频之前，所述方法还包括：

确定扬声器的播放音量；

获取所述扬声器的播放音量对应的第一增益阈值。

一方面，提供了一种消除回声的装置，所述装置包括：

接收模块，用于接收至少一个第一音频，按照第一增益阈值对所述第一音频进行回声消除处理，得到处理后的第一音频；

确定模块，用于基于所述处理后的第一音频确定回声残留概率，所述回声残留概率用于指示按照所述第一增益阈值进行回声消除处理之后的回声残留程度；

增大模块，用于响应于所述回声残留概率大于概率阈值，将所述第一增益阈值增大至第二增益阈值，所述第二增益阈值用于对所述第一音频之后接收到的第二音频进行回声消除处理。

在示例性实施例中，所述装置还包括：减小模块，用于接收所述第二音频，按照所述第二增益阈值对所述第二音频进行回声消除处理，得到处理后的第二音频；基于所述处理后的第二音频确定所述第二增益阈值对应的误消除概率；响应于所述第二增益阈值对应的误消除概率大于所述第一增益阈值对应的误消除概率，将所述第二增益阈值减小至第三增益阈值，所述第三增益阈值用于对所述第二音频之后接收到的其他音频进行回声消除处理，所述第三增益阈值大于所述第一增益阈值。

在示例性实施例中，所述减小模块，用于对所述处理后的第二音频进行语义识别，确定被正确识别出语义的处理后的第二音频的第一数量，以及未被正确识别出语义的处理后的第二音频的第二数量；将所述第一数量与所述第二数量之和作为第三数量，将所述第二数量与所述第三数量的比值作为所述第二增益阈值对应的误消除概率。

在示例性实施例中，所述减小模块，用于对于任一个处理后的第二音频，确定所述任一个处理后的第二音频对应的特征值，所述特征值用于指示识别出正确语义的概率；响应于所述任一个处理后的第二音频对应的特征值不小于特征阈值，将所述任一个处理后的第二音频作为所述被正确识别出语义的处理后的第二音频。

在示例性实施例中，所述减小模块，还用于响应于所述任一个处理后的第二音频对应的特征值小于所述特征阈值，将所述任一个处理后的第二音频作为所述未被正确识别出语义的处理后的第二音频。

在示例性实施例中，所述确定模块，用于对所述处理后的第一音频进行语义识别，确定被正确识别出语义的处理后的第一音频的第四数量；通过扬声器播放所述被正确识别出语义的处理后的第一音频对应的反馈音频；基于所述反馈音频接收回声，按照所述第一增益阈值对所述回声进行回声消除处理，得到处理后的回声；

在示例性实施例中，所述装置还包括：获取模块，用于确定扬声器的播放音量；获取所述扬声器的播放音量对应的第一增益阈值。

一方面，提供了一种电子设备，所述设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现本申请任一种示例性实施例所提供的消除回声的方法。

另一方面，提供了一种可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现本申请任一种示例性实施例所提供的消除回声的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在按照第一增益阈值进行回声消除处理所得到的回声残留概率较大的情况下，将第一增益阈值增大至第二增益阈值，在后续接收到第二音频时改为按照第二增益阈值进行回声消除处理。由于根据回声残留概率对用于回声消除处理的增益阈值进行了及时调整，因而避免了回声残留，使得回声消除的更为彻底。可见，本实施例所提供的方法对回声的消除效果较好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的实施环境示意图；

图2是本申请实施例提供的消除回声的方法的流程图；

图3是本申请实施例提供的消除回声的方法的流程图；

图4是本申请实施例提供的消除回声的装置的结构示意图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种消除回声的方法，该方法可应用于图1所示的实施环境中。图1中，包括音频采集模块101、线性滤波模块102、nlp(non-linearprocessor，非线性处理器)模块103、语音识别模块104以及动态决策模块105。

其中，音频采集模块101用于采集音频，所采集的音频中可能包括用户发出的近端音频、回声以及非线性回声中的至少一种。示例性地，音频采集模块101包括麦克风或者其他采集设备。

线性滤波模块102用于对音频进行线性回声消除处理，从而消除掉音频中的线性回声。因此，经过线性滤波模块102处理的音频中所包括的回声仅为非线性回声。经过线性滤波模块102处理后的音频进一步进入nlp模块103。

nlp模块103用于增益阈值，该增益阈值能够在应用过程中进行动态调整。若音频中存在部分音频的增益小于该增益阈值，则将该部分音频作为非线性回声进行消除。经过nlp模块103处理后的音频进一步进入语音识别模块104。

语音识别模块104用于对音频进行识别，从而得到音频对应的语义。

动态决策模块105用于结合语音识别模块104识别出的音频语义对增益阈值进行调整，以便于nlp模块103根据调整后的增益阈值对后续接收到的音频进行回声消除处理。

基于图1所示的实施环境，本申请实施例提供了一种消除回声的方法，以消除音频中的非线性回声。该方法可应用于包含有图1所示的各模块的电子设备中。如图2所示，该方法包括：

201，接收至少一个第一音频，按照第一增益阈值对第一音频进行回声消除处理，得到处理后的第一音频。

第一音频中往往包含近端音频及回声中的至少一种。其中，近端音频是用户发声所形成的音频，回声是扬声器播放的远端音频经过反射、叠加等过程形成的音频。以车载场景为例，用户对车载系统的唤醒音频为近端音频。唤醒音频是指包含有系统唤醒词的音频。例如，系统唤醒词为“系统你好”，则用户读出“系统你好”的音频即为唤醒音频。另外，扬声器播放的音乐以及tts(texttospeech，文本到语音)为远端音频。车内座椅、内壁以及玻璃等物体对远端音频进行反射，得到多个反射的远端音频，多个反射的远端音频相互叠加形成回声。之后，近端音频及回声叠加形成第一音频，通过麦克风等音频采集设备即可接收到该第一音频。

上述回声中包括线性回声及非线性回声，通过线性自适应滤波器能够消除线性回声。因此，本实施例在接收第一音频之后，首先通过线性自适应滤波器对第一音频中的线性回声进行消除，再按照第一增益阈值对第一音频进行非线性回声的回声消除处理。其中，增益是音频的一种自有属性。按照第一增益阈值对第一音频进行回声消除处理时，将第一音频中增益小于第一增益阈值的那部分音频作为非线性回声进行消除处理，从而将第一音频中增益大于第一增益阈值的那部分音频作为处理后的第一音频。

在扬声器的播放音量不同时，扬声器播放的远端音频的音量也不同，因而反射远端音频得到的回声音量也不同。对于不同音量的回声，在通过线性自适应滤波器进行回声消除处理之后，剩余的非线性回声的增益也有所不同。因此，需要相应的采用不同的第一增益阈值来进行非线性回声的消除处理。由于非线性回声的增益不同是由扬声器的播放音量不同所引起的，因而本实施例中根据扬声器的播放音量进行第一增益阈值的设置。也就是说，在示例性实施例中，接收至少一个第一音频之前，本实施例所提供的方法还包括：确定扬声器的播放音量；获取扬声器的播放音量对应的第一增益阈值。

其中，由于越高音量的远端音频反射得到的回声音量也越高，而通过线性自适应滤波器对越高音量的回声进行线性回声消除之后，剩余的非线性回声的增益也越大，因而本实施例可在扬声器的播放音量越高的情况下，设置越高的第一增益阈值。当然，本实施例不对第一增益阈值的获取方式加以限定。示例性地，本实施例也可以针对所有扬声器的播放音量设置一个统一的第一增益阈值。

需要说明的是，在获取到第一增益阈值之后，本实施例还会通过后续的步骤202及203确定是否需要对第一增益阈值进行调整。对于一次获取第一增益阈值的过程，响应于在该次获取第一增益阈值之前，第一增益阈值还未被调整过，则获取到第一增益阈值即为设置的第一增益阈值。而响应于在该次获取第一增益阈值之前第一增益阈值已经被调整过一次或多次，则获取到的第一增益阈值是最近一次调整后得到的第一增益阈值。可见，对于任一个播放音量对应的第一增益阈值，响应于对该第一增益阈值进行了调整，则需要对调整后的第一增益阈值与播放音量进行对应存储，以便于后续的消除回声过程基于本次调整后的第一增益阈值进行。

示例性地，本实施例记录接收到的第一音频的数量。响应于接收到的第一音频的数量大于数量阈值，再继续执行步骤202及203。由此，能够在第一音频数量较多的情况下通过202确定回声残留概率，从而保证所确定的回声残留概率的准确度，进而保证对第一增益阈值的准确调节。

202，基于处理后的第一音频确定回声残留概率，回声残留概率用于指示按照第一增益阈值进行回声消除处理之后的回声残留程度。

通过确定回声残留概率，便可通过回声残留概率所指示的回声残留程度确定出第一增益阈值的回声消除效果，以便于根据回声消除效果确定是否需要对第一增益阈值进行调整。

在示例性实施例中，基于处理后的第一音频确定回声残留概率，包括：对处理后的第一音频进行语义识别，确定被正确识别出语义的处理后的第一音频的第四数量。通过扬声器播放被正确识别出语义的处理后的第一音频对应的反馈音频。基于反馈音频接收回声，按照第一增益阈值对回声进行回声消除处理，得到处理后的回声。对处理后的回声进行语义识别，确定未被正确识别出语义的处理后的回声的第五数量，将第五数量与第四数量的比值作为回声残留概率。

对于任一个处理后的第一音频，响应于该任一个处理后的第一音频能够被正确识别出语义，则说明按照第一增益阈值进行的回声消除处理对非线性回声消除的较为彻底，因而非线性回声没有对近端音频的语义识别过程造成影响。另外，还说明了该回声消除处理没有对近端音频造成损伤。或者说，该回声消除处理对近端音频造成的损伤程度较为轻微，因而不会影响对近端音频的语义识别过程。因此，响应于得到一个能够被正确识别出语义的处理后的第一音频，则说明按照第一增益阈值成功进行了一次回声消除处理，则第四数量即为按照第一增益阈值成功进行回声消除处理的次数。

将被正确识别出语义的处理后的第一音频的第四数量设置为u，则在未对任一个处理后的第一音频进行语义识别的情况下，u＝0。之后，对各个处理后的第一音频进行语义识别，响应于任一个处理后的第一音频能够被正确识别出语义，则u＝u+1。以此类推，在遍历各个处理后的第一音频之后，所得到的u即为上述第四数量。

进一步地，对于每个被正确识别出语义的处理后的第一音频，本实施例均通过扬声器播放一个反馈音频，该反馈音频为远端音频。以被正确识别出语义的处理后的第一音频为用户对车载系统的唤醒音频“系统你好”为例，则被唤醒的系统会针对唤醒音频进行反馈，例如通过扬声器播放“我在”的反馈音频。由于反馈音频为远端音频，因而该反馈音频经过反射及叠加会形成回声。

之后，按照第一增益阈值对基于反馈音频形成的回声进行回声消除处理，得到处理后的基于反馈音频形成的回声。需要说明的是，在接收基于反馈音频形成的回声的过程中，还可能接收到其他音频。以车载场景为例，其他音频包括但不限于车内用户自由交谈产生的音频。本实施例也会对其他音频按照第一增益阈值进行回声消除处理，从而得到处理后的其他回声。因此，上述处理后的回声包括处理后的基于反馈音频形成的回声，以及处理后的其他回声。

在对处理后的回声进行语义识别时，响应于处理后的回声能够触发语义识别，则说明按照第一增益阈值进行的回声消除过程并未彻底消除上述两种回声。否则，处理后的回声实际上应为空白音频，无法触发语义识别。在处理后的回声能够触发语义识别的情况下，仅有处理后的其他回声能够正确识别出语义，而处理后的基于反馈音频形成的回声虽然能够触发语义识别，但并不能够被正确识别出语义。

因此，响应于存在一个未被正确识别出语义的处理后的回声，则说明按照第一增益阈值进行的回声消除存在一次残留，则第五数量即为按照第一增益阈值进行回声消除造成回声残留的次数。

以未被正确识别出语义的处理后的回声的第五数量为k为例，在未进行统计之前，k＝0。之后，依次确定各个处理后的回声能否被正确识别出语义。响应于一个处理后的回声触发了语义识别但未能正确识别出语义，则k＝k+1。以此类推，在遍历各个处理后的回声之后，所得到的k即为上述第五数量。

之后，将第五数量与第四数量的比值作为回声残留概率，该回声残留概率即为按照第一增益阈值进行回声消除处理导致回声残留的次数与按照第一增益阈值成功进行回声消除的次数。由于第四数量表示为u，第五数量表示为k，因而回声残留概率

203，响应于回声残留概率大于概率阈值，将第一增益阈值增大至第二增益阈值，第二增益阈值用于对第一音频之后接收到的第二音频进行回声消除处理。

其中，参见图3，响应于回声残留概率不大于概率阈值，则说明按照第一增益阈值进行回声消除导致回声残留的可能性较小，因而后续接收到第二音频之后，可以继续按照第一增益阈值消除第二音频中的非线性回声。而响应于回声残留概率大于第一概率阈值，则说明采用第一增益阈值进行回声消除导致回声残留的可能性较大，因而第一增益阈值不适用于对第一音频进行回声消除。如前所述，按照第一增益阈值进行回声消除时，是将回声中增益小于该第一增益阈值的部分音频进行了消除。在回声残留的可能性较大的情况下，则说明回声中大部分音频的增益均高于该第一增益阈值，因而才使得回声中大部分音频未被消除掉。因此，需要将第一增益阈值增大至第二增益阈值，以便于后续根据第二增益阈值能够消除掉更多回声。

示例性地，参见图3，本实施例将第一增益阈值表示为λ1，则对第一增益阈值进行调整得到的第二阈值表示为λ2＝λ1+α。其中，α是根据经验或实际需要设置的数值，且α为正数。

示例性地，在调整得到第二增益阈值之后，本实施例便能够基于第二增益阈值对第一音频之后接收到的第二音频进行回声消除处理。相比于相关技术中直接根据第一增益阈值进行回声消除的方法，本实施例通过回声残留概率对第一增益阈值进行调整，避免了目标音频中近端信号增益小于回声增益所导致的回声消除不够彻底、消除效果较差的情况。

进一步地，由于第二增益阈值大于第一增益阈值，因而采用第二增益阈值更有可能会造成第二音频中近端信号的损伤。在近端信号受损的情况下，会降低语音识别的准确率。因此，在确定出第二增益阈值之后，还需要根据第二增益阈值对应的误消除概率，来确定是否需要对第二增益阈值进行调节。也就是说，在示例性实施例中，将第一增益阈值增大至第二增益阈值之后，包括如下所示的过程。

2031，接收第二音频，按照第二增益阈值对第二音频进行回声消除处理，得到处理后的第二音频。

其中，接收第二音频及对第二音频进行回声消除处理的过程可参见上文201中的说明，此处不再加以赘述。

2032，基于处理后的第二音频确定第二增益阈值对应的误消除概率。

其中，第二增益阈值对应的误消除概率是指第二增益阈值将近端音频作为回声进行消除的概率，或者说第二增益阈值对近端音频造成损伤的概率。在示例性实施例中，确定第二增益阈值对应的误消除概率，包括：

对处理后的第二音频进行语义识别，确定被正确识别出语义的处理后的第二音频的第一数量，以及未被正确识别出语义的处理后的第二音频的第二数量。将第一数量与第二数量之和作为第三数量，将第二数量与第三数量的比值作为误消除概率。

确定被正确识别出语义的处理后的第二音频的第一数量的过程包括：对于任一个处理后的第二音频，确定任一个处理后的第二音频对应的特征值，特征值用于指示识别出正确语义的概率。响应于任一个处理后的第二音频对应的特征值不小于特征阈值，将任一个处理后的第二音频作为被正确识别出语义的处理后的第二音频。相应地，响应于任一个处理后的第二音频对应的特征值小于特征阈值，将任一个处理后的第二音频作为未被正确识别出语义的处理后的第二音频。

其中，对于任一个处理后的第二音频进行语义识别时，除了输出处理后的第二音频的语义识别结果，还会输出该语义识别结果为正确结果的概率，这一概率即为上述特征值。响应于特征值不小于特征阈值，则说明处理后的第二音频被识别出正确语义的概率较大，因而能够将该处理后的第二音频作为被正确识别出语义的处理后的第二音频。之后，便能够将该被正确识别出语义的处理后的第二音频的数量记录为第一数量。

当然，响应于特征值小于特征阈值，则说明处理后的第二音频被识别出正确语义的概率较小，因而能够将该处理后的第二音频作为未能被正确识别出语义的处理后的第二音频。之后，便能够将该未被正确识别出语义的处理后的第二音频的数量记录为第二数量。

示例性地，本实施例除了将特征值小于特征阈值的处理后的第二音频作为未被正确识别出语义的处理后的第二音频以外，还可以将特征值小于特征阈值且大于特征值下限的处理后的第二音频作为未被正确识别出语义的处理后的第二音频。其原因在于，对于特征值小于特征值下限的处理后的第二音频，由于被识别出正确语义的概率较小，因而可以将此种处理后的第二音频作为误差较大的音频。因此，为避免影响误消除概率的确定，对此种特征值小于特征值下限的处理后的第二音频进行忽略，而仅将特征值小于特征阈值且大于特征值下限的处理后的第二音频作为未被正确识别出语义的处理后的第二音频。

将未被正确识别出语义的处理后的第二音频的第二数量设置为v，则在未对处理后的第二音频进行语义识别的情况下，v＝0。之后，依次对各个处理后的第二音频进行语义识别，响应于一个处理后的第二音频为未被正确识别出语义的处理后的第二音频，则v＝v+1。以此类推，在遍历各个处理后的第二音频之后，所得到的v即为上述第二数量。

另外，将被正确识别出语义的处理后的第二音频的第一数量设置为m，则对第一数量及第二数量作和得到的第三数量表示为(m+v)。之后，将第二数量与第三数量的比值作为第二增益阈值对应的误消除率。将第二增益阈值对应的误消除率表示为δ1，则δ1＝v/(m+v)。

2033，响应于第二增益阈值对应的误消除概率大于第一增益阈值对应的误消除概率，将第二增益阈值减小至第三增益阈值，第三增益阈值用于对第二音频之后接收到的其他音频进行回声消除处理，第三增益阈值大于第一增益阈值。

参见图3，响应于第二增益阈值对应的误消除概率不大于第一增益阈值对应的误消除概率，则说明将第一增益阈值调整至第二增益阈值之后，并未加重对近端音频的损伤程度，因而后续接收到第三音频之后，继续按照第二增益阈值消除第三音频中的非线性回声即可。响应于误消除概率大于第一增益阈值对应的误消除概率，则说明按照第二增益阈值进行回声消除会对近端音频造成较大的损伤，因而需要将第二增益阈值减小至的第三增益阈值。相应地，需要按照第三增益阈值对后续接收到的第三音频进行非线性回声的消除，从而减轻对近端音频的损伤。

其中，获取第一增益阈值对应的误消除概率的过程可参见2032中的说明，此处不再加以赘述。第一增益阈值对应的误消除概率δ2＝n/(u+n)。u为上述说明中的第四数量，n为未被正确识别出语义的处理后的第一音频的数量。因此，响应于第二增益阈值对应的误消除概率δ1＞δ2，则说明将第一增益阈值增大至第二增益阈值之后，加重了对近端信号的损伤，因而需要将第二增益阈值减小为第三增益阈值。示例性地，参见图3，第二增益阈值表示为λ2，则对第二增益阈值减小得到的第三增益阈值表示为λ3＝λ2+β。其中，β是根据经验或实际需要设置的数值。当然，第三增益阈值是大于第一增益阈值的数值，以避免影响到对回声的消除效果。

需要说明的是，由于第一增益阈值时根据扬声器的播放音量确定的，因而在将第一增益阈值调整为第二增益阈值或者第三增益阈值之后，需要对调整得到的第二增益阈值或第三增益阈值与扬声器的播放音量对应存储。响应于后续回声消除过程中还需要对增益阈值进行调整，则是基于本次调整得到的第二增益阈值或第三增益阈值进行调整。相应地，还需要将上述调整过程中使用的第二数量v、第一数量m、第四数量u、第五数量k以及未被正确识别出语义的处理后的第一音频的数量n归零，以便于后续调整过程中再次使用。

综上所述，本申请实施例在按照第一增益阈值进行回声消除处理所得到的回声残留概率较大的情况下，将第一增益阈值增大至第二增益阈值，在后续接收到第二音频时改为按照第二增益阈值进行回声消除处理。由于根据回声残留概率对用于回声消除处理的增益阈值进行了及时调整，因而避免了回声残留，使得回声消除的更为彻底。可见，本实施例所提供的方法对回声的消除效果较好。

本申请实施例提供了一种消除回声的装置，参见图4，该装置包括：

接收模块，用于接收至少一个第一音频，按照第一增益阈值对第一音频进行回声消除处理，得到处理后的第一音频；

确定模块，用于基于处理后的第一音频确定回声残留概率，回声残留概率用于指示按照第一增益阈值进行回声消除处理之后的回声残留程度；

增大模块，用于响应于回声残留概率大于概率阈值，将第一增益阈值增大至第二增益阈值，第二增益阈值用于对第一音频之后接收到的第二音频进行回声消除处理。

在示例性实施例中，装置还包括：减小模块，用于接收第二音频，按照第二增益阈值对第二音频进行回声消除处理，得到处理后的第二音频；基于处理后的第二音频确定第二增益阈值对应的误消除概率；响应于第二增益阈值对应的误消除概率大于第一增益阈值对应的误消除概率，将第二增益阈值减小至第三增益阈值，第三增益阈值用于对第二音频之后接收到的其他音频进行回声消除处理，第三增益阈值大于第一增益阈值。

在示例性实施例中，减小模块，用于对处理后的第二音频进行语义识别，确定被正确识别出语义的处理后的第二音频的第一数量，以及未被正确识别出语义的处理后的第二音频的第二数量；将第一数量与第二数量之和作为第三数量，将第二数量与第三数量的比值作为第二增益阈值对应的误消除概率。

在示例性实施例中，减小模块，用于对于任一个处理后的第二音频，确定任一个处理后的第二音频对应的特征值，特征值用于指示识别出正确语义的概率；响应于任一个处理后的第二音频对应的特征值不小于特征阈值，将任一个处理后的第二音频作为被正确识别出语义的处理后的第二音频。

在示例性实施例中，减小模块，还用于响应于任一个处理后的第二音频对应的特征值小于特征阈值，将任一个处理后的第二音频作为未被正确识别出语义的处理后的第二音频。

在示例性实施例中，确定模块，用于对处理后的第一音频进行语义识别，确定被正确识别出语义的处理后的第一音频的第四数量；通过扬声器播放被正确识别出语义的处理后的第一音频对应的反馈音频；基于反馈音频接收回声，按照第一增益阈值对回声进行回声消除处理，得到处理后的回声；

对处理后的回声进行语义识别，确定未被正确识别出语义的处理后的回声的第五数量，将第五数量与第四数量的比值作为回声残留概率。

在示例性实施例中，装置还包括：获取模块，用于确定扬声器的播放音量；获取扬声器的播放音量对应的第一增益阈值。

参见图5，其示出了本申请实施例提供的一种消除回声的电子设备500的结构示意图。该电子设备500可以是便携式移动终端，比如：智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、5核心处理器等。处理器501可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的消除回声的方法。

在一些实施例中，电子设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、触摸显示屏505、摄像头505、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射rf(radiofrequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括nfc(nearfieldcommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示ui(userinterface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置电子设备500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在电子设备500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在电子设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用lcd(liquidcrystaldisplay，液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位电子设备500的当前地理位置，以实现导航或lbs(locationbasedservice，基于位置的服务)。定位组件508可以是基于美国的gps(globalpositioningsystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为电子设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器510可以检测以电子设备500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测电子设备500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对电子设备500的3d动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在电子设备500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在电子设备500的侧边框时，可以检测用户对电子设备500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时，由处理器501根据用户对触摸显示屏505的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置电子设备500的正面、背面或侧面。当电子设备500上设置有物理按键或厂商logo时，指纹传感器514可以与物理按键或厂商logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制触摸显示屏505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏505的显示亮度；当环境光强度较低时，调低触摸显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在电子设备500的前面板。接近传感器516用于采集用户与电子设备500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变小时，由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变大时，由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对电子设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例提供了一种电子设备，电子设备包括存储器及处理器；存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现本申请任一种示例性实施例所提供的消除回声的方法。

本申请实施例提供了一种可读存储介质，其特征在于，存储介质中存储有至少一条指令，指令由处理器加载并执行以实现本申请任一种示例性实施例所提供的消除回声的方法。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。