音频处理方法、装置、电子设备及可读存储介质与流程

2021-01-28 14:01:54|

255|

起点商标网

本发明涉及音频处理技术领域，具体而言，涉及一种音频处理方法、装置、电子设备及可读存储介质。

背景技术：

在计算机领域中，对于需要进行语音交互的场景，语音的解析的准确性为语音交互中的一个重要环节。若设备对语音的解析不准确，便会影响语音交互。目前，在语音解析过程中，用户的语音容易受环境干扰，从而使得采集的音频数据的噪音分量多，影响语音解析的准确性。

技术实现要素：

本申请提供一种音频处理方法、装置、电子设备及可读存储介质，能够改善采集的音频数据的噪音多的问题，有利于提高语音解析的准确性。

为了实现上述目的，本申请实施例所提供的技术方案如下所示：

第一方面，本申请实施例提供一种音频处理方法，应用于电子设备，所述电子设备包括音频采集模块、扬声器、音频主板模块、音频处理模块，所述方法包括：

通过所述音频主板模块获取输入至所述扬声器的第一音频数据，以及通过所述音频采集模块采集得到第二音频数据；

通过所述音频处理模块，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到目标音频数据，所述目标音频分量与所述第一音频数据中的至少部分音频分量相同。

在上述的实施方式中，通过利用音频处理模块，对采集的第二音频数据中与扬声器输出的第一音频数据中相同的音频分量进行滤除，可以以硬件降噪的方式降低采集得到的第二音频数据中的回音，提高目标音频数据的质量。由于目标音频数据中，消除了回音，从而有利于提高语音解析的准确度。

结合第一方面，在一些可选的实施方式中，通过所述音频主板模块获取输入至所述扬声器的第一音频数据，以及通过所述音频采集模块采集得到第二音频数据，包括：

在接收到用于语音处理的操作指令的预设时长内，通过所述音频主板模块获取输入至所述扬声器的第一音频数据，以及通过所述音频采集模块采集得到第二音频数据。

在上述的实施方式中，通过在预设时长内，获取相应的音频数据，无需长期持续地获取音频数据，如此，有利于降低能耗。

结合第一方面，在一些可选的实施方式中，所述音频采集模块包括定向麦克风阵列，所述第二音频数据包括与所述定向麦克风阵列中的每个麦克风单元对应的语音信号；

通过所述音频处理模块，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到目标音频数据，包括：

通过所述音频处理模块中的比较电路，从每路语音信号的音频分量中确定并滤除目标音频分量，得到经过滤除的语音信号；

将每路所述经过滤除的语音信号进行合成，得到所述目标音频数据。

通过所述音频处理模块，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到目标音频数据，包括：

将每路语音信号进行合成，得到经过合成的语音信号；

通过所述音频处理模块中的比较电路，从所述经过合成的语音信号的音频分量中确定并滤除目标音频分量，得到所述目标音频数据。

结合第一方面，在一些可选的实施方式中，通过所述音频处理模块，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到目标音频数据，包括：

通过所述音频处理模块中的比较电路，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到经过滤除的第二音频数据；

通过所述音频主板模块基于滤波器，对所述经过滤除的第二音频数据进行降噪处理，得到所述目标音频数据。

结合第一方面，在一些可选的实施方式中，所述方法还包括：

通过语音识别算法对目标音频数据进行解析；

当所述目标音频数据表征指定操作指令时，通过所述电子设备执行与所述指定操作指令对应的操作。

在上述的实施方式中，由于目标音频数据中消除了回音，在进行语音解析时，有利于提高语音解析的准确度。

第二方面，本申请实施还提供一种音频处理装置，应用于电子设备，所述电子设备包括音频采集模块、扬声器、音频主板模块、音频处理模块，所述装置包括：

音频获取单元，用于通过所述音频主板模块获取输入至所述扬声器的第一音频数据，以及通过所述音频采集模块采集得到第二音频数据；

降噪单元，用于通过所述音频处理模块，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到目标音频数据，所述目标音频分量与所述第一音频数据中的至少部分音频分量相同。

第三方面，本申请实施还提供一种电子设备，所述电子设备包括音频采集模块、扬声器、音频主板模块、音频处理模块及存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述音频主板模块及所述音频处理模块执行时，使得所述电子设备执行上述的方法。

结合第三方面，在一些可选的实施方式中，所述电子设备包括广告机。

第四方面，本申请实施还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的结构示意图。

图2为本申请实施例提供的广告机的结构示意图。

图3为本申请实施例提供的音频处理方法的流程示意图。

图4为本申请实施例提供的音频处理装置的框图。

图标：10-电子设备；11-音频采集模块；12-扬声器；13-音频主板模块；14-音频处理模块；200-音频处理装置；210-音频获取单元；220-降噪单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本申请实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，本申请实施例提供一种电子设备10，可以用于对输入的音频数据进行降噪处理，以提高所采集的音频数据的质量，进而有利于提高对音频数据进行语音解析的准确性。

在本实施例中，电子设备10可以包括音频采集模块11、扬声器12、音频主板模块13、音频处理模块14及存储器。存储器中存储有计算机程序，当计算机程序被音频主板模块13及音频处理模块14执行时，使得电子设备10能够执行下述音频处理方法中的各步骤。

在本实施例中，存储器可以集成在音频处理模块14中，或者集成在音频主板模块13中，或者存储器为独立于音频处理模块14和音频主板模块13的器件。存储器可以用于存储滤波器、语音识别算法等。

音频采集模块11可以为一个或多个麦克风，可以用于采集用户的语音，以得到相应的音频数据。当音频采集模块11为多个麦克风形成的麦克风阵列时，音频采集模块11可以为定向麦克风阵列。其中，定向麦克风阵列中所包括的麦克风单元的数量可以根据实际情况进行确定，例如，麦克风单元的数量可以为2个、4个、6个等数量。

可理解地，当声音的传播方向与定向麦克风阵列的采集方向相同时，定向麦克风具有较好的声音采集效果。当声音的传播方向与定向麦克风阵列的采集方向不相同时，定向麦克风阵列具有较好的声音抑制效果。即，定向麦克风阵列可以对采集方向上的语音信号进行保留，定向采集声音信号，有效抑制非采集方向的声音信号以达到所需要的音频效果，从而提高所采集的音频数据的质量，降低噪声。其中，定向麦克风阵列的采集方向即为定向麦克风阵列中麦克风单元的朝向。

电子设备10中扬声器12的数量可以为一个或多个。扬声器12的数量可以根据实际情况进行设置，这里不作具体限定。其中，扬声器12可以用于根据音频数据发出声音，以便于用户根据声音提示进行相应的语音交互。

音频主板模块13，可以向扬声器12输出音频数据，以控制扬声器12发出声音。另外，音频主板模块13还可以获取输出至扬声器12的音频数据，以便于利用输出至扬声器12的音频数据，对采集的音频数据进行回音降噪处理。另外，音频主板模块13还可以通过滤波器，对采集的音频数据进行降噪处理，以提高降噪后的音频数据的质量。其中，音频主板模块13可以根据实际情况进行选择，例如，音频主板模块13可以是但不限于swh5190主板。

音频处理模块14具有比较电路，比较电路可以用于对音频分量进行比对，并消除相同的音频分量。音频处理模块14可以根据实际情况进行选择，只要具有用于音频分量比较的比较电路，且可以对相同音频分量进行滤除即可。例如，音频处理模块14可以是但不限于ac108语音处理板。

电子设备10可以是但不限于广告机，智能手机等，可以用于语音交互的设备。

请参照图2，当电子设备10为广告机时，广告机还可以包括显示屏、摄像头等器件。其中，音频采集模块11可以为定向麦克风阵列。对于立式广告机，广告机的高度通常超过1米，此时，阵列麦克风可以设置在指定的高度范围内，例如，指定高度范围可以在580毫米至600毫米之间，且单向麦克风阵列的采集方向为水平方向向上的夹角，该夹角可以在指定范围中。例如，阵列麦克风的采集方向为水平方向向上20°±1°，此时，单向麦克风阵列采集的音频效果较好。

请参照图3，本申请实施例还提供一种音频处理方法，可以应用于上述的电子设备中，由电子设备执行或实现方法中的各步骤。方法可以包括以下步骤：

步骤s110，通过所述音频主板模块获取输入至所述扬声器的第一音频数据，以及通过所述音频采集模块采集得到第二音频数据；

步骤s120，通过所述音频处理模块，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到目标音频数据，所述目标音频分量与所述第一音频数据中的至少部分音频分量相同。

下面将对方法中的各步骤进行详细阐述，如下：

在步骤s110中，输入至扬声器的音频数据用于控制扬声器发出相应的声音。输入至扬声器的音频数据通常由音频主板模块提供，因此，音频主板模块可以获取到输入至扬声器的音频数据，以作为第一音频数据。音频采集模块可以采集外界的声音，以作为第二音频数据。第二音频数据包括但不限于外界的噪声分量、目标用户的语音分量、扬声器发出的声音等。

在步骤s120中，音频处理模块可以从音频采集模块获取到第二音频数据，另外，还可以从音频主板模块获取到第一音频数据。音频处理模块可以通过硬件电路，对第一音频数据、第二音频数据中的音频分量进行比对。

例如，音频处理模块可以自动检测到第一音频数据和第二音频数据中相同的音频分量。另外，音频处理模块还可以滤除第二音频数据中与第一音频数据相同的音频分量。其中，相同的音频分量可理解为频率相同的音频分量，通常为喇叭发出的声音形成的回音。基于此，通过消除相同的音频分量，可以从第二音频数据中消除回音，以得到目标音频数据。由于所得到的的目标音频数据中，消除了回音，从而有利于后续音频的解析，有利于提高音频解析的准确性。

作为一种可选的实施方式，步骤s110可以包括：

在本实施例中，操作指令通常为用户通过操作电子设备触发生成的指令。例如，电子设备可以包括触控屏，当用户需要与电子设备进行语音交互时，可以通过触发触控屏上相应的虚拟按键，然后由电子设备基于用户的操作，生成操作指令。

另外，预设时长可以根据实际情况进行确定。例如，可以为30秒、60秒等较短时长。通过在预设时长内，获取相应的音频数据，无需长期持续地获取音频数据，如此，有利于降低电子设备的能耗。

作为一种可选的实施方式，当音频采集模块为定向麦克风阵列时，第二音频数据包括与定向麦克风阵列中的每个麦克风单元对应的语音信号。步骤s120可以包括：

通过所述音频处理模块中的比较电路，从每路语音信号的音频分量中确定并滤除目标音频分量，得到经过滤除的语音信号；

将每路所述经过滤除的语音信号进行合成，得到所述目标音频数据。

在本实施例中，定向麦克风阵列中的每个麦克风单元可以具有独立可编程麦克风偏置电压和麦克风升压放大器的同步模数转换器(analogue-to-digitalconversion，adc)，以提供有效的通道数据，从而可以消除通道串扰。每个麦克风单元对应的通道中，可以提供独立的数字语音控制器，以便于对每个麦克风单元采集的语音信号进行独立分级降噪处理。其中，语音信号即为单个麦克风单元采集用户的语音得到的语音数据。

在进行回音消除处理时，音频处理模块中的比较电路可以将每路语音信号与第一音频数据进行识别比对，并消除每路音频数据中与第一音频数据相同的音频分量，如此，可以以硬件的方式对每路语音信号消除回音。其中，通过多个麦克风单元采集语音，能够提高所采集的语音数据的质量。

消除回音后的语音信号可以通过语音处理模块或其他模块进行合成，以得到目标音频数据。其中，合成目标音频数据的方式为本领域技术人员所熟知，这里不再赘述。

将每路语音信号进行合成，得到经过合成的语音信号；

通过所述音频处理模块中的比较电路，从所述经过合成的语音信号的音频分量中确定并滤除目标音频分量，得到所述目标音频数据。

在本实施例中，电子设备可以通过语音处理模块或其他模块，对每路语音信号进行合成，然后在对合成后的语音信号进行回音消除。即，利用音频处理模块中的比较电路，对合成后的语音信号与第一音频数据进行分析比对，滤除合成后语音信号中与第一音频数据相同的音频分量。其中，通过多个麦克风单元采集语音，能够提高所采集的语音数据的质量。

作为一种可选的实施方式，方法还可以包括：

通过所述音频处理模块中的比较电路，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到经过滤除的第二音频数据；

通过所述音频主板模块基于滤波器，对所述经过滤除的第二音频数据进行降噪处理，得到所述目标音频数据。

在本实施例中，在对第二音频数据进行回音消除后，还可以通过音频主板模块，对消除回音后的第二音频数据进行降噪处理，以进一步提高所得到的第二音频数据的质量。其中，音频主板模块中的滤波器可以根据实际情况进行选择，包括但不限于lms(leastmeansquare，最小均方演算法)自适应滤波器。

作为一种可选的实施方式，方法还可以包括：

通过语音识别算法对目标音频数据进行解析；

当所述目标音频数据表征指定操作指令时，通过所述电子设备执行与所述指定操作指令对应的操作。

在本实施例中，语音识别算法可以用于判断目标音频数据对应的内容是否与语音指令库中的指令匹配。其中，语音指令库可以包括多种语音指令，可以根据实际情况进行设置，用于控制电子设备执行相应的指定操作。其中，指定操作可以根据实际情况进行确定。例如，语音指令库可以包括用于触发导航操作的语音指令、用于控制电子设备查询用户需要查找的位置的语音指令等。语音指令可以以文本的形式，或语音的形式存储与数据库中。

语音识别算法可以将目标音频数据转换为文本内容，然后判断语音指令库中是否存在与文本内容相同或相近的文本。若存在相同或相近的文本，便确定语音指令库中存在与目标音频数据匹配的语音指令。或者，语音识别算法可以通过比对目标音频数据对应的声谱数据、语音指令的语音对应的声谱数据，通过声谱的相似程度，来确定语音指令库中是否存在与目标音频数据匹配的语音指令。若语音指令库中，存在与目标音频数据的声谱数据的最大相似度超过设定值的语音指令，则确定语音指令库中存在与目标音频数据匹配的语音指令，所匹配的语音指令即为最大相似度的声谱数据对应的语音指令。

通过语音识别算法，可以对目标音频数据进行解析，由于目标音频数据中消除了回音，经过了降噪处理，在进行语音解析时，有利于提高语音解析的准确度。

需要说明的是，语音识别算法为本领域技术人员所熟知，这里不再赘述。

请参照图4，本申请实施例还提供一种音频处理装置200，可以应用于上述的电子设备中，用于执行或实现方法中的各步骤。音频处理装置200包括至少一个可以软件或固件(firmware)的形式存储于存储模块中或固化在电子设备操作系统(operatingsystem，os)中的软件功能模块。处理模块用于执行存储模块中存储的可执行模块，例如音频处理装置200所包括的软件功能模块及计算机程序等。

在本实施例中，音频处理装置200可以包括音频采集单元及降噪单元220，执行的操作内容可以如下：

音频获取单元210，用于通过所述音频主板模块获取输入至所述扬声器的第一音频数据，以及通过所述音频采集模块采集得到第二音频数据；

降噪单元220，用于通过所述音频处理模块，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到目标音频数据，所述目标音频分量与所述第一音频数据中的至少部分音频分量相同。

可选地，音频获取单元210，还可以用于在接收到用于语音处理的操作指令的预设时长内，通过所述音频主板模块获取输入至所述扬声器的第一音频数据，以及通过所述音频采集模块采集得到第二音频数据。

可选地，音频采集模块包括定向麦克风阵列，所述第二音频数据包括与所述定向麦克风阵列中的每个麦克风单元对应的语音信号。降噪单元220还可以用于：通过所述音频处理模块中的比较电路，从每路语音信号的音频分量中确定并滤除目标音频分量，得到经过滤除的语音信号；将每路所述经过滤除的语音信号进行合成，得到所述目标音频数据。

可选地，降噪单元220还可以用于：将每路语音信号进行合成，得到经过合成的语音信号；通过所述音频处理模块中的比较电路，从所述经过合成的语音信号的音频分量中确定并滤除目标音频分量，得到所述目标音频数据。

可选地，降噪单元220还可以用于：通过所述音频处理模块中的比较电路，从所述第二音频数据的音频分量中确定并滤除目标音频分量，得到经过滤除的第二音频数据；通过所述音频主板模块基于滤波器，对所述经过滤除的第二音频数据进行降噪处理，得到所述目标音频数据。

可选地，音频处理装置200还可以包括音频解析单元和执行单元。音频解析单元用于通过语音识别算法对目标音频数据进行解析；执行单元用于当所述目标音频数据表征指定操作指令时，通过所述电子设备执行与所述指定操作指令对应的操作。

处理模块可以是一种集成电路芯片，具有信号的处理能力。上述处理模块可以是通用处理器。例如，该处理器可以是中央处理器(centralprocessingunit，cpu)、图形处理器(graphicsprocessingunit，gpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field－programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

通信模块用于通过网络建立电子设备与订单管理服务器及业务处理服务器的通信连接，并通过网络收发数据。

存储模块可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除可编程只读存储器，电可擦除可编程只读存储器等。在本实施例中，存储模块可以用于存储音频数据。当然，存储模块还可以用于存储程序，处理模块在接收到执行指令后，执行该程序。

可以理解的是，图1所示的结构仅为电子设备的一种结构示意图，电子设备还可以包括比图1所示更多的组件。图1中所示的各组件可以采用硬件、软件或其组合实现。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备、音频处理装置200的具体工作过程，可以参考前述方法中的各步骤对应过程，在此不再过多赘述。

本申请实施例还提供一种计算机可读存储介质。可读存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如上述实施例中所述的音频处理方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

综上所述，本申请提供一种音频处理方法、装置、电子设备及可读存储介质。方法包括：通过音频主板模块获取扬声器输出的第一音频数据，以及通过音频采集模块采集得到第二音频数据；通过音频处理模块，从第二音频数据的音频分量中确定并滤除目标音频分量，得到目标音频数据，目标音频分量与第一音频数据中的至少部分音频分量相同。在本方案中，通过利用音频处理模块，对采集的第二音频数据中与扬声器输出的第一音频数据中相同的音频分量进行滤除，可以以硬件降噪的方式降低采集得到的第二音频数据中的回音，提高目标音频数据的质量。由于目标音频数据中，消除了回音，从而有利于提高语音解析的准确度。

在本申请所提供的实施例中，应该理解到，所揭露的装置、系统和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。