拾音控制方法、装置、系统、设备和介质与流程

2021-01-28 13:01:47|

294|

起点商标网

本申请一般涉及语音识别技术领域，具体涉及一种拾音控制方法、装置、设备和介质。

背景技术：

随着人工智能技术的发展，智能语音技术已经被广泛的应用于各种科技产品中，例如，智能语音家具、智能机器人和智能播放设备等。

智能语音设备通常可以将获取的语音信号进行处理以识别语音内容，并控制智能语音设备执行与语音内容相关的操作。

通常情况下，智能语音设备会在不同的环境中工作，当智能语音设备工作在安静环境时，用户若压低声音唤醒该语音设备，可能会导致用户无法唤醒该语音设备，或者语音设备识别出错误的语音内容，智能语音设备拾音能力和质量受环境影响大，影响用户的使用体验。

技术实现要素：

鉴于现有技术中的上述缺陷或不足，期望提供一种可以降低环境因素对应拾音能力和质量的影响的拾音控制方法、装置、系统、设备和介质。

第一方面，本申请提供了一种拾音控制方法，包括：

监测麦克风周围的环境噪声信号；

基于环境噪声信号的噪声声压调整麦克风的灵敏度；

接收麦克风采集的语音信号；

确定与噪声声压对应的降噪模型；

利用降噪模型确定语音信号的语音内容。

第二方面，本申请提供了一种拾音控制装置，包括：

监测模块，被配置为监测麦克风周围的环境噪声信号；

调整模块，被配置为基于环境噪声信号的噪声声压调整麦克风的灵敏度；

接收模块，还被配置为接收麦克风采集的语音信号；

确定模块，被配置为确定与噪声声压对应的降噪模型；

确定模块，还被配置为利用降噪模型确定语音信号的语音内容。

第三方面，本申请提供了一种拾音控制系统，包括：至少一个麦克风和主控设备，麦克风与主控设备连接，

麦克风，用于采集麦克风周围的环境噪声生成环境噪声信号，将环境噪声信号发送给主控设备；

主控设备，用于接收环境噪声信号，根据第一方面的拾音控制方法获取语音信号的内容，并执行与语音内容对应的操作。

第四方面，本申请提供了一种计算机设备，计算机设备包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序，处理器用于执行程序时实现如第一方面的方法；

第五方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序用于实现如第一方面的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请实施例提供的拾音控制方法、装置、系统、设备和介质，可以监测麦克风周围的环境噪声信号；基于环境噪声信号的噪声声压调整麦克风的灵敏度；接收麦克风采集的语音信号；确定与噪声声压对应的降噪模型；利用降噪模型确定语音信号的语音内容。可以基于环境噪声调节麦克风灵敏度，降低环境噪声对麦克风拾音能力的影响，并根据环境噪声的高低程度不同，有针对性的选择与当前噪声环境对应的降噪模型对应语音信号中的环境噪声进行处理，以提高最终识别到的语音内容的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的一种拾音控制系统的结构示意图；

图2为本申请实施例提供的一种拾音控制方法的流程示意图；

图3为本申请实施例提供的另一种拾音控制方法的流程示意图；

图4为本申请实施例提供的一种拾音控制装置的结构示意图；

图5为本申请实施例提供的另一种拾音控制装置的结构示意图；

图6为本申请实施例提供的一种拾音控制设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是本申请实施例提供的一种拾音控制系统的结构示意图，如图1所示，该拾音控制系统包括：至少一个麦克风110和主控设备120。

其中，在该系统处于上电状态后，麦克风110可以实时的采集麦克风周围的环境噪声生成环境噪声信号，将该环境噪声信号发送给主控设备120，该环境噪声信号可以是麦克风110所处环境空间的家电设备产生的噪声信号、汽车经过时发出的噪声信号和/或施工的噪声信号，但并不限于此。

主控设备120可以接收麦克风发送的音频信号，并确定该环境噪声信号的噪声声压，基于该环境噪声信号的噪声声压调整麦克风的灵敏度，且可以接收麦克风采集的语音信号；确定与噪声声压对应的降噪模型；利用降噪模型确定语音信号的语音内容，并执行与语音内容对应的操作。

其中，该麦克风110与主控设备120可以通过有线网或者无线网建立连接，该麦克风110可以是动圈麦克风、履带麦克风或者电容麦克风，该主控设备120为具有数据存储与处理功能的终端设备或者服务器等。

可以理解的是，该拾音控制系统，也可以集成为一种拾音控制设备，包括：至少一个麦克风和主控模块，该麦克风用于采集麦克风周围的环境噪声生成环境噪声信号，将环境噪声信号发送给主控模块。

该主控模块，用于接收环境噪声信号，基于环境噪声信号的噪声声压调整麦克风的灵敏度；且可以接收麦克风获取的语音信号；确定与噪声声压对应的降噪模型；利用降噪模型确定语音信号的语音内容，并控制该拾音控制设备执行与语音内容对应的操作。例如，该拾音控制设备可以是扫地机器人或者智能播放设备等。

本申请实施例一种拾音控制方法，该方法可以应用于上述主控设备或者主控模块中，本申请实施例以该方法应用于主控设备中为例，对该方法进行说明，该方法应用于主控模块的过程可以参考该过程，本申请实施例对此不做赘述，如图2所示，当该方法应用于主控设备中时，该方法包括：

步骤201、监测麦克风周围的环境噪声信号。

在本步骤中，拾音控制系统上电后，麦克风可以实时采集麦克风周围的环境噪声生成环境噪声信号，将该环境噪声信号发送给主控设备，主控设备可以接收麦克风发送的环境噪声信号；或者，主控设备可以接收与主控设备连接的其他音频信号采集设备采集的音频信号采集设备周围的环境噪声生成的环境噪声信号。

步骤202、基于环境噪声信号的噪声声压调整麦克风的灵敏度。

在本申请实施例中，麦克风通常会工作在不同的噪声环境中，麦克风的灵敏度与麦克风的工作环境有密切联系，通常灵敏度较低的麦克风可以拾取更安静或距离更近的声源，灵敏度较高的麦克风更适合拾取环境噪声较大或距离更远的声源，麦克风的灵敏度指的是麦克风在单位声压激励下的输出电压与输入声压的比值，其单位是mv/pa，也可以是分贝值。

可以理解的是，关于麦克风的工作环境，即使是嘈杂环境或者安静环境，其嘈杂或者安静程度也是不同的，因此，为了保证麦克风在不同环境状况下以最理想的灵敏度值采集语音信号，通常可以将环境噪声的噪声声压分为多个噪声声压区间，并为每个噪声声压区间分配相应的噪声声压等级，基于大数据分析确定与每个噪声声压等级对应的麦克风的灵敏度，建立该噪声声压等级与麦克风的灵敏度之间的对应关系并存储。该与噪声声压等级对应的麦克风的灵敏度之间的对应关系表示：麦克风在该噪声声压等级的噪声环境中工作时，能获取到高质量的语音信号的灵敏度。

需要说明的是，在本申请实施例中，对于环境噪声的噪声声压等级的划分，可以基于实际需要确定，本申请实施例对此不做限定。但可以理解的是，环境噪声的噪声声压等级划分的越多，确定的与噪声声压等级对应的麦克风的灵敏度之间的对应关系也越多，在麦克风的灵敏度调整过程中，灵敏度调整后的麦克风与当前的环境状况的匹配度也越高，可以获取质量更高的语音信号。

在本步骤中，主控设备基于环境噪声信号的噪声声压调整麦克风的灵敏度的过程可以包括：根据噪声声压确定环境噪声信号的噪声声压等级；根据环境噪声信号的噪声声压等级，和噪声声压等级与麦克风的灵敏度的对应关系，确定环境噪声信号的噪声声压等级对应的预设灵敏度；将麦克风的灵敏度调整至预设灵敏度。

步骤203、接收麦克风采集的语音信号。

在本步骤中，灵敏度被调整后的麦克风可以采集目标语音生成语音信号，将该语音信号发送给主控设备，该主控设备可以接收麦克风采集的语音信号。

可选的，在本申请实施例中，主控设备接收的语音信号为包含环境噪声信号和目标语音信号的音频信号，当主控设备接收到该语音信号后，可以确定该语音信号中包含的环境噪声信号的噪声声压，将该噪声声压与上述步骤202中的环境噪声的噪声声压进行比较，若二者不同，利用上述步骤202中的方法继续调整该麦克风的灵敏度，若二者相同，控制麦克风保持当前灵敏度，继续采集语音信号。可以进一步保证，在语音信号的采集过程中，也可以根据环境噪声的变化，实时的调整麦克风的灵敏度，保证麦克风采集的语音信号的质量。

步骤204、确定与噪声声压对应的降噪模型。

在本申请实施例中，麦克风在不同程度的噪声环境中工作时，利用不同的灵敏度采集的语音信号具有不同的音频特性，为了提高对语音信号处理的精准度，在语音信号的处理过程中，可以根据当前环境噪声的高低程度不同，利用不同的降噪模型对麦克风采集的语音信号进行降噪处理，对于在高噪声环境中采集的语音信号，降噪模型在对语音信号进行降噪处理过程中，降噪幅度较高，可以尽可能的将环境噪声滤除，以获取更多的目标声音；对于在低噪声环境中采集的语音信号，降噪模型在对语音信号进行降噪处理过程中，降噪幅度较低，可以防止目标声音信号被滤除，以保留更多的目标声音。

可以理解的是，在本申请实施例中，为了实现对不同噪声环境中获取的语音信号的高精度处理，用于对获取的语音信号进行降噪处理的降噪模型可以包括第一降噪模型和第二降噪模型，该第一降噪模型用于对高噪声环境中获取的语音信号进行降噪处理，该第二将降噪模型用于对低噪声环境中获取的语音信号进行降噪处理，该高噪声环境的噪声声压大于声压阈值，该高噪声环境的噪声声压大于声压阈值。

在本步骤中，确定与噪声声压对应的降噪模型的过程可以是：判断环境噪声信号的噪声声压是否大于声压阈值；当噪声声压大于声压阈值时，确定当前环境为高噪声环境，确定与噪声声压对应的降噪模型为第一降噪模型；当噪声声压小于声压阈值时，确定当前环境为低噪声环境，确定与噪声声压对应的降噪模型为第二降噪模型；该声压阈值为预先定义的高噪声环境与低噪声环境的分界声压；该声压阈值可以基于实际需要确定，本申请实施例对此不做限定。

需要说明的是，在本申请实施例中，上述步骤203和上述步骤204并没有严格的先后顺序限制，该步骤203和步骤204的先后顺序并不影响该拾音控制方法的实现。

步骤205、利用降噪模型确定语音信号的语音内容。

在本步骤中，由于可以对高噪声环境中采集到的语音信号和低噪声环境中采集到的语音信号采用不同的降噪模型进行降噪处理，则利用降噪模型确定语音信号的语音内容的过程可以有以下两种可选的实现方式：

在一种可选的实现方式中：当确定的噪声模型为第一降噪模型时，该利用降噪模型确定语音信号的语音内容的过程可以是：主控设备可以将语音信号输入第一降噪模型中，该第一降噪模型可以对语音信号先进行预处理获取预处理语音信号，并对预处理语音信号进行第一降噪处理滤除第一噪声信号，获取目标声音信号；接着，主控设备可以将目标声音信号输入语音识别模型中，该语音识别模型可以确定与语音信号对应的语音内容。其中，该第一降噪模型可以是基于波束成形或者盲源分离算法建立的降噪模型，该第一噪声信号可以包括第一环境噪声，或者该第一噪声信号可以包括第一环境噪声以及非目标音频信号，例如，该非目标音频信号可以是麦克风获取播放设备播放的音乐生成的音频信号，和/或麦克风获取其他人说话时窃窃私语声生成的音频信号。

在另一种可选的实现方式中，当确定的噪声模型为第二降噪模型时，该利用降噪模型确定语音信号的语音内容的过程可以是：主控设备可以将语音信号输入第二降噪模型中，该第二降噪模型可以先对语音信号进行预处理获取预处理语音信号；并对预处理语音信号进行第二降噪处理滤除第二噪声信号，获取目标声音信号；接着，主控设备可以将目标声音信号输入语音识别模型中，该语音识别模型可以确定与语音信号对应的语音内容。其中，该第二降噪模型可以是基于神经网络建立的降噪模型，该第二噪声信号包括第二环境噪声，以及非目标音频信号，该第一环境噪声信号的噪声声压大于第二环境噪声信号的噪声声压。

需要说明的是，在本申请实施例中，第一降噪处理的过程是滤除语音信号中的第一环境噪声信号的过程，或者第一降噪处理的过程是滤除语音信号中的第一环境噪声信号和非目标声音信号的过程，第二降噪处理的过程是滤除语音信号中的第二环境噪声信号的过程，或者第二降噪处理的过程是滤除语音信号中的第二环境噪声信号和非目标声音信号的过程，由于该第一环境噪声信号的噪声声压大于该第二环境噪声信号的噪声声压，在第一降噪处理的过程中，第一降噪模型对第一环境噪声信号的第一降噪强度大于在第二降噪处理的过程中，第二降噪模型对第二环境噪声信号的第二降噪强度，其中，该第一降噪强度的大小可以由第一降噪模型基于第一环境噪声信号的强度确定，第二降噪强度的大小可以由第二降噪模型基于第二环境噪声信号的强度确定，本申请实施例对不做限定。

其中，语音识别模型确定与语音信号对应的语音内容的过程是：通过基于声学模型、语言模型和神经网络建立的语音识别模型，将目标声音信号转换为文字信号，进而通过语义识别算法对文字信号进行语义分析，确定识别结果获取与语音信号对应的语音内容。

综上所述，本申请实施例中提供的拾音控制方法，可以监测麦克风周围的环境噪声信号；基于环境噪声信号的噪声声压调整麦克风的灵敏度；接收麦克风采集的语音信号；确定与噪声声压对应的降噪模型；利用降噪模型确定语音信号的语音内容。可以基于环境噪声调节麦克风灵敏度，降低环境噪声对麦克风拾音能力的影响，并根据环境噪声的高低程度不同，有针对性的选择与当前噪声环境对应的降噪模型对应语音信号中的环境噪声进行处理，以提高最终识别到的语音内容的准确度。

本申请实施例一种拾音控制方法，该方法可以应用于上述主控设备或者主控模块中，如图3所示，该方法包括：

步骤301、监测麦克风周围的环境噪声信号。

步骤302、基于环境噪声信号的噪声声压调整麦克风的灵敏度。

在本申请实施例中，该步骤302的过程可以参考上述步骤202，本申请实施例对此不做赘述。

步骤303、接收麦克风采集的语音信号。

步骤304、确定与噪声声压对应的降噪模型。

在本申请实施例中，该步骤304的过程可以参考上述步骤204，本申请实施例对此不做赘述。

步骤305、利用降噪模型确定语音信号的语音内容。

在本申请实施例中，该步骤305的过程可以参考上述步骤205，本申请实施例对此不做赘述。

步骤306、执行与语音内容对应的操作。

在本步骤中，主控设备或者主控模块可以根据语音内容，确定语音内容中的控制指令，根据控制指令执行与该控制指令对应的控制操作。例如，若解析获取到的语音内容中的控制指令为“播报天气”，则可以获取当前的天气状况，控制音箱播放该天气状况，若解析获取到的语音内容中的控制指令为“调大音量”，则可以控制调整音箱的音量播放当前正在播放的内容。

综上所述，本申请实施例中提供的拾音控制方法，可以监测麦克风周围的环境噪声信号；基于环境噪声信号的噪声声压调整麦克风的灵敏度；接收麦克风采集的语音信号；确定与噪声声压对应的降噪模型；利用降噪模型确定语音信号的语音内容，执行与语音内容对应的操作。可以基于环境噪声调节麦克风灵敏度，降低环境噪声对麦克风拾音能力的影响，并根据环境噪声的高低程度不同，有针对性的选择与当前噪声环境对应的降噪模型对应语音信号中的环境噪声进行处理，以提高最终识别到的语音内容的准确度。

本申请实施例提供一种拾音控制装置，如图4所示，该装置40包括：

监测模块401，被配置为监测麦克风周围的环境噪声信号；

调整模块402，被配置为基于环境噪声信号的噪声声压调整麦克风的灵敏度；

接收模块403，被配置为接收麦克风采集的语音信号；

确定模块404，被配置为确定与噪声声压对应的降噪模型；

该确定模块404，还被配置为利用降噪模型确定语音信号的语音内容。

可选的，调整模块402，被配置为，包括：

根据噪声声压确定环境噪声信号的噪声声压等级；

根据环境噪声信号的噪声声压等级，和噪声声压等级与麦克风的灵敏度的对应关系，确定环境噪声信号的噪声声压等级对应的预设灵敏度；

将麦克风的灵敏度调整至预设灵敏度。

可选的，确定模块404，被配置为：

判断噪声声压是否大于声压阈值；

当噪声声压大于声压阈值时，确定与噪声声压对应的降噪模型为第一降噪模型；

当噪声声压小于声压阈值时，确定与噪声声压对应的降噪模型为第二降噪模型。

可选的，当噪声模型为第一降噪模型时，确定模块404，被配置为：

将语音信号输入第一降噪模型中；

利用第一降噪模型对语音信号进行第一降噪处理滤除第一噪声信号，获取目标声音信号，第一噪声信号包括第一环境噪声信号；

将目标声音信号输入语音识别模型中确定与语音信号对应的语音内容。

可选的，当噪声模型为第二降噪模型时，确定模块404，被配置为：

将语音信号输入第二降噪模型中；

利用第二降噪模型对语音信号进行第二降噪处理滤除第二噪声信号，获取目标声音信号，第二噪声信号包括第二环境噪声信号，第一环境噪声信号的噪声声压大于第二环境噪声信号的噪声声压；

将目标声音信号输入语音识别模型中确定与语音信号对应的语音内容。

可选的，如图5所示，装置40还包括：

执行模块405，被配置为执行与语音内容对应的操作。

综上所述，本申请实施例中提供的拾音控制装置，可以监测麦克风周围的环境噪声信号；基于环境噪声信号的噪声声压调整麦克风的灵敏度；接收麦克风采集的语音信号；确定与噪声声压对应的降噪模型；利用降噪模型确定语音信号的语音内容。可以基于环境噪声调节麦克风灵敏度，降低环境噪声对麦克风拾音能力的影响，并根据环境噪声的高低程度不同，有针对性的选择与当前噪声环境对应的降噪模型对应语音信号中的环境噪声进行处理，以提高最终识别到的语音内容的准确度。

图6是根据一示例性实施例示出的一种计算机系统，该计算机系统包括中央处理单元(cpu)501，其可以根据存储在只读存储器(rom)502中的程序或者从存储部分加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中，还存储有系统操作所需的各种程序和数据。cpu501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。

以下部件连接至i/o接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分；包括硬盘等的存储部分508；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本申请的实施例，上文图2至图3描述的过程可以被实现为计算机软件程序。例如，本申请的各个实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括监测模块、调整模块、接收模块和确定模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，监测模块还可以被描述为“用于监测麦克风周围的环境噪声信号的监测模块”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中的拾音控制方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。