一种基于双麦克风阵列的车内定向拾音方法及相关装置与流程

2021-01-28 15:01:15|

328|

起点商标网

本发明涉及智能汽车语音交互技术领域，尤其涉及一种基于双麦克风阵列的车内定向拾音方法及相关装置。

背景技术：

自动语音识别是智能汽车用户交互的基础技术，精准的识别结果是完成用户指令、人机对话等任务的前提。车载环境下需要远场语音识别，存在多种背景噪声的干扰，需经过前端信号增强过滤干扰信号。在背景干扰中，来自其他乘车人的语音信号带来尤为严重的困难，不能被一般降噪方法去除，需利用定向拾音技术。现有技术中一般基于波束成形技术实现定向拾音。

波束成形技术中基于线性约束最小方差lcmv(linearlyconstrainedminimumvariance)框架，也常用广义旁瓣消除gsc(generalizedsidelobecanceller)实现，只需知道目标声源方向，可以自适应噪声，较为灵活，但实际中因为传播路径与脉冲响应的估计误差，会造成目标信号本身被抵消，导致估计的目标信号不准确。

技术实现要素：

有鉴于此，本发明提供了一种基于双麦克风阵列的车内定向拾音方法及相关装置，用以解决波束成形技术中基于线性约束最小方差lcmv(linearlyconstrainedminimumvariance)框架，也常用广义旁瓣消除gsc(generalizedsidelobecanceller)实现，只需知道目标声源方向，可以自适应噪声，较为灵活，但实际中因为传播路径与脉冲响应的估计误差，会造成目标信号本身被抵消，导致估计的目标信号不准确的问题，具体方案如下：

一种基于双麦克风阵列的车内定向拾音方法，包括：

基于目标车辆中干扰信号的相关性，构建预设滤波器；

利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。

上述的方法，可选的，利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号，包括：

获取所述输入信号中的第一输入信号和第二输入信号；

基于所述预设的滤波器对所述第一输入信号进行滤波，得到目标干扰信号；

将所述第二信号与所述目标信号的差值作为所述目标信号。

上述的方法，可选的，基于目标车辆中的干扰信号的相关性构建预设滤波器，包括：

提取所述目标车辆中的干扰信号，所述干扰信号包括：第一干扰信号和第二干扰信号；

计算所述第一干扰信号的自相关向量和所述第二干扰信号的互相关向量；

基于所述自相关向量和所述互相关向量，确定滤波系数；

依据所述滤波系数构建所述预设滤波器。

上述的方法，可选的，提取所述目标车辆中的干扰信号，包括：

针对所述目标车辆中的麦克风阵列，在预设时长内计算其中每个声源的定位角；

若各个定位角均大于预设角度阈值，将该声源对应的信号作为干扰信号，其中，所述对应的干扰信号为第一干扰信号或第二干扰信号。

上述的方法，可选的，还包括：

在满足预设更新条件的情况下，对所述预设滤波器进行更新。

一种基于双麦克风阵列的车内定向拾音装置，包括：

构建模块，用于基于目标车辆中干扰信号的相关性，构建预设滤波器；

滤波和估计模块，用于利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。

上述的装置，可选的，所述滤波和估计模块包括：

获取单元，用于获取所述输入信号中的第一输入信号和第二输入信号；

滤波单元，用于基于所述预设的滤波器对所述第一输入信号进行滤波，得到目标干扰信号；

信号确定单元，用于将所述第二信号与所述目标信号的差值作为所述目标信号。

上述的装置，可选的，所述构建模块包括：

提取单元，用于提取所述目标车辆中的干扰信号，所述干扰信号包括：第一干扰信号和第二干扰信号；

计算单元，用于计算所述第一干扰信号的自相关向量和所述第二干扰信号的互相关向量；

系数确定单元，用于基于所述自相关向量和所述互相关向量，确定滤波系数；

构建单元，用于依据所述滤波系数构建所述预设滤波器。

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的基于双麦克风阵列的车内定向拾音方法。

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于执行上述的基于双麦克风阵列的车内定向拾音方法。

与现有技术相比，本发明包括以下优点：

本发明公开了一种基于双麦克风阵列的车内定向拾音方法及相关装置，所述方法包括：基于目标车辆中干扰信号的相关性，构建预设滤波器；利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。上述的方法中，所述预设滤波器是基于目标车辆中的干扰信号构建的，由于输入信号中的目标信号不会参与预设滤波器的构建，因此不会造成目标信号的抵消，在基于预设滤波器对所述输入信号滤波时，可以更准确的估计目标信号。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种基于双麦克风阵列的车内定向拾音方法流程图；

图2为本申请实施例公开的一种基于双麦克风阵列的车内定向拾音方法又一流程图；

图3为本申请实施例公开的一种输入信号的滤波过程示意图；

图4为本申请实施例公开的一种基于双麦克风阵列的车内定向拾音装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种基于双麦克风阵列的车内定向拾音方法及装置，应用于对车载语音识别过程中，自动语音识别是智能汽车用户交互的基础技术，精准的识别结果是完成用户指令、人机对话等任务的前提。车载环境下需要远场语音识别，存在多种背景噪声的干扰，需经过前端信号增强过滤干扰信号。在背景干扰中，来自其他乘车人的语音信号带来尤为严重的困难，不能被一般降噪方法去除，需利用定向拾音技术。由于高指向性麦克风体积大、成本高，车内一般使用麦克风阵列实现，且通常只由两个麦克风单元组成。通过计算各麦克风上信号间的互相关即可对声源进行定位。已知目标声源方向，基于麦克风阵列实现定向拾音，现有技术中主要依靠波束形成和盲源分离技术。

波束形成有成熟的理论基础，但效果仍较为有限，主要原因有二。第一，该类方法对信号传播通常取平面波假设，而车内环境下存在反射等情况，传播路径较为复杂，与假设不符，理论与实际效果往往有较大差距。第二，波束形成的效果取决于阵列的设计，取得理想效果需要大量麦克风单元和专用数字信号处理器，而车内通常只有两个麦克风单元。通常采用基于线性约束最小方差(linearlyconstrainedminimumvariance,lcmv)框架，也常用广义旁瓣消除(generalizedsidelobecanceller,gsc)实现。只需知道目标声源方向，可以自适应噪声，较为灵活，但实际中因为传播路径与脉冲响应的估计误差，会造成目标信号本身被抵消。

盲源分离(blindsourceseparation).基于目标与背景信号互相独立的假设，通过独立成分分析(independentcomponentanalysis,ica)或非负矩阵分解(non-negativematrixfactorization,nmf)等方法将信号进行分解，可以不依赖声源定位，并可提取多个来源的信号。盲源分离在自动语音识别领域的应用仍不成熟，面临诸多技术困难。盲源分离算法在时域上往往收敛缓慢。在频域上，各频带上分离出的组分还需作排列组合以与声源对应。

因此，为了解决上述问题，本发明提供了一种基于双麦克风阵列的车内定向拾音方法，由于在车内场景下，需提取和过滤的信号声源方向(例如主驾和副驾)是已知的，讲话人在整个交互过程中是固定的，且大部分时段最多只有一人发声，因此，假定主驾产生的信号为目标信号，副驾产生的信号为干扰信号，本发明实施例中，基于干扰信号，构造针对性的滤波器，以提高干扰信号抵制效果，降低目标信号的失真。

所述拾音方法的执行流程如图1所示，包括步骤：

s101、基于目标车辆中干扰信号的相关性，构建预设滤波器；

本发明实施例中，所述目标车辆为当前需要进行拾音的车辆，其中，所述目标车辆中安装有双麦克风阵列，两麦克风阵列的连线与车轴垂直，可设指向主驾方向的角度为0°，副驾为180°，基于标准的声源定位算法，如广义互相关(generalizedcross-correlation)确定所述目标车辆中的干扰信号，其中所述干扰信号为副驾产生的信号，确定过程如下：针对所述目标车辆中的麦克风阵列，在预设时长内计算其中每个声源的定位角，若各个定位角均大于预设角度阈值，将该声源对应的信号作为干扰信号，其中，所述对应的干扰信号为第一干扰信号或第二干扰信号。本发明实施例中，所述预设角度阈值和所述预设时长可以基于经验或者具体情况进行设定，假设所述预设的角度阈值为90°，所述预设时长为0.5s，优选的，步长为0.01s，假设所述预设时长为0-0.5s则下一个预设时长为0.01到0.51s以此类推，本发明实施例中对所述步长的具体取值不进行限定，则干扰信号的确定过程如下：当有人声输入时，对每个时间窗口(例如长度为10ms)，用声源定位算法估计声源方向。若在0.5s内，所得方向角稳定且指向副驾(大于90°)，则取该段信号为干扰信号样本。具体的处理过程如下：针对麦克风阵列，提取干扰信号(如副驾单独讲话)，即定位角度持续大于90°，长度0.5s左右的信号，以矩阵表示，记为：

(x)n×2＝(x1,x2)(1)

其中，x1x2长为n的矢量；

n为采样点数。

进一步的，对x1,x2分别作傅立叶变换，得到频谱：

(x)n×2＝(x1,x2)＝(fft(x1),fft(x2))(2)

其中，fft可用通用信号处理或线性代数软件包中的快速傅立叶变换函数实现。

计算频谱之间的相关性。其中，假设：

其中，上划线表示取复共轭，⊙表示按分量求积。给定滤波器长度l,对i＝1,…,l,令互相关向量：

令自相关向量：

其中，表示取实部,ifft为逆快速傅立叶变换。l的选取可根据算力与效果调整，本发明实施例中，对l的具体取值不进行限定，优选的，l取500到1000。

进一步的，针对x1,x2具体选取哪个进行自相关向量和互相关向量的计算，本发明实施例中不进行限定，例如，也可以选取或者其它的组合形式

取toeplitz矩阵(a)l×l,使得对任意1≤i≤j≤l,有

a[i,j]＝a[j,i]＝ca[j-i+1](7)

则建立方程

ah＝cc(8)

求(8)中的解h，得到预设线性滤波器，其系数为

h＝((1)l,-h),(9)

其中(1)l是长度为l的全1向量。

s102、利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。

本发明实施例中，利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，由于所述目标车辆安装有双麦克风阵列，因此，所述输入信号为实时双通道信号，假设所述输入信号(s)m×2＝(s1,s2),其中，s1为第一输入信号，表示麦克风阵列其中一路的输入信号，s2为第二谁信号表示麦克风阵列另一路的输入信号。

基于所述预设滤波器进行处理后，所述目标信号p[n]的估计为：

p＝s*h(10)

即

p[n]＝s1[n]-∑ks2[k]h[n-k].(11)

本发明实施例中，基于所述预设滤波器过滤所述输入信号中的干扰信号，得到所述输入信号中的目标信号。

本发明公开了一种基于双麦克风阵列的车内定向拾音方法，包括：基于目标车辆中干扰信号的相关性，构建预设滤波器；利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。上述的方法中，所述预设滤波器是基于目标车辆中的干扰信号构建的，由于输入信号中的目标信号不会参与预设滤波器的构建，因此不会造成目标信号的抵消，在基于预设滤波器对所述输入信号滤波时，可以更准确的估计目标信号。

本发明实施例中，所述预设滤波器实际中是作为车机或智能后视镜等设备上信号增强软件的一个模块，基于上述的拾音方法进行拾音，具体的执行流程如图2所示，首先获取干扰信号，具体的获取过程与s101中的描述相同，在此不再赘述，其次，提取所述干扰信号中的特征，所述特征包括频谱、自相关系数和互相关系数，基于干扰信号特征确定滤波系数，其中，所述频谱基于所述干扰信号获得，所述自相关系数和所述互相关系数基于所述频谱获取，所述滤波系数基于所述自相关系数和所述互相关系数获得，具体的获取过程如s101中的描述相同，在此不再赘述，基于所述滤波系数构建线性滤波器，获取车辆的实时双通道信号基于所述线性滤波器进行滤波，以估计所述实时双通道信号中的目标信号，其中具体的处理过程与s102中描述相同，在此不再赘述。

基于上述的估计方法进行举例，如图3所示3-1为截取自主驾单独讲话时两通道实录的目标信号波形，将其与副驾讲话时录得的信号叠加得到波形作为测试输入信号如图3-2所示，利用其他时刻的副驾单独讲话的语音构建滤波器，估计后的目标信号波形如图3-3所示，良好地过滤了副驾的语音，还原了主驾的语音。

进一步的，针对所述预设滤波器，会因为副驾乘客改变、车辆中干扰因素过多、或者双麦克风阵列采集误差等，导致其滤波不准确，优选的，可以每间隔规定时长、检测到副驾乘客发生改变、滤波效果不理想(滤波后的信号质量低于指定阈值)或者其它预设更新条件时，对所述预设滤波器进行更新，具体的更新过程与s101中的描述相同，在此不再赘述。

基于上述的一种基于双麦克风阵列的车内定向拾音方法，本发明实施例中，还提供了一种基于双麦克风阵列的车内定向拾音装置，所述拾音装置的结构框图如图4所示，包括：

构建模块201和滤波和估计模块202。

其中，

所述构建模块201，用于基于目标车辆中干扰信号的相关性，构建预设滤波器；

所述滤波和估计模块202，用于利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。

本发明公开了一种基于双麦克风阵列的车内定向拾音装置，包括：基于目标车辆中干扰信号的相关性，构建预设滤波器；利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。上述的装置中，所述预设滤波器是基于目标车辆中的干扰信号构建的，由于输入信号中的目标信号不会参与预设滤波器的构建，因此不会造成目标信号的抵消，在基于预设滤波器对所述输入信号滤波时，可以更准确的估计目标信号。

本发明实施例中，所述滤波和估计模块202包括：

获取单元203、滤波单元204和信号确定单元205。

其中，

所述获取单元203，用于获取所述输入信号中的第一输入信号和第二输入信号；

所述滤波单元204，用于基于所述预设的滤波器对所述第一输入信号进行滤波，得到目标干扰信号；

所述信号确定单元205，用于将所述第二信号与所述目标信号的差值作为所述目标信号。

本发明实施例中，所述构建模块201包括：

提取单元206、计算单元207、系数确定单元208和构建单元209。

其中，

所述提取单元206，用于提取所述目标车辆中的干扰信号，所述干扰信号包括：第一干扰信号和第二干扰信号；

所述计算单元207，用于计算所述第一干扰信号的自相关向量和所述第二干扰信号的互相关向量；

所述系数确定单元208，用于基于所述自相关向量和所述互相关向量，确定滤波系数；

所述构建单元209，用于依据所述滤波系数构建所述预设滤波器。

本发明实施例中还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的基于双麦克风阵列的车内定向拾音方法。所述拾音方法包括：

基于目标车辆中干扰信号的相关性，构建预设滤波器；

利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。

本发明实施例中还提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器调用程序并用于执行上述的基于双麦克风阵列的车内定向拾音方法。所述拾音方法包括：

基于目标车辆中干扰信号的相关性，构建预设滤波器；

利用所述预设滤波器对所述目标车辆中的输入信号进行滤波，以估计所述输入信号中的目标信号。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种基于双麦克风阵列的车内定向拾音方法及相关装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除