基于麦克风阵列的声源跟踪与拾音的方法和装置与流程
本公开涉及麦克风阵列的技术领域,具体地涉及基于麦克风阵列的声源跟踪与拾音的方法和装置。
背景技术:
近年来,随着计算机技术的快速发展,人们希望在更远距离、更复杂的环境下控制智能设备,传统近场语音技术已经无法满足应用需求。因此,智能语音技术特别是基于麦克风阵列的远场拾音技逐步成为当前的研究热点。而双麦克风阵列凭借与多麦克风阵列相比成本更低、安装使用灵活、功耗低等优点成为诸如智能电视、智能音箱、移动机器人等消费类电子产品的优选方案。
波束形成是麦克风阵列的核心技术,它通过对采集的阵列数据进行加权求和来保护期望方向的信号,同时抑制其他方向的噪声与干扰,以达到远场(通常指的是1米以外)拾音的目的。波束形成通常分为两种类型:一种类型是数据不依赖型波束形成,如延时相加法、固定求和法等,这类方法对空间强干扰源的抑制效果往往不够理想。另一种类型是数据依赖波束形成,如自适应波束形成法、自适应旁瓣对消法等,它们的加权系数可以根据外部环境的变化自适应调整,以达到抑制强干扰源的目的,这种类型的波束形成对基阵模型误差非常敏感。
在移动机器人、智能家居等应用场景中,声源很可能是在运动的,因此声源相对于麦克风的位置往往会发生变化。现有自适应波束形成算法对方向偏差非常敏感,尤其是在观测数据中包含期望信号分量时,即使很小的方向偏差也容易使主瓣波束图畸变,进而使期望信号被抵消。
技术实现要素:
有鉴于此,本公开提供了一种基于麦克风阵列的跟踪声源和拾音方法。
根据本公开的第一方面,提供了一种基于麦克风阵列的声源跟踪和拾音方法,包括:基于麦克风阵列接收到的快拍数据估计瞬时声源方位
在一些实施例中,估计瞬时声源方位
在一些实施例中,采用最大似然估计法还包括:构造关于观测方位
在一些实施例中,计算空间谱散度
在一些实施例中,检测语音活动还包括:比较计算出的空间谱散度
在一些实施例中,在空间谱散度
在一些实施例中,更新声源方位
在一些实施例中,该方法还包括基于更新后的声源方位
在一些实施例中,计算自适应波束形成加权系数还包括:采用波束图畸变约束法计算自适应波束形成加权系数,其中波束图畸变约束法依次包括:s101.构造特征矩阵
在一些实施例中,时间段的长度为25ms。
在一些实施例中,麦克风阵列为双麦克风阵列。
根据本公开的第二方面,一种基于麦克风阵列的声源跟踪和拾音装置,包括:瞬时声源方位估计模块,被配置为基于麦克风阵列接收到的快拍数据估计瞬时声源方位
在一些实施例中,空间谱散度计算模块被配置为计算空间谱散度
在一些实施例中,该装置还包括波束形成模块,其被配置为基于更新后的声源方位
根据本公开的第三方面,提供了一种计算设备,包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当计算机可执行指令被处理器执行时执行如上面所述的任一方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如上面所述的任一方法。
该方法可以有效解决声源移动所引起的方位失配问题,提高麦克风阵列在远场拾音的稳健性。本公开所提供的方法和装置可以在声源位置未知、以及在声源位置相对于麦克风阵列移动时,均可实现远场稳健拾音。根据下文描述的实施例,本公开的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本公开的这些和其它优点。
附图说明
现在将更详细并且参考附图来描述本公开的实施例,其中:
图1图示了可以在其中实施根据本公开的一个实施例的示范性情境图;
图2图示了根据本公开的一个实施例的基于麦克风阵列的声源跟踪和拾音方法的示范性流程图;
图3图示了根据本公开一个实施例的不同波束形成算法的性能对比图;
图4图示了根据本公开一个实施例的基于麦克风阵列的声源跟踪和拾音装置的示范性示意图;以及
图5图示了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。
具体实施方式
下面的说明提供用于充分理解和实施本公开的各种实施例的特定细节。本领域的技术人员应当理解,本公开的技术方案可以在没有这些细节中的一些的情况下被实施。在某些情况下,并没有示出或详细描述一些熟知的结构和功能,以避免不必要地使对本公开的实施例的描述模糊不清。在本公开中使用的术语以其最宽泛的合理方式来理解,即使其是结合本公开的特定实施例被使用的。
首先,对本公开的实施例中涉及的部分用语进行说明,以便于本领域技术人员理解:
麦克风阵列:由多个麦克风组成的音频前端采集系统,并以这些麦克风对音频进行采集,获取来源方向,进行波束形成计算,达到增强音频信号的信噪比的目的。
波束形成:麦克风阵列仅采集特定方向的音频信号,并抑制其他方向的音频信号。
常规波束形成:其目的是选取一个适当的加权向量以补偿麦克风的各个阵元的传播延时,从而使期望方向上的信号到达阵列时是同相的,进而在该方向上产生一个空间响应的极大值。如果和时域的滤波器类比,波束形成可以被看作空域滤波器,而波束图则是该空域滤波器的空间频率响应。常规波束形成对模型失配非常鲁棒,这主要是因为它具有固定的加权系数,其特性不会随目标信号、干扰和环境噪声特性的变化而变化。但常规波束形成对未知强干扰的抑制能力非常受限。
capon波束形成:其是一种经典的数据相关自适应波束形成。capon波束形成的主要特点是其加权系数能根据输入数据特征的变化自适应调整,因此它对未知强干扰分量具有很好的抑制能力。该方法所存在的问题是对模型失配极其敏感。
对角线加载波束形成:也被称为噪声注入法。该方法主要针对阵列导向矢量失配和有限次快拍数所引起的协方差矩阵的噪声特征值的扩散程度减小,从而减小噪声特征向量对自适应权向量的影响。该算法可以有效减小波束图畸变,提高算法鲁棒性,但同时也会使自适应波束图的零陷变浅,使干扰抑制能力降低。
最差性能最优波束形成:该方法主要针对导向矢量失配的情况。首先假设真实导向矢量分布在假定的导向矢量的邻域内,然后利用该邻域构造一个导向矢量的不确定集合,最后通过对不确定集合施加约束,使集合内的各向量所对应的输出信干噪比的最小值最大,由此计算自适应波束形器的加权系数。
图1图示了可以在其中实施根据本公开的一个实施例的示范性情境图。如图1所示,麦克风阵列102可以采集一定角度范围内的声音,麦克风阵列102无方向指向。例如,在麦克风阵列102为双麦克风阵列时,可以采集180°的角度范围内的声音。在说话人104进行语音活动时,麦克风阵列102可以对说话人104进行波束形成。在麦克风阵列102针对说话人104波束形成后,说话人104的声音得到增强,而不在波束形成指向范围内的噪声被屏蔽。应当指出,双麦克风仅仅是示例,并不是限制性的。
图2图示了根据本公开的一个实施例的基于麦克风阵列的声源跟踪和拾音方法的示范性流程图200。在步骤202中,基于麦克风阵列接收到的数据来估计瞬时声源方位
在步骤2022中,以第k(k=1,2,…,k)个子频带为例(其他子频带可以依次类推),构造关于观测方向
在式(1)中,
在步骤2024中,采用牛顿法对式(1)进行迭代,求解式(1)的最大值,得到该子频带的声源方向:
如本领域技术人员所应理解的,也可以采用其他迭代方法来求解式(1)的最大值。
在步骤2026中,对通过上述方法针对其他子频率计算出的声源方向的信息进行整合,按照下式估计出总声源方向:
如本领域技术人员所理解的,也可以采用其他算法来对声源方向进行估计,如最小均方误差等。
在步骤204中,计算在所估计的瞬时声源方位
其中,
在步骤206中,基于计算出的空间谱散度
在步骤208中,在检测到语音活动时,基于所估计的瞬时声源方位
其中,
本公开通过定义空间谱散度,并通过空间谱散度判决是否存在语音活动,提高了麦克风阵列方位跟踪的稳健性。
在一个实施例中,方法200进一步包括步骤210,基于更新后的声源方位
在步骤2102中,构造特征矩阵
其中,
在步骤2104中,判断a的秩,在rank(a)>1时,根据式(8)对特征矩阵a进行秩1分解,以估计导向矢量a:
在rank(a)=1时,对矩阵a进行特征值分解以估计导向矢量a。
在步骤2106中,以a为导向矢量计算自适应波束形成加权系数,
其中,
在步骤212中,利用更新的波束形成系数来增强语音信号,即:
如本领域技术人员所理解的,也可以采用除波束图畸变约束法以外的其他波束形成算法,例如常规波束形成法、capon波束形成法、对角线加载法、最差性能最优波束形成法等来计算自适应波束形成加权系数。
图3图示了几种算法的性能对比图,其中横坐标标识观测方向偏差,即麦克风阵列的观察方向与声源出现方向的偏差角度。图3中针对本公开提出的技术方案的sinr曲线采用的是根据如上所述最大似然声源估计以及空间谱估计后得到的观察方位。针对标准波束形成、对角线加载算法和最差性能最优算法采用的是固定的观察方位,即在观测方向偏差为0度对准声源的观察方位。根据图3可以看出,本公开所提出的技术方案能实现显著高于其他波束形成方法的信干噪比。
图4图示了根据本公开一个实施例的基于麦克风阵列的声源跟踪和拾音装置的示范性示意图。在一个实施例中,基于麦克风阵列的声源跟踪和拾音装置400包括瞬时声源方位估计模块402、空间谱散度计算模块404、语音活动检测模块406、声源方位更新模块408和波束形成模块410。
声源方位估计模块402被配置为基于所述麦克风阵列接收到的快拍数据估计瞬时声源方位
首先以第k(k=1,2,…,k)个子频带为例(其他子频带可以依次类推),构造关于观测方向
然后采用牛顿法对式(1)进行迭代,求解式(1)的最大值,得到该子频带的声源方向
再对用上述方法对其他子频率计算出的声源方向信息进行整合,以估计出总声源方向,参见上文式(3)。如本领域技术人员所理解的,还可以采用其他算法对声源进行估计。
空间谱散度计算模块404被配置为计算在所估计的瞬时声源方位
语音活动检测模块406被配置为基于计算出的空间谱散度
声源方位更新模块408被配置用于在检测到语音活动时,基于所估计的瞬时声源方位
波束形成模块410被配置用于基于更新后的声源方位
构造特征矩阵
判断a的秩,在rank(a)>1时,根据上文所述的式(8)对特征矩阵a进行秩1分解,以估计导向矢量a。在rank(a)=1时,对矩阵a进行特征值分解以估计导向矢量a。
根据上文所述的式(9)以a为导向矢量计算自适应波束形成加权系数。其中
在一个实施例中,还包括语音信号增强模块,其利用更新的波束形成系数来增强语音信号,参见上文所述的式(11)。如本领域技术人员所理解的,也可以采用除波束图畸变约束法以外的其他波束形成算法,例如常规波束形成法、capon波束形成法、对角线加载法、最差性能最优波束形成法等
图5图示了示例系统500,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备510。计算设备510可以是例如服务提供商的服务器、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面关于图4描述的基于麦克风阵列的声源跟踪和拾音装置400可以采取计算设备510的形式。替换地,基于麦克风阵列的声源跟踪和拾音装置400可以以声源跟踪和拾音应用516的形式被实现为计算机程序。
如图示的示例计算设备510包括彼此通信耦合的处理系统511、一个或多个计算机可读介质512以及一个或多个i/o接口513。尽管未示出,但是计算设备510还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统511代表使用硬件执行一个或多个操作的功能。因此,处理系统511被图示为包括可被配置为处理器、功能块等的硬件元件514。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件514不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(ic))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质512被图示为包括存储器/存储装置515。存储器/存储装置515表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置515可以包括易失性介质(诸如随机存取存储器(ram))和/或非易失性介质(诸如只读存储器(rom)、闪存、光盘、磁盘等)。存储器/存储装置515可以包括固定介质(例如,ram、rom、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质512可以以下面进一步描述的各种其他方式进行配置。
一个或多个i/o接口513代表允许用户向计算设备510输入命令和信息并且可选地还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备510可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备510还包括声源跟踪和拾音应用516。声源跟踪和拾音应用516可以例如是关于图4描述的基于麦克风阵列的声源跟踪和拾音装置400的软件实例,并且与计算设备510中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备510访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于ram、rom、eeprom、闪存或其它存储器技术、cd-rom、数字通用盘(dvd)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备510的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指以这样的方式对信号中的信息进行编码来设置或改变其特征中的一个或多个的信号。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、rf、红外和其它无线介质的无线介质。
如前所述,硬件元件514和计算机可读介质512代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(asic)、现场可编程门阵列(fpga)、复杂可编程逻辑器件(cpld)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件514体现的一个或多个指令和/或逻辑。计算设备510可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件514,可以至少部分地以硬件来实现将模块实现为可由计算设备510作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备510和/或处理系统511)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备510可以采用各种不同的配置。例如,计算设备510可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备510还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备510还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备510的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台522而在“云”520上全部或部分地实现。
云520包括和/或代表用于资源524的平台522。平台522抽象云520的硬件(例如,服务器)和软件资源的底层功能。资源524可以包括在远离计算设备510的服务器上执行计算机处理时可以使用的应用和/或数据。资源524还可以包括通过因特网和/或通过诸如蜂窝或wi-fi网络的订户网络提供的服务。
平台522可以抽象资源和功能以将计算设备510与其他计算设备连接。平台522还可以用于抽象资源的分级以提供遇到的对于经由平台522实现的资源524的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统500内。例如,功能可以部分地在计算设备510上以及通过抽象云520的功能的平台522来实现。
应当理解,为清楚起见,参考不同的功能模块对本公开的实施例进行了描述。然而,将明显的是,在不偏离本公开的情况下,每个功能模块的功能性可以被实施在单个模块中、实施在多个模块中或作为其它功能模块的一部分被实施。例如,被说明成由单个模块执行的功能性可以由多个不同的模块来执行。因此,对特定功能模块的参考仅被视为对用于提供所描述的功能性的适当模块的参考,而不是表明严格的逻辑或物理结构或组织。因此,本公开可以被实施在单个模块中,或者可以在物理上和功能上被分布在不同的模块和电路之间。
将理解的是,尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、或部件,但是这些设备、元件、或部件不应当由这些术语限制。这些术语仅用来将一个设备、元件、或部件与另一个设备、元件、或部件相区分。
尽管已经结合一些实施例描述了本公开,但是其不旨在被限于在本文中所阐述的特定形式。相反,本公开的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且不定冠词“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除