用辅助键座麦克风来检测和抑制音频流中的键盘瞬态噪声的制作方法
本申请是分案申请,原案的申请号是201580072765.9,申请日是2015年12月30日,发明名称是“用辅助键座麦克风来检测和抑制音频流中的键盘瞬态噪声”。
本公开涉及用辅助键座麦克风来检测和抑制音频流中的键盘瞬态噪声。
背景技术:
在音频和/或视频电话会议环境中,遭遇与言语同时出现并且出现在言语之间的“无声”停顿中的令人讨厌的键盘键入噪声是很常见的。示例场景是参与会议呼叫的某个人在会议正在进行的同时在其膝上型计算机上做笔记的场景、或者某个人在语音呼叫期间检查其电子邮件的场景。当这种类型的噪声出现在音频数据中时,用户表现出明显的烦躁/分心。
技术实现要素:
为了提供对本公开的一些方面的基本理解,本发明内容以简化形式介绍了对概念的选择。本发明内容并非本公开的广泛概述,并且既不旨在识别本公开的关键或者重要元素,也不旨在描绘本公开的范围。本发明内容仅仅呈现本公开的概念中的一些概念作为以下提供的具体实施方式的前言。
本公开大体上涉及用于信号处理的方法和系统。更具体地,本公开的方面涉及通过使用作为参考信号的来自辅助麦克风的输入来抑制音频信号中的瞬态噪声。
本公开的一个实施例涉及一种用于抑制瞬态噪声的计算机实现的方法,其包括:接收来自用户装置的第一麦克风的音频信号输入,其中,该音频信号包含由第一麦克风捕获的语音数据和瞬态噪声;接收关于来自用户装置的第二麦克风的瞬态噪声的信息,其中,该第二麦克风定位为与用户装置中的第一麦克风分开,并且该第二麦克风定位为接近瞬态噪声的源;基于关于从第二麦克风接收到的瞬态噪声的信息来估计瞬态噪声在来自第一麦克风的音频信号输入中的贡献;以及基于瞬态噪声的所估计的贡献从来自第一麦克风的音频信号输入中提取语音数据。
在另一实施例中,用于抑制瞬态噪声的方法进一步包括:使用统计模型将第二麦克风映射到第一麦克风上。
在另一实施例中,用于抑制瞬态噪声的方法进一步包括:基于从第二麦克风接收到的信息来调整瞬态噪声在音频信号中的所估计的贡献。
在又一实施例中,在用于抑制瞬态噪声的方法中调整瞬态噪声的所估计的贡献包括:按比例增加或者缩小所估计的贡献。
在又一实施例中,用于抑制瞬态噪声的方法进一步包括:基于经过调整的所估计的贡献,确定在来自第一麦克风的音频信号输入中在每个时间帧中瞬态噪声在每个频率处的所估计的功率水平。
在又一实施例中,用于抑制瞬态噪声的方法进一步包括:基于在来自第一麦克风的音频信号中在每个时间帧中瞬态噪声在每个频率处的所估计的功率水平,从由第一麦克风捕获到的音频信号中提取语音数据。
在另一实施例中,在用于抑制瞬态噪声的方法中估计瞬态噪声的贡献包括:通过使用期望最大化算法来确定包含语音数据的音频信号的一部分的map(最大后验)估计。
本公开的另一实施例涉及一种用于抑制瞬态噪声的系统,所述系统包括:至少一个处理器和非暂时性计算机可读介质,该非暂时性计算机可读介质耦合至该至少一个处理器,该非暂时性计算机可读介质具有存储于其上的指令,该指令在由该至少一个处理器执行时使该至少一个处理器:接收来自用户装置的第一麦克风的音频信号输入,其中,该音频信号包含由第一麦克风捕获的语音数据和瞬态噪声;获得关于来自用户装置的第二麦克风的瞬态噪声的信息,其中,该第二麦克风定位为与用户装置中的第一麦克风分开,并且该第二麦克风定位为接近瞬态噪声的源;基于关于从第二麦克风获得的瞬态噪声的信息来估计瞬态噪声在来自第一麦克风的音频信号输入中的贡献;以及基于瞬态噪声的所估计的贡献从来自第一麦克风的音频信号输入中提取语音数据。
在另一实施例中,进一步使在用于抑制瞬态噪声的系统中的至少一个处理器:使用统计模型将第二麦克风映射到第一麦克风上。
在又一实施例中,进一步使在用于抑制瞬态噪声的系统中的至少一个处理器:基于从第二麦克风获得的信息来调整瞬态噪声在音频信号中的所估计的贡献。
在又一实施例中,进一步使在用于抑制瞬态噪声的系统中的至少一个处理器:通过按比例增加或者缩小所估计的贡献来调整瞬态噪声的所估计的贡献。
在另一实施例中,进一步使在用于抑制瞬态噪声的系统中的至少一个处理器:基于经过调整的所估计的贡献,确定在来自第一麦克风的音频信号输入中在每个时间帧中瞬态噪声在每个频率处的所估计的功率水平。
在又一实施例中,进一步使在用于抑制瞬态噪声的系统中的至少一个处理器:基于在来自第一麦克风的音频信号中在每个时间帧中瞬态噪声在每个频率处的所估计的功率水平,从由第一麦克风捕获到的音频信号中提取语音数据。
在又一实施例中,进一步使在用于抑制瞬态噪声的系统中的至少一个处理器:通过使用期望最大化算法来确定包含语音数据的音频信号的一部分的map(最大后验)估计。
本公开的又一实施例涉及一种或者多种非暂时性计算机可读介质,其存储有计算机可执行指令,该计算机可执行指令在由一个或者多个处理器执行时使该一个或者多个处理器执行操作,该操作包括:接收来自用户装置的第一麦克风的音频信号输入,其中,该音频信号包含由第一麦克风捕获的语音数据和瞬态噪声;接收关于来自用户装置的第二麦克风的瞬态噪声的信息,其中,该第二麦克风定位为与用户装置中的第一麦克风分开,并且该第二麦克风定位为接近瞬态噪声的源;基于关于从第二麦克风接收到的瞬态噪声的信息来估计瞬态噪声在来自第一麦克风的音频信号输入中的贡献;以及基于瞬态噪声的所估计的贡献从来自第一麦克风的音频信号输入中提取语音数据。
在另一实施例中,存储在一种或者多种非暂时性计算机可读介质中的计算机可执行指令在由一个或者多个处理器执行时使该一个或者多个处理器执行进一步的操作,该进一步的操作包括:基于从第二麦克风接收到的信息来调整瞬态噪声在音频信号中的所估计的贡献;基于经过调整的所估计的贡献,确定在来自第一麦克风的音频信号输入中在每个时间帧中瞬态噪声在每个频率处的所估计的功率水平;以及基于在来自第一麦克风的音频信号中在每个时间帧中瞬态噪声在每个频率处的所估计的功率水平,从由第一麦克风捕获到的音频信号中提取语音数据。
在一个或者多个其它实施例中,本文所描述的方法和系统可以可选地包括以下附加特征中的一个或者多个:从第二麦克风接收到的信息包括关于瞬态噪声的频谱-振幅信息;瞬态噪声的源是用户装置的键座;和/或包含在音频信号中的瞬态噪声是键点击。
本公开的进一步的适用范围将通过在下文中给出的具体实施方式而变得显而易见。然而,应该理解,具体实施方式和具体示例在指示优选实施例的同时仅仅以举例的方式被给出,因为对本领域的技术人员而言,在本公开的精神和范围内的各种变化和修改通过该具体实施方式将变得显而易见。
附图说明
结合随附权利要求书和附图,通过对以下具体实施方式的研究,对于本领域的技术人员而言,本公开的这些和其它目标、特征和特性将变得更加显而易见,所述权利要求书和附图以及具体实施方式都形成本说明书的一部分。在附图中:
图1是图示出了根据本文所描述的一个或者多个实施例的用于通过使用作为参考信号的来自辅助麦克风的输入进行瞬态噪声抑制的示例应用的示意图。
图2是图示出了根据本文所描述的一个或者多个实施例的用于通过使用作为参考信号的辅助麦克风输入信号来抑制音频信号中的瞬态噪声的示例方法的流程图。
图3是图示出了根据本文所描述的一个或者多个实施例的用于主要麦克风和辅助麦克风的同时记录的示例波形的一组图形表示。
图4是图示出了根据本文所描述的一个或者多个实施例的瞬态噪声检测和恢复算法的示例性能结果的一组图形表示。
图5是图示出了根据本文所描述的一个或者多个实施例的设置为通过并入作为参考信号的辅助麦克风输入信号来抑制音频信号中的瞬态噪声的示例计算装置的框图。
本文所提供的标题仅仅是为方便而设,并且不一定影响本公开所要求的范围或者意思。
在附图中,为了易于理解并且为了方便起见,相同的附图标记和任何首字母缩略词识别具有相同的或者相似的结构或者功能的元素或者动作。附图将在以下具体实施方式的过程中详细描述。
具体实施方式
概述
现在将描述各种示例和实施例。以下描述为透彻地理解这些示例并且实现这些示例提供了具体细节。然而,相关领域的技术人员要理解,在没有这些细节中的许多细节的情况下,可以实践本文所描述的一个或者多个实施例。同样,相关领域的技术人员也要理解,本公开的一个或者多个实施例可以包括本文并未详细描述的许多其它明显特征。另外,下面可能没有详细地示出或者描述一些已知的结构或者功能,从而避免不必要地使相关描述模糊。
如上面所讨论的,当键盘键入噪声出现在音频和/或视频会议期间时,用户发现其是扰乱性的并且令人讨厌的。因此,需要在不将可察觉的失真引入到所需言语的情况下去除这种噪声。
本公开的方法和系统设计为克服便携式用户装置(例如,膝上型计算机、平板计算机、移动电话、智能电话等)中的音频流的瞬态噪声抑制中存在的问题。根据本文所描述的一个或者多个实施例,与用户装置相关联的一个或者多个麦克风记录被环境噪声破坏而且还被来自例如键盘和/或鼠标点击的瞬态噪声破坏的语音信号。如下面将更详细地描述的,嵌入用户装置的键盘(本文有时可以将其称为“键座(keybed)”麦克风)中的同步参考麦克风实现了对键点击(keyclick)噪声的测量,大体上不受语音信号和环境噪声的影响。
根据本公开的至少一个实施例,提供在用于信号的语音部分的信号恢复过程中并入作为参考信号的键座麦克风的算法。
应该注意,本文所描述的方法和系统要解决的问题可能会因为非线性振动在用户装置的铰链和壳体中的潜在存在而变得复杂,在一些场景中,非线性振动在用户装置的铰链和壳体中的这种潜在存在可能会使得简单的线性抑制器不起作用。此外,键点击与语音麦克风之间的传递函数在很大程度上取决于点击哪一个键。鉴于这些公认的复杂性和依赖性,本公开提供了一种低延时解决方案,其中,在短帧中顺序地处理短时变换数据,并且通过使用贝叶斯(bayesian)推断过程来用公式表示并且估计鲁棒统计模型。如在下文中将进一步描述的,因使用利用真实音频记录的本公开的方法和系统而产生的示例结果证明以少量语音失真为代价而显著减少键入伪迹。
本文所描述的方法和系统设计为易于在标准硬件上实时操作,并且具有非常短的延时,使得在扬声器响应中不存在刺激性延迟。包括例如基于模型的源分离和基于模板的方法的一些现有方法已经在去除瞬态噪声方面取得了一些成功。然而,这些现有方法的成功一直受限于更一般的音频恢复任务,其中,更少关心的是实时低延时处理。虽然已经提出其它现有方案(诸如,非负矩阵分解(nme)和独立分量分析(ica))可以替代由本文所描述的方法和系统执行的恢复类型,但是这些其它现有方案也受到各种延时和处理速度问题的拖累。另一种可能的恢复方案是包括指示按压哪一个键并且何时按压键的操作系统(os)消息。然而,许多系统上的依赖于os消息的所涉及的不确定延迟使得这种方案不实用。
已经尝试解决击键(keystroke)去除问题的其它现有方案已经使用了单端方法,在该单端方法中,在不访问关于键敲击(keystrike)的任何定时或者振幅信息的情况下,必须从音频流中“盲”去除键盘瞬态部分。显然,这种方案存在可靠性和信号保真度问题,并且言语失真可能是可听见的并且/或者击键保持不变。
与包括上述方案的现有方案不同,本公开的方法和系统将利用键盘噪声的参考麦克风输入信号和用于使键盘参考麦克风上的语音麦克风回归的新鲁棒贝叶斯统计模型,这在使语音和击键噪声的不需要的功率谱值边缘化的同时实现了对所需的语音信号的直接推断。另外,如下文将更详细地描述的,本公开提供了一种用于快速、在线增强被破坏的信号的直接且高效的期望最大化(em)过程。
本公开的方法和系统具有多个现实应用。例如,方法和系统可以实施在计算装置(例如,膝上型计算机、平板计算机等)中,该计算装置具有位于键盘下方(或者在装置上除一个或者多个主要麦克风所在的地方之外的一些其它位置处)的辅助麦克风以提高可以执行的瞬态噪声抑制处理的有效性和效率。
图1图示出了这种应用的示例100,其中,用户装置140(例如,膝上型计算机、平板计算机等)包括一个或者多个主要音频捕获装置110(例如,麦克风)、用户输入装置165(例如,键盘、按键、键座等)和辅助(例如,次要或者参考)音频捕获装置115。
一个或者多个主要音频捕获装置110可以捕获由用户120生成的言语/源信号(150)(例如,音频源)以及由一个或者多个背景音频源130生成的背景噪声(145)。另外,由用户120操作用户输入装置165(例如,在经由用户装置140参与音频/视频通信会话的同时在键盘上键入)生成的瞬态噪声(155)也可以由音频捕获装置110捕获。例如,言语/源信号(150)、背景噪声(145)和瞬态噪声(155)的组合可以由音频捕获装置110捕获并且作为一个或者多个输入信号(160)被输入(例如,接收、获得等)至信号处理器170。根据至少一个实施例,信号处理器170可以在客户端处操作,同时,根据至少一个其它实施例,信号处理器可以在服务器处操作,该服务器通过网络(例如,因特网)与用户装置140通信。
辅助音频捕获装置115可以定位在用户装置140内(例如,在用户输入装置165上、在用户输入装置165下、在用户输入装置165旁等)并且可以配置为测量与用户输入装置165的交互。例如,根据至少一个实施例,辅助音频捕获装置115测量通过与键座交互而生成的击键。然后,可以使用由辅助麦克风115获得的信息来更好地恢复被因与键座交互而产生的键点击破坏的语音麦克风信号(例如,可以被瞬态噪声(155)破坏的输入信号(160))。例如,可以将由辅助麦克风115获得的信息作为参考信号(180)输入至信号处理器170。
如下文将更详细地描述的,信号处理器170可以配置为通过使用来自辅助音频捕获装置115的参考信号(180)对接收到的输入信号(160)(例如,语音信号)执行信号恢复算法。根据一个或者多个实施例,信号处理器170可以实施统计模型,以将辅助麦克风115映射到语音麦克风110上。例如,如果在辅助麦克风115上测量到键点击,则信号处理器170可以使用统计模型将键点击测量结果转换为可以用来估计语音麦克风信号110中键点击的贡献的某物。
根据本公开的至少一个实施例,可以使用来自键座麦克风115的频谱-振幅信息按比例增加或者缩小对语音麦克风中的击键的估计。这导致在语音麦克风中在每个时间帧中键点击噪声在每个频率处的估计功率水平。然后,可以基于在语音麦克风中在每个时间帧中键点击噪声在每个频率处的该估计功率水平来提取语音信号。
在一个或者多个其它示例中,本公开的方法和系统可以用于移动装置(例如,移动电话、智能电话、个人数字助理(pda))并且用于设计为通过言语识别控制装置的各种系统。
下文提供了关于本公开的瞬态噪声检测和信号恢复算法的细节,并且还描述了算法的一些示例性能结果。图2图示出了一种用于通过使用作为参考信号的辅助麦克风输入信号来抑制音频信号中的瞬态噪声的示例高级过程200。下文将进一步描述示例过程200中的框205至215的细节。
记录设置
为了进一步说明本文所描述的方法和系统的各个特征,根据本公开的一个或者多个实施例,以下提供了一种示例设置。在本场景中,参考麦克风(例如,键座麦克风)记录键敲击直接制造的声音,并且将其用作辅助音频流以帮助恢复主要语音信道。同样可获得,在语音麦克风波形xv和键座麦克风波形xk的44.1khz下采样的同步记录。键座麦克风放置在用户装置的主体中的键盘下,并且在声学上与周围环境隔离。可以合理地假设由键座麦克风捕获到的信号包含极少的所需言语和环境噪声,并且因此充当污染击键噪声的良好参考记录。从这一点开始,可以假设已经使用本领域的技术人员熟知的任何合适的方法(例如,短时傅里叶变换(stft))将音频数据变换为时频域。例如,在stft的情况下,xv,j,t和xk,j,t将表示在某些频率点j和时间帧t下的复频率系数(尽管在以下描述中可以省略这些索引,其中,不会引入歧义作为结果)。
建模和推断
一种方案可以建模语音波形,假设参考麦克风与语音麦克风之间的在频率点j下的线性传递函数hj,并且假设没有言语污染键座麦克风:
xv,j=vj+hjxk,j,
省略了时间帧索引,其中,v是所需语音信号并且h是从被测量的键座麦克风xk到语音麦克风的传递函数。然而,该公式呈现了一些很难的问题。例如,来自不同键的击键将具有不同传递函数,意味着将需要针对每个键学习大型传递函数库,或者当按压新键时,需要系统是非常快速适应的。另外,已经在相同键上的重复键敲击之间在来自真实系统的实验测量到的传递函数中观察到显著随机差异。对这些显著差异的一个可能的解释是,它们由设置在典型硬件系统中的非线性“颤动(rattle)”型振荡造成。
因此,虽然线性传递函数方案在某些有限场景中可能是有用的,但是在大多数情况下这种方案都无法完全去除击键干扰的影响。
鉴于上述问题,本公开提供了一种稳健的基于信号的方案,其中,将传递函数中的随机扰动和非线性建模为对语音麦克风处的测量到的击键波形k的随机影响:
xv,j=vj+kj,(1)
其中,v是所需语音信号并且k是不需要的键敲击。
鲁棒模型和先验分布
根据本公开的至少一个实施例,可以针对频域中的语音和键盘信号用公式表示统计模型。这些模型展示时频域中的言语信号的已知特性(例如,稀疏性和重尾性(非高斯)行为)。以分布为逆伽马分布的随机变量将vj建模为条件复正态分布,普遍认为这相当于将vj建模为重尾学生t分布,
其中,~表示随机变量是根据右侧的分布来得出的,nc是复正态分布并且ig是逆伽马分布。将先验参数(αv,βv)调节为与言语的频谱变异性和/或来自早期帧的先前估计的言语频谱匹配,下文将对此进行更详细的描述。已经发现这种模型对很多音频增强/分离域都是有效的,并且与本领域的技术人员熟知的其它高斯或者非高斯统计言语模型形成对比。
根据本文所描述的一个或者多个实施例,还依据重尾分布但是以其在次要参考信道xk,j上回归的缩放比例来分解键盘分量k:
其中,α是以随机增益因子缩放整个频谱的随机变量(应注意的是,在近似频谱形状对于缩放比例(例如,fj)已知的情况下,其可以例如是低通滤波器响应,该近似频谱形状可以仅通过用αfj替换α来整个被并入以下):
可以进行关于先验分布的以下条件独立性假设:(i)所有语音和键盘分量v和k分别是在其缩放参数σv/k的条件下跨越频率和时间来独立得出的;(ii)这些缩放参数是根据总体增益因子α从上述先验结构条件来独立得出的;并且(iii)所有这些分量独立于输入回归变量xk的值是先验的。这些假设在大多数情况下是合理的,并且简化了概率分布的形式。
本公开的方法和系统至少部分是通过观察键座麦克风与语音麦克风之间的频率响应具有跨越频率的基本上不变的增益幅度响应(其被建模为未知增益α,但是服从振幅和相位两者的随机扰动(由
根据一个或者多个实施例,本文所描述的方法和系统的目的在于基于观察到的信号xv和xk来估计所需语音信号(vj)。因此,合适的干扰对象是后验分布,
p(v|xv,xk)=∫α,σk,σvp(v,α,σk,σv|xv,xk)dαdσkdσv,
其中,(σk,σv)是当前时帧中的跨越所有频率点j的缩放参数{σk,j,σv,j}的集合。通过后验分布,可以提取mmse(最小均方误差)估计方案的期望值e[v|xv,xk],或者以本领域的技术人员所熟知的方式获得一些其它估计(例如,基于感知成本函数)。这些期望通常是使用例如贝叶斯蒙特卡罗方法来处理的。然而,因为蒙特卡罗方案有可能导致非实时处理,所以本文所提供的方法和系统避免使用这种技术。相反,根据一个或者多个实施例,本公开的方法和系统通过使用广义期望最大化(em)算法来利用map(最大后验)估计:
其中,将α包括在优化中以避免额外的数字积分。
em算法的发展
在em算法中,首先定义待被整合出来的潜在变量。在本模型中,这种潜在变量包括(σk,σv)。算法然后迭代地操作,开始于初始估计(v0,α0)。在迭代i中,完整数据对数似然的期望q可以如下计算(应该注意,以下是em的贝叶斯公式,其中,针对未知v和α包括先验分布):
q(v,α),(v(i),α(i)))
=e[log(p((v,α)xk,xv,σv,σk))|(v(i),α(i))],
其中,(v(i),α(i))是(v,α)的第i次迭代估计。期望是关于p(σv,σk|α(i),v(i),xk,xv)而取得的,其在条件独立性假设(上文所描述的)简化为
其中,
在应用了条件独立性假设的情况下,可以通过使用贝叶斯定理在频率点j上如下扩展对数条件分布:
其中,符号
算法的期望部分因此简化为以下:
其中,从上述行定义期望eα、
现在,考虑
因此,在第i次迭代中:
其是
通过相似的推理,可以获得等式(5)中的
因此,在第i次迭代中:
将计算得到的期望代入q,算法的最大化部分使q与(v,α)共同最大化。由于模型的复杂结构,这种最大化难以以该q函数的闭合形式实现。相反,根据本文所描述的一个或者多个实施例,本公开的方法利用迭代公式来在α固定的情况下最大化v,然后在v固定在新的值的情况下最大化α,并且在每次em迭代内重复此数次。这种方案是与标准em相似的广义em,保证了对概率面的最大值的收敛性,因为保证每次迭代都提高了当前迭代的估计(例如,其可能是局部最大值,就像标准em一样)的概率。因此,本文所描述的广义em算法保证后验概率在每次迭代时都不降低,并且因此可以期望后验概率随着迭代次数的增加而收敛成真map解。
省略(为了简洁起见)在发现q相对于v和α的最大值中的代数步骤,可以得出以下的最大化步骤更新。符号可以是这样,可以在每次迭代时用vj(i+1)=vj(i)、
并且对于α:
其中,j是频率点的总数。
一旦上述em过程已经运行了数次迭代,并且顺利地收敛,就可以将结果频谱分量vj变换回到时域(例如,在短时傅里叶变换(stft)的情况下经由快速傅里叶逆变换(fft))并且通过窗口化重叠相加过程将该结果频谱分量vj重新构建为连续信号。
示例
为了进一步说明本公开的信号恢复方法和系统的各个特征,下文描述了可以通过实验获得的一些示例结果。应该理解,虽然下文在包含位于键盘下方的辅助麦克风的膝上型计算机的背景下提供了示例性能结果,但是本公开的范围并不限于该特定背景或者实施方式。相反,也可以在涉及其它类型的用户装置的各种其它背景和/或场景下通过使用本公开的方法和系统来实现相似的性能水平,该其它类型的用户装置包括例如位于用户装置上除键盘下方之外的位置处(但是不在与装置的一个或者多个主要麦克风相同或者相似的位置处)的辅助麦克风。
本示例基于从膝上型计算机记录的音频文件,该膝上型计算机包含至少一个主要麦克风(例如,语音麦克风)还有位于键盘下方的辅助麦克风(例如,键座麦克风)。通过语音和键座麦克风以及使用广义em算法执行的处理在44.1khz下同步执行采样。以50%的重叠和汉宁分析窗口,1024个样本的帧长度可以用于stft变换。
在本示例中,可以单独记录语音提取,并且然后单独记录击键提取,并且然后将为了获得被破坏的麦克风信号而记录的信号加在一起,“地面实况(groundtruth)”恢复可用于该被破坏的麦克风信号。可以如下固定贝叶斯模型的先验参数:
(1)先验
(2)先验
(3)先验α~ig(αα,βα):αα=4,βα=100,000(αα+1),这将α2的先验众数放置在100,000处,这通过手从记录数据的实验分析调节,其中,仅仅存在击键噪声。
在本示例中,通过测试em的各种配置确定结果在约十次迭代之后以很小的进一步改进收敛,其中每次完整em迭代具有等式(6)和(7)的广义最大化步骤的两次子迭代。然后可以为所有后续模拟固定这些参数。
重要的是要注意,根据本文所描述的一个或者多个实施例,可以将时域检测器设计为标记被破坏的帧,并且可以仅仅将处理应用于被标记以检测的帧,因此避免通过处理未被破坏的帧的不必要的信号失真和无用的计算。至少在本示例中,时域检测器包括来自键座麦克风信号和两个可用(立体)语音麦克风的检测的基于规则的组合。在每个音频流中,检测基于自回归(ar)误差信号,并且当最大误差幅度超过该帧的中间误差幅度的某个因子时将帧标记为被破坏。
性能可以通过使用平均分段信噪比(snr)度量
结果说明在考虑完整言语提取时将平均值提高了约3db,并且当仅仅引入检测为被破坏的帧时将平均值提高了6db至10db。可以通过调节先验参数以在感知的信号失真与噪声的抑制水平之间权衡来调整这些示例结果。虽然这些示例结果可能看上去有相对小的改善,但是与静音信号相比较并且与被破坏的输入音频相比较,根据本公开的方法和系统而使用的em方案的感知效果有显著改善。
图4图示出了根据本文所描述的一个或者多个实施例的示例检测和恢复。在所有三个图形表示410、420和430中,检测为被破坏的帧由0-1波形440指示。这些示例检测与对键点击数据波形的可视化研究一致。
图形表示410示出了来自语音麦克风的被破坏的输入,图形表示420示出了来自语音麦克风的恢复的输出,并且图形表示430示出了未受到任何破坏的初始语音信号(可用于本示例作为“地面实况”)。应该注意,在图形表示420中,在很好地抑制105k样本周围的干扰的同时,在125k样本和140k样本周围保留言语包络和言语事件。从示例性能结果可以看出,音频在恢复方面有显著改善,留下极少的“点击”残留,该残留可以通过本领域的技术人员所熟知的各种后处理技术来去除。在本示例中,针对被破坏的帧获得在分段snr方面的有利的10.1db的改善(与使用“静音恢复”相比),并且当考虑到所有帧(包括未被破坏的帧)时,获得2.5db的改善。
图5是根据本文所描述的一个或者多个实施例的设置为通过并入作为参考信号的辅助麦克风输入信号来抑制音频信号中的瞬态噪声的示例性计算机(500)的高级框图。根据至少一个实施例,计算机(500)可以配置为将空间选择性用于分离直达和反射的能量并且单独地计算噪声,从而考虑波束成形器对反射声的响应和噪声的影响。在非常基本的配置(501)中,计算装置(500)通常包括一个或者多个处理器(510)和系统存储器(520)。存储器总线(530)可以用于在处理器(510)和系统存储器(520)之间进行通信。
取决于所需配置,处理器(510)可以具有任何类型,包括但不限于微处理器(μp)、微控制器(μc)、数字信号处理器(dsp)、或者其任何组合。处理器(510)可以包括一级或者多级缓存(诸如,一级缓存(511)和二级缓存(512))、处理器核心(513)、和寄存器(514)。处理器核心(513)可以包括算术逻辑单元(alu)、浮点单元(fpu)、数字信号处理核心(dsp核心)、或者其组合。存储器控制器(515)也可以与处理器(510)一起使用,或者在一些实施方式中,存储器控制器(515)可以是处理器(510)的内部零件。
取决于所需配置,系统存储器(520)可以具有任何类型,包括但不限于易失性存储器(诸如,ram)、非易失性存储器(诸如,rom、闪存等)、或者其组合。系统存储器(520)通常包括操作系统(521)、一个或者多个应用(522)、和程序数据(524)。根据本文所描的一个或者多个实施例,应用(522)可以包括信号恢复算法(823),该算法用于通过使用关于从参考(例如,辅助)麦克风接收到的瞬态噪声的信息来抑制包含语音数据的音频信号中的瞬态噪声,该参考(例如,辅助)麦克风定位为接近瞬态噪声的源。根据本文所描的一个或者多个实施例,程序数据(524)可以包括存储指令,该指令在由一个或者多个处理装置执行时实施一种方法,该方法用于通过使用统计模型将参考麦克风映射到语音麦克风(例如,图1所示的示例系统100中的辅助麦克风115和语音麦克风110)上来抑制瞬态噪声,从而可以使用关于来自参考麦克风的瞬态噪声的信息来估计瞬态噪声在由语音麦克风捕获到的信号中的贡献。
另外,根据至少一个实施例,程序数据(824)可以包括参考信号数据(525),该参考信号数据(525)可以包括关于由参考麦克风(例如,图1所示的示例系统100中的参考麦克风115)测量到的瞬态噪声的数据(例如,频谱-振幅数据)。在一些实施例中,应用(522)可以设置为与程序数据(524)一起在操作系统(521)上运行。
计算装置(500)可以具有附加特征或者功能、以及利于基础配置(501)与任何所需装置和接口之间的通信的附加接口。
系统存储器(520)是计算机存储介质的示例。该计算机存储介质包括但不限于:ram、rom、eeprom、闪存或者其它存储技术、cd-rom、数字多用盘(dvd)或者其它光学存储装置、磁带盒、磁带、磁盘存储装置获取其它磁存储装置、或者可以用于存储所需信息并且可以由计算装置500访问的任何其它介质。任何这种计算机存储介质可以是装置(500)的部分。
计算装置(500)可以实施为小型便携式(或者移动)电子装置的一部分,诸如,蜂窝电话、智能电话、个人数字助理(pda)、个人媒体播放器装置、平板计算机(平板电脑)、无线网页观看装置、个人头戴式装置、专用装置、或者混合装置,其包括上述功能中的任何一种。计算装置(500)也可以实施为个人计算机,包括膝上型计算机配置和非膝上型计算机配置两者。
前述具体实施方式已经经由框图、流程图和/或示例的使用来陈述了装置和/或过程的各种实施例。由于这种框图、流程图和/或示例包含一种或者多种功能和/或操作,本领域的技术人员要理解,可以通过大范围的硬件、软件、固件、或者它们的几乎所有组合单独地和/或共同地实施在这种框图、流程图或示例内的每种功能和/或操作。根据至少一个实施例,本文所描述的主题的多个部分可以经由专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)、或者其它集成格式实施。然而,本领域的技术人员要认识到,本文所公开的实施例的一些方面可以全部或者部分等效地实施在集成电路中,作为在一个或者多个计算机上运行的一个或者多个计算机程序,作为在一个或者多个处理器上运行的一个或者多个程序,作为固件,或者作为它们的几乎所有组合,并且根据本公开,设计电路系统和/或为软件和/或固件写代码将很好地在本领域的技术人员的技术范围内。
另外,本领域的技术人员要了解,本文所描述的主题的机制能够作为各种形式的程序产品发布,并且使用了本文所描述的主题的说明性实施例,不管用于实际上执行发布的特定类型的非暂时性信号承载介质。非暂时性信号承载介质的示例包括但不限于以下:可记录型介质,诸如,软盘、硬盘驱动器、光盘(cd)、数字视盘(dvd)、数字磁带、计算机存储器等;以及传输型介质,诸如,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路等)。
本文关于任何复数形式和/或单数形式的术语的实质上的使用,在适合上下文和/或应用时,本领域的技术人员可以从复数形式转换为单数形式并且/或者从单数形式转换为复数形式。为清晰起见,可以明确地陈述各种单数形式/复数形式置换。
因此,已经描述了本主题的具体实施例。其它实施例在以下权利要求书的范围内。在某些情况下,在权利要求书中叙述的动作可以按照不同的次序来执行并且仍然获得期望的结果。另外,在附图中描绘的过程不必要求所示的特定次序或者相继次序来获得期望的结果。在某些实施方式中,多任务处理和并行处理可能是有益的。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除