用于语音增强的音频处理系统的制作方法
本发明大体上涉及电子电路,并且更具体地说,涉及一种用于语音增强的音频处理系统。
背景技术:
在通信系统中,由麦克风捕捉的语音信号要么通过用于通信的数字信道传输,要么以数字格式存储。此类语音信号包括影响语音信号的质量的语音分量和噪声分量。噪声分量可包括平稳噪声和非平稳噪声。通信系统通常利用音频处理系统来增强语音信号的质量,以便抑制存在于语音信号中的噪声并改进语音信号的信噪比(snr)。
在音频处理系统中使用单麦克风噪声抑制技术来改进从系统的主要麦克风(mic)接收的主要语音信号的snr。单麦克风噪声抑制技术包括对存在于主要语音信号中的噪声建模并使用谱减法抑制噪声。当存在于主要语音信号中的噪声类型是平稳噪声时,谱减法是有效的。然而,如果存在于主要语音信号中的噪声类型是非平稳噪声,那么谱减法无效。
用于抑制主要语音信号中的噪声的另一已知技术是n麦克风噪声抑制技术。n麦克风噪声抑制技术包括使用辅助麦克风所提供的辅助语音信号对存在于主要语音信号中的噪声建模,然后使用所述建模抑制主要语音信号中的噪声。此技术可以有效抑制平稳和非平稳噪声两者。然而,同时处理多个语音信号会增加音频处理系统的复杂性,这需要高于处理一个语音信号的处理功率。但是,当只有平稳噪声存在于主要语音信号中时,对于单麦克风和n麦克风噪声抑制技术来说,输出主要语音信号的质量是相同的。
因此,有利的是具有一种使用更少的处理功率来抑制存在于语音信号中的噪声同时保持语音信号的质量的音频处理系统。
技术实现要素:
根据一种实施方式,一种连接到多个麦克风的音频处理系统包括:
噪声抑制电路,其在第一操作模式和第二操作模式中的一个中操作,其中所述噪声抑制电路包括:
分析器,其从所述多个麦克风中的主要麦克风接收主要语音信号,并从所述主要语音信号的非语音区域提取一组特征;
噪声分类电路,其从所述分析器接收所提取的一组特征,并使用所述所提取的一组特征检测所述非语音区域中的噪声类型;以及
模式选择电路,其基于检测到的噪声类型选择所述第一和第二操作模式中的一个来抑制所述主要语音信号中的噪声。
在一个或多个实施方式中,所述噪声抑制电路另外配置成基于与所述音频处理系统相关联的电池的电池电平而选择所述第一操作模式和所述第二操作模式中的一个,并且:
当所述检测到的噪声类型是平稳噪声时,选择所述第一操作模式,
另外,当所述检测到的噪声类型不同于所述平稳噪声并且所述电池电平小于阈值电平时,选择所述第一操作模式,并且
当所述检测到的噪声类型不同于所述平稳噪声并且所述电池电平大于阈值电平时,选择所述第二操作模式。
在一个或多个实施方式中,音频处理系统另外包括:连接到所述噪声抑制电路的存储器,所述存储器存储训练成检测所述非语音区域中的所述噪声类型的经训练分类模型,其中所述噪声抑制电路使用所述经训练分类模型检测所述非语音区域中的所述噪声类型。
在一个或多个实施方式中,所述噪声抑制电路还配置成:
检测所述主要语音信号中的话音活动,以及
基于所述话音活动的检测来识别所述主要语音信号的所述非语音区域。
在一个或多个实施方式中,所述噪声抑制电路还配置成:
分别从所述多个麦克风中的一个或多个辅助麦克风接收一个或多个辅助语音信号。
在一个或多个实施方式中,所述噪声抑制电路还配置成:
基于对所述第一操作模式和所述第二操作模式中的一个的选择,抑制所述主要语音信号中的所述噪声以生成增强语音信号,其中:
在所述第一操作模式中,所述噪声抑制电路抑制所述主要语音信号中的所述噪声并舍弃所述一个或多个辅助语音信号;且
在所述第二操作模式中,所述噪声抑制电路通过所述一个或多个辅助语音信号中的至少一个辅助语音信号来抑制所述主要语音信号中的所述噪声。
在一个或多个实施方式中,所述所提取的一组特征包括所述非语音区域的频谱通量和频谱质心中的至少一个。
根据另一种实施方式,一种处理音频信号的方法包括:
通过噪声抑制电路从多个麦克风中的主要麦克风接收主要语音信号;
通过所述噪声抑制电路从所述主要语音信号的非语音区域提取一组特征;
基于所提取的一组特征,通过所述噪声抑制电路检测所述非语音区域中的噪声类型;以及
基于检测到的噪声类型,通过所述噪声抑制电路选择第一和第二操作模式中的一个来抑制所述主要语音信号中的噪声。
在一个或多个实施方式中,所述第一和第二操作模式中的一个另外基于向所述噪声抑制电路供电的电池的电池电平而选择,并且:
当所述检测到的噪声类型是平稳噪声时,选择所述第一操作模式,
另外,当所述检测到的噪声类型不同于所述平稳噪声并且所述电池电平小于预定阈值电平时,选择所述第一操作模式,且
当所述检测到的噪声类型不同于所述平稳噪声并且所述电池电平大于所述预定阈值电平时,选择所述第二操作模式。
在一个或多个实施方式中,音频处理方法另外包括:
通过所述噪声抑制电路检测所述主要语音信号中的话音活动;以及
基于所述话音活动的检测,通过所述噪声抑制电路识别所述主要语音信号的所述非语音区域。
在一个或多个实施方式中,另外基于存储于存储器中的经训练分类模型来检测所述非语音区域中的所述噪声类型,并且所述经训练分类模型训练成检测所述非语音区域中的所述噪声类型。
在一个或多个实施方式中,音频处理方法另外包括:
通过所述噪声抑制电路分别从所述多个麦克风中的一个或多个辅助麦克风接收一个或多个辅助语音信号;以及
基于对所述第一和第二操作模式中的一个的选择,通过所述噪声抑制电路抑制所述主要语音信号中的所述噪声以生成增强语音信号,其中:
在所述第一操作模式中,抑制所述主要语音信号中的所述噪声,并舍弃所述一个或多个辅助语音信号;且
在所述第二操作模式中,使用所述辅助语音信号中的至少一个抑制所述主要语音信号中的所述噪声。
在一个或多个实施方式中,所述一组特征包括所述非语音区域的频谱通量和频谱质心中的至少一个。
根据另一实施方式,一种噪声抑制电路包括:
分析器,其接收主要语音信号并从所述主要语音信号的非语音区域提取一组特征;
噪声分类电路,其从所述分析器接收所提取的一组特征,并使用所述所提取的一组特征检测所述非语音区域中的噪声类型;以及
模式选择电路,其基于检测到的噪声类型选择所述噪声抑制电路的第一和第二操作模式中的一个来抑制所述主要语音信号中的噪声。
在一个或多个实施方式中,
所述模式选择电路另外基于与所述噪声抑制电路相关联的电池的电池电平来选择所述第一和第二操作模式中的一个,以及
当所述检测到的噪声类型是平稳噪声或所述电池电平小于预定阈值电平时,选择所述第一操作模式。
在一个或多个实施方式中,当所述检测到的噪声类型是非平稳噪声并且所述电池电平大于阈值电平时,选择所述第二操作模式。
在一个或多个实施方式中,噪声抑制电路另外包括:
麦克风选择电路,其连接到多个麦克风,其中所述麦克风选择电路配置成:
从所述多个麦克风接收多个语音信号,
基于所述多个语音信号而识别所述多个麦克风中的主要麦克风,其中包括在所述多个语音信号中且从所识别的主要麦克风接收的语音信号是所述主要语音信号,以及
话音活动检测器,其连接到所述麦克风选择电路,其中所述话音活动检测器配置成:
从所述麦克风选择电路接收所述主要语音信号,
检测所述主要语音信号中的话音活动,以及
基于所述话音活动的检测,识别所述主要语音信号的所述非语音区域。
在一个或多个实施方式中,噪声抑制电路另外包括:
第一降噪电路,其在选择所述第一操作模式时启用,其中所述第一降噪电路舍弃所述一个或多个辅助语音信号并抑制所述主要语音信号中的所述噪声,以生成增强语音信号;以及
第二降噪电路,其在选择所述第二操作模式时启用,其中所述第二降噪电路使用所述辅助语音信号中的至少一个来抑制所述主要语音信号中的所述噪声,以生成所述增强语音信号。
在一个或多个实施方式中,噪声抑制电路另外包括存储器,所述存储器存储训练成检测所述主要语音信号中的所述噪声类型的经训练分类模型,其中所述噪声分类电路使用所述经训练分类模型来检测所述非语音区域中的所述噪声类型。
在一个或多个实施方式中,所述一组特征包括所述非语音区域的频谱通量和频谱质心中的至少一个。
附图说明
当结合附图阅读时,将更好地理解以下详细描述的本发明的优选实施例。本发明是借助于例子示出的,并且不受附图的限制,在附图中类似标记指示类似元件。
图1是根据本发明的实施例的包括第一到第三麦克风和音频处理系统的电子装置的示意性框图;
图2是根据本发明的实施例的图1的音频处理系统的示意性框图;
图3a是根据本发明的实施例的图1的音频处理系统的第一降噪电路的示意性框图;
图3b是根据本发明的实施例的图1的音频处理系统的第二降噪电路的示意性框图;以及
图4a和4b是根据本发明的实施例的示出语音增强方法的流程图。
具体实施方式
附图的详细描述意图作为本发明的当前优选实施例的描述,且并不意图表示其中可以实践本发明的唯一形式。应理解相同或等效功能可以通过不同实施例实现,这些实施例被包含在本发明的精神和范围内。
在一个实施例中,本发明提供一种音频处理系统,其包括在第一操作模式和第二操作模式中的一个中操作的噪声抑制电路。噪声抑制电路从耦合到系统的多个麦克风中的主要麦克风接收主要语音信号,并从主要语音信号的非语音区域提取一组特征。噪声抑制电路使用所提取的一组特征检测非语音区域中的噪声类型,并基于检测到的噪声类型选择第一和第二操作模式中的一个,以便抑制主要语音信号中的噪声。
在另一实施例中,本发明提供一种语音增强方法。方法包括通过噪声抑制电路从多个麦克风中的主要麦克风接收主要语音信号。方法另外包括通过噪声抑制电路从主要语音信号的非语音区域提取一组特征。方法另外包括基于所提取的一组特征,通过噪声抑制电路检测非语音区域中的噪声类型。方法另外包括基于检测到的噪声类型,通过噪声抑制电路选择第一操作模式和第二操作模式中的一个来抑制主要语音信号中的噪声。
在又一实施例中,本发明提供一种噪声抑制电路,其包括分析器、噪声分类电路和模式选择电路。分析器接收主要语音信号并从主要语音信号的非语音区域提取一组特征。噪声分类电路从分析器接收所提取的一组特征并使用所提取的一组特征检测非语音区域中的噪声类型。模式选择电路基于检测到的噪声类型而选择噪声抑制电路的第一和第二操作模式中的一个来抑制主要语音信号中的噪声。在第一操作模式中,仅处理主要语音信号,并且在第二操作模式中,处理从多个麦克风接收的多个语音信号,包括主要语音信号。在一个实施例中,如果用于为噪声抑制电路供电的电池的功率电平较低,那么通过模式选择电路选择第一操作模式。
本发明的各个实施例提供一种音频处理系统和语音增强方法。音频处理系统包括噪声抑制电路,所述噪声抑制电路从主要麦克风接收主要语音信号并从辅助麦克风接收辅助语音信号。基于在主要语音信号中检测到的噪声类型,噪声抑制电路在第一操作模式和第二操作模式中的一个中操作。当噪声类型是平稳噪声时,噪声抑制电路在第一操作模式中操作,当噪声类型不同于平稳噪声,也就是非平稳噪声时,噪声抑制电路在第二操作模式中操作。另外,当与音频处理系统相关联的电池的功率电平小于预定阈值电平时,噪声抑制电路在第一模式中操作。换句话说,噪声抑制电路基于在主要语音信号中检测到的噪声类型及电池功率电平而在第一和第二操作模式之间切换。在第一操作模式中,噪声抑制电路抑制主要语音信号中的噪声以生成增强语音信号并舍弃辅助语音信号。在第二操作模式中,噪声抑制电路使用主要和辅助语音信号来抑制主要语音信号中的噪声。
当主要语音信号中只检测到平稳噪声时,噪声抑制电路舍弃辅助语音信号。当主要语音信号中检测到非平稳噪声时,噪声抑制电路能够动态切换到第二操作模式。此外,当电池功率电平降到预定阈值电平以下时,噪声抑制电路能够从第二模式切换到第一模式。因此,噪声抑制电路需要更少的处理功率来增强主要语音信号,同时维持增强语音信号的质量。
现在参考图1,示出了根据本发明的实施例的包括第一到第三麦克风(mic)102a-102c和音频处理系统104的电子装置100的框图。电子装置100由电池105供电,但是在其它实施例中,装置100可能不包括电池,而是由外部电力装置供电。电子装置100的例子包括各种移动通信装置,如移动电话、平板电脑、笔记本电脑或台式电脑、对讲电话台、数字无绳电话等。
第一到第三麦克风102a-102c在处于作用中时捕捉声音并分别生成第一到第三语音信号s1_in-s3_in。基于电子装置100的取向,第一到第三麦克风102a-102c中的一个用作主要麦克风,其余麦克风用作辅助麦克风。由主要麦克风生成的语音信号被称为主要语音信号pss。本领域的技术人员应清楚,电子装置100的范围不限于三个麦克风,而是可以在不偏离本发明的范围的情况下包括任何数目个麦克风。
音频处理系统104连接到第一到第三麦克风102a-102c,分别用于接收第一到第三语音信号s1_in-s3_in。音频处理系统104另外连接到电池105,用于从电池105接收电池功率电平信号bl,所述电池功率电平信号bl指示电池105的功率电平。音频处理系统104抑制存在于第一到第三语音信号s1_in-s3_in中的主要语音信号pss中的噪声并生成增强语音信号s_out。
音频处理系统104包括噪声抑制电路106和存储器108。噪声抑制电路106从电池105接收电池电平信号bl。噪声抑制电路106另外分别从第一到第三麦克风102a-102c接收第一到第三语音信号s1_in-s3_in,并将第一到第三麦克风102a-102c中的一个识别为主要麦克风,将对应的语音信号识别为主要语音信号。例如,噪声抑制电路106可以将第一麦克风102a识别为主要麦克风,并将第一语音信号s1_in识别为主要语音信号pss。噪声抑制电路106另外将第二麦克风102b和第三麦克风102c识别为辅助麦克风,并将第二语音信号s2_in和第三语音信号s3_in识别为第一辅助语音信号sss_1和第二辅助语音信号sss_2。本领域的技术人员应清楚,在任何给定时间点,第一到第三麦克风102a-102c中的任一个都可以用作主要麦克风。
噪声抑制电路106检测主要语音信号pss的非语音区域并从非语音区域提取一组特征。所述一组特征包括频谱通量和频谱质心。基于所述一组特征,噪声抑制电路106检测存在于非语音区域中的噪声类型。噪声类型被分类为平稳噪声和非平稳噪声中的一个。基于检测到的噪声类型和由电池电平信号bl指示的电池电平,噪声抑制电路106在第一和第二操作模式中的一个中操作,以抑制存在于主要语音信号pss中的噪声并生成增强语音信号s_out。
当存在于主要语音信号pss中的噪声类型是平稳噪声时,噪声抑制电路106在第一模式中操作。当由电池电平信号bl指示的电池功率电平小于预定阈值时,噪声抑制电路106也在第一模式中操作。也就是说,在目前优选实施例中,当电池功率电平低于预定阈值时,不管在主要语音信号中检测到什么噪声类型,噪声抑制电路106都在第一模式中操作。
当存在于主要语音信号pss中的噪声类型不同于平稳噪声并且由电池电平信号bl指示的电池电平大于预定阈值电平时,噪声抑制电路106在第二操作模式中操作。在第一模式中,噪声抑制电路106处理主要语音信号pss并舍弃辅助语音信号sss_1和sss_2,而在第二模式中,噪声抑制电路106处理主要语音信号pss以及第一辅助语音信号sss_1和第二辅助语音信号sss_2中的至少一个来生成增强语音信号s_out。
存储器108连接到噪声抑制电路106。存储器108的例子包括静态随机存取存储器(sram)、动态随机存取存储器(dram)或任何其它类型的辅助存储装置。存储器108存储经训练分类模型110。使用预先收集的平稳和非平稳噪声的样本来训练经训练分类模型110。噪声抑制电路106使用经训练分类模型110来检测存在于主要语音信号pss中的噪声类型。
现在参考图2,示出了根据本发明的实施例的音频处理系统104和噪声抑制电路106的框图。噪声抑制电路106包括麦克风选择电路(msc)200、话音活动检测器(vad)202、分析器204、噪声分类电路206、模式选择电路208、第一降噪电路210a和第二降噪电路210b。
msc200连接到第一到第三麦克风102a-102c,分别用于接收第一到第三语音信号s1_in-s3_in。msc200对第一到第三语音信号s1_in-s3_in取样,并将所取样的第一到第三语音信号s1_in-s3_in细分成具有限定持续时间(例如,10毫秒(ms))的重叠帧。在一个例子中,两个连续帧之间的重叠百分比等于50%。每个帧包括对应语音信号的一组固定样本。例如,第一语音信号s1_in中的每个帧包括第一语音信号
s1_in的80个连续样本。
msc200基于各个因素将第一到第三麦克风102a-102c中的一个识别为主要麦克风,所述因素例如是第一到第三语音信号s1_in-s3_in的强度、电子装置100的取向等等。在一个实施例中,msc200将第一麦克风102a识别为主要麦克风。因此,第二麦克风102b和第三麦克风102c被识别为辅助麦克风。当第一麦克风102a被识别为主要麦克风时,第一语音信号s1_in充当主要语音信号pss,并且第二语音信号s2_in和第三语音信号s3_in分别充当第一辅助语音信号sss_1和第二辅助语音信号sss_2。在下文中,第一语音信号s1_in称为主要语音信号pss,且第二语音信号s2_in和第三语音信号s3_in分别称为第一辅助语音信号sss_1和第二辅助语音信号sss_2。msc200将主要语音信号pss的帧输出到vad202,并将第一辅助语音信号sss_1和第二辅助语音信号sss_2的帧输出到模式选择器208。
vad202接收主要语音信号pss的帧。对于主要语音信号pss的每个帧,vad202检测话音活动,即,检测主要语音信号pss的每个帧中的语音的存在情况。vad202舍弃主要语音信号pss中检测到话音活动的帧。将主要语音信号pss中没有检测到话音活动的帧识别为主要语音信号pss的非语音区域。vad202输出主要语音信号pss中被识别为非语音区域的帧。在下文中,主要语音信号pss中被识别为非语音区域的每个帧称为“非语音区域帧nrf”。
分析器204连接到vad202并接收非语音区域帧nrf。分析器204通过应用加窗技术并接着应用快速傅里叶变换(fft)将每个非语音区域帧nrf从时域转换到频域。分析器204所应用的加窗技术的例子包括汉宁窗、矩形窗、汉明窗等等。在下文中,转换到频域的非语音区域帧nrf称为“已变换帧”。接着,分析器204从已变换帧提取一组特征sof并输出所提取的一组特征sof。所述一组特征sof是包括频谱通量和频谱质心的特征向量。
频谱通量是主要语音信号pss的功率谱如何快速波动的量度。频谱通量的值通过比较当前已变换帧的功率谱与先前已变换帧的功率谱来确定。在一个实施例中,分析器204使用下面的方程式1来确定主要语音信号pss的当前已变换帧的频谱通量:
其中,
x(m,k)表示第m个已变换帧的第k个频率仓;
x(n,k)表示第n个已变换帧的第k个频率仓;以及
e|x(n,k)|表示先前m个已变换帧的主要语音信号pss的量值频谱的均值。
频谱质心是用于表征主要语音信号pss的频谱的量度。频谱质心指示主要语音信号pss的频谱的质量中心的位置。在一个实施例中,分析器204通过使用下面的方程式2确定主要语音信号pss的当前已变换帧的频谱质心:
其中,
f[k]表示当前已变换帧的第k个频率仓的振幅;以及
n表示当前已变换帧中的频率仓的计数。
本领域的技术人员应清楚,在不偏离本发明的范围的情况下,所述一组特征sof还可包括其它特征,例如,频谱峰度、频谱偏斜度、频谱滚降斜率、频谱散度、频谱斜率等等。
噪声分类电路206是检测存在于主要语音信号pss中的噪声类型的二元分类器。噪声分类电路206连接到分析器204,用于接收所提取的一组特征sof。噪声分类电路206还连接到存储器108,用于接收经训练分类模型110。噪声分类电路206基于经训练分类模型110而检测由所提取的一组特征sof表示的噪声类型(即,平稳或非平稳噪声)。在一个实施例中,噪声分类电路206使用逻辑回归技术检测噪声类型。在另一实施例中,噪声分类电路206使用神经网络、支持向量机、二元分类器等等来确定噪声类型。当检测到的噪声类型是平稳噪声时,噪声分类电路206输出第一检测结果noise1_type,当检测到的噪声类型不同于平稳噪声时,即,当检测到的噪声类型是非平稳噪声时,噪声分类电路206输出第二检测结果noise2_type。
模式选择电路208连接到电池105,用于接收电池功率电平信号bl。模式选择电路208还连接到msc200,用于接收主要语音信号pss的帧以及第一辅助语音信号sss_1和第二辅助语音信号sss_2的帧。模式选择电路208另外连接到噪声分类电路206,用于接收第一检测结果noise1_type和第二检测结果noise2_type中的一个。模式选择电路208使得噪声抑制电路106能够基于第一检测结果noise1_type和第二检测结果noise2_type以及由电池电平信号bl指示的电池功率电平而在第一和第二操作模式之间切换。在优选实施例中,当从噪声分类电路206接收第一检测结果noise1_type时,模式选择电路208选择第一操作模式;当由电池电平信号bl指示的电池电平小于预定阈值电平时,模式选择电路208选择第一操作模式;以及当从噪声分类电路206接收第二检测结果noise2_type并且由电池电平信号bl指示的电池电平大于预定阈值电平时,模式选择电路208选择第二操作模式。在第一操作模式中,模式选择电路208启用第一降噪电路210a,并且在第二操作模式中,模式选择电路208启用第二降噪电路210b。
如果噪声抑制电路106在第一模式中操作,并且模式选择电路208从噪声分类电路206接收第二检测结果noise2_type,且由电池电平信号bl指示的电池电平大于阈值电平,那么模式选择电路208立即通过启用第二降噪电路210b切换到第二操作模式。换句话说,如果噪声抑制电路106在第一模式中操作,并且电池电平大于阈值电平,那么当在当前已变换帧中检测到的噪声类型是非平稳噪声时,噪声抑制电路106立即通过模式选择电路208切换到第二操作模式。
如果噪声抑制电路106在第一模式中操作,并且由电池电平信号bl指示的电池电平小于预定阈值电平,那么模式选择电路208选择第一操作模式。换句话说,如果噪声抑制电路106在第一模式中操作并且电池电平小于阈值电平,那么噪声抑制电路106继续在第一模式中操作,即使在当前已变换帧中检测到的噪声类型是非平稳噪声也如此。阈值电平可以等于电池105的总电池容量的百分之十五。因此,如果噪声抑制电路106在第一模式中操作,并且电池电平处于百分之十,那么噪声抑制电路106继续在第一模式中操作,即使模式选择电路208从噪声分类电路206接收第二检测结果noise2_type也如此。
如果噪声抑制电路106在第二模式中操作,并且模式选择电路208从噪声分类电路206接收第一检测结果noise1_type,那么模式选择电路208在切换到第一操作模式之前等待第一持续时间或已变换帧的第一计数。例如,模式选择电路208直到模式选择电路208针对已变换帧的第一计数(例如,五个已变换帧)连续接收第一检测结果noise1_type才从第二模式切换到第一模式。在模式选择电路208针对已变换帧的第一计数连续接收第一检测结果noise1_type的情形中,模式选择电路208选择第一操作模式。换句话说,如果噪声抑制电路106在第二模式中操作,并且在五个连续已变换帧中检测到的噪声类型是平稳噪声,那么噪声抑制电路106通过模式选择电路208切换到第一模式,否则噪声抑制电路106继续在第二操作模式中操作。
如果噪声抑制电路106在第二模式中操作,并且模式选择电路208接收小于预定阈值的电池电平信号bl,那么模式选择电路208立即选择第一操作模式。例如,阈值电平可以是电池105的总电池容量的百分之十五。因此,如果噪声抑制电路106在第二模式中操作,并且由电池电平信号bl指示的电池电平小于百分之十五,那么噪声抑制电路106切换成在第一操作模式中操作。
在第一操作模式中,第一降噪电路210a连接到模式选择电路208,并接收主要语音信号pss的帧以及第一辅助语音信号sss_1和第二辅助语音信号sss_2的帧。当启用时,第一降噪电路210a抑制主要语音信号pss中的噪声并舍弃第一辅助语音信号sss_1和第二辅助语音信号sss_2,以生成增强语音信号s_out。
在第二操作模式中,第二降噪电路210b连接到模式选择电路208,并接收主要语音信号pss的帧以及第一辅助语音信号sss_1和第二辅助语音信号sss_2的帧。当启用时,第二降噪电路210b使用第一辅助语音信号sss_1和第二辅助语音信号sss_2中的至少一个来抑制主要语音信号pss中的噪声,以生成增强语音信号s_out。
在操作中,msc200从第一到第三麦克风102a-102c接收第一到第三语音信号s1_in-s3_in。msc200将第一麦克风102a识别为主要麦克风,并将第二麦克风102b和第三麦克风102c识别为第一和第二辅助麦克风。因此,第一语音信号s1_in充当主要语音信号pss,并且第二语音信号s2_in和第三语音信号s3_in充当第一辅助语音信号sss_1和第二辅助语音信号sss_2。msc200对主要语音信号pss及第一辅助语音信号sss_1和第二辅助语音信号sss_2进行取样和细分以生成对应帧。
vad202从msc_200接收主要语音信号pss的帧。vad202舍弃主要语音信号pss中具有话音活动的帧,并识别主要语音信号pss的非语音区域帧nrf。例如,vad202舍弃主要语音信号pss的第一到第五帧,并将主要语音信号pss的第六帧识别为非语音区域帧nrf。接着,vad202将非语音区域帧nrf(在此例子中,第六帧)提供给分析器204。
分析器204将接收到的非语音区域帧nrf变换到频域,并从已变换帧提取一组特征sof。接着,分析器204将所提取的一组特征sof提供给噪声分类电路206。
噪声分类电路206从存储器108接收经训练分类模型110。基于接收到的一组特征sof和经训练分类模型110,噪声分类电路206检测存在于已变换帧中的噪声类型。噪声分类电路206可以检测到存在于已变换帧中的噪声类型是平稳噪声,并因此输出第一检测结果noise1_type。
模式选择电路208从噪声分类电路206接收第一检测结果noise1_type,并选择第一操作模式和启用第一降噪电路210a。当启用时,第一降噪电路210a抑制存在于主要语音信号pss中的平稳噪声,舍弃第一辅助语音信号sss_1和第二辅助语音信号sss_2的帧,并生成增强语音信号s_out。
噪声抑制电路106通过在模式选择电路208接收第二检测结果noise2_type之前一直在第一模式中操作来继续抑制主要语音信号pss中的噪声。例如,主要语音信号pss的第七到第二十帧是非语音区域帧nrf,并且噪声分类电路206检测到存在于主要语音信号pss的第七到第二十帧中的噪声类型是平稳噪声。因此,对于第七到第二十帧,模式选择电路208继续接收第一检测结果noise1_type,并且噪声抑制电路106继续在第一模式中操作。
继续这个例子,如果主要语音信号pss的第二十一帧是非语音区域帧nrf,那么噪声分类电路206检测到存在于主要语音信号pss的第二十一帧中的噪声类型是非平稳噪声,噪声分类电路206生成第二检测结果noise2_type。当模式选择电路208从噪声分类电路206接收第二检测结果noise2_type时,模式选择电路208还检查由电池电平信号bl指示的电池电平是否大于阈值电平。当模式选择电路208确定电池电平小于阈值电平时,模式选择电路208选择第一模式,并且噪声抑制电路106继续在第一模式中操作。当模式选择电路208确定电池电平大于阈值电平时,模式选择电路208立即选择第二操作模式,由此启用第二降噪电路210b并停用第一降噪电路210a。换句话说,当噪声分类电路206检测到存在于主要语音信号pss的第二十一帧中的噪声类型是非平稳噪声并且电池电平大于阈值电平时,噪声抑制电路106立即从第一模式切换到第二模式。当启用时,第二降噪电路210b使用第一辅助语音信号sss_1和第二辅助语音信号sss_2中的至少一个来抑制主要语音信号pss中的噪声并生成增强语音信号s_out。
继续在这个例子中,噪声分类电路206检测到存在于主要语音信号pss的第二十二到第二十六帧中的噪声类型是非平稳噪声并且电池电平大于阈值电平,所以对于第二十二到第二十六帧,模式选择电路208继续接收第二检测结果noise2_type,并且噪声抑制电路106继续在第二操作模式中操作。
对于主要语音信号pss的第二十七帧,噪声分类电路206检测到存在于主要语音信号pss中的噪声类型是平稳噪声。因此,模式选择电路208从噪声分类电路206接收第一检测结果noise1_type。在此情形中,模式选择电路208直到模式选择电路208针对已变换帧的第一计数(例如,五个已变换帧)连续接收第一检测结果noise1_type才从第二模式切换到第一操作模式。在模式选择电路208针对后面五个已变换帧连续接收第一检测结果noise1_type的情形中,模式选择电路208选择第一操作模式,否则噪声抑制电路106继续在第二操作模式中操作。
在另一实例中,如果对于主要语音信号pss的第二十七帧,模式选择电路208从噪声分类电路206接收第二检测结果noise2_type,并且电池电平信号bl指示电池电平小于阈值电平,那么模式选择电路208立即选择第一操作模式,由此启用第一降噪电路210a并停用第二降噪电路210b。
在另一实施例中,电子装置100由外部电源供电。外部电源可以是电池供电的装置或无电池电源。当外部电源是电池供电的装置时,模式选择电路208从外部电源接收指示外部电源的电池电平的电池电平信号bl。当外部电源是无电池电源时,模式选择电路208在第一和第二操作模式之间的选择独立于电池电平信号bl,即,只基于噪声分类电路206检测到的噪声类型来选择第一和第二操作模式中的一个。
现在参考图3a,示出了根据本发明的实施例的包括在音频处理系统104中的第一降噪电路210a的框图。第一降噪电路210a利用单麦克风噪声抑制技术来抑制主要语音信号pss中的平稳噪声,它使用的功率比非平稳噪声技术更少,因为对于平稳噪声来说,只要处理来自主要麦克风的音频信号,而对于非平稳噪声来说,要处理来自多个麦克风的音频信号。第一降噪电路210a包括第一预处理器302、噪声频谱估计器304、噪声模型306、第一增益更新器308和第一后处理器310。
在第一操作模式中,第一降噪电路210a启用,并从模式选择电路208接收主要语音信号pss的帧以及第一辅助语音信号sss_1和第二辅
助语音信号sss_2的帧。第一预处理器302舍弃第一辅助语音信号sss_1和第二辅助语音信号sss_2的帧。在替代实施例中,第一预处理器302只接收主要语音信号pss。第一预处理器302通过应用加窗技术然后应用fft来将主要语音信号pss的每个帧从时域变换到频域。由第一预处理器302执行的加窗技术的例子包括汉宁窗、矩形窗、汉明窗等等。在下文中,主要语音信号pss中变换到频域的帧称为“主要已变换帧”。第一预处理器302将主要已变换帧提供给噪声频谱估计器304。
噪声频谱估计器304接收主要已变换帧,并估计存在于主要语音信号pss中的噪声(即,底噪)的值。为了估计底噪,噪声频谱估计器304使第一组主要已变换帧的量值频谱平滑,并识别已平滑量值频谱中的最小量值。噪声频谱估计器304所识别的最小量值对应于底噪。噪声频谱估计器304将底噪存储在噪声模型306中,并将主要已变换帧提供给第一增益更新器308。
第一增益更新器308从噪声频谱估计器304接收主要已变换帧,并从噪声模型接收底噪。第一增益更新器308使用底噪来减小存在于主要已变换帧中的噪声的增益,由此抑制主要已变换帧中的噪声。例如,基于底噪,第一增益更新器308识别主要已变换帧中表示噪声的那些频率仓,并且减小所识别的频率仓的增益来抑制噪声。
第一后处理器310连接到第一增益更新器308,并且接收其中已经抑制噪声的主要已变换帧。第一后处理器310通过应用逆fft(ifft)然后应用逆加窗技术来将其中噪声被抑制的主要已变换帧从频域变换到时域,以生成增强语音信号s_out。
本领域的技术人员应清楚,第一降噪电路210a是用于抑制平稳噪声的降噪电路的示意性例子。在另一实施例中,可以使用利用单麦克风噪声抑制技术抑制平稳噪声的任何降噪电路,而不是第一降噪电路210a。
现在参考图3b,示出了根据本发明的实施例的包括在音频处理系统104中的第二降噪电路210b的框图。第二降噪电路210b使用n麦克风噪声抑制技术来抑制主要语音信号pss中的非平稳噪声。第二降噪电路210b包括第二预处理器312、波束成形器314、旁瓣消除器316、第二增益更新器318和第二后处理器320。
在第二操作模式中,启用第二降噪电路210b。当启用第二降噪电路210b时,第二预处理器312从模式选择电路208接收主要语音信号pss以及第一辅助语音信号sss_1和第二辅助语音信号sss_2的帧。第二预处理器312通过应用加窗技术然后应用fft来将主要语音信号pss以及第一辅助语音信号sss_1和第二辅助语音信号sss_2的帧从时域变换到频域,如第一预处理器302所进行的。在下文中,第一辅助语音信号sss_1和第二辅助语音信号sss_2中已经转换到频域的帧称为“辅助已变换帧”。第二预处理器312将主要和辅助已变换帧提供给波束成形器314。
波束成形器314接收主要和辅助已变换帧,并将辅助已变换帧的相位与主要已变换帧的相位对准,然后将对准的辅助已变换帧添加到主要已变换帧,从而生成语音参考帧。在每个语音参考帧中,存在于对应的主要和辅助已变换帧中的目标语音声音同相(即,相长干扰),且存在于对应的主要和辅助已变换帧中的噪声异相(即,相消干扰)。
旁瓣消除器316连接到波束成形器314,并接收主要已变换帧、辅助已变换帧和语音参考帧。旁瓣消除器316使用主要已变换帧、辅助已变换帧和语音参考帧来识别噪声参考。接着,旁瓣消除器316将噪声参考存储在噪声模型306中。在目前优选实施例中,同一噪声模型306由第一降噪电路210a和第二降噪电路210b共享,使得在操作模式之间切换所需要的时间不会因为必须等待噪声参考的存储而受到影响。
第二增益更新器318连接到旁瓣消除器316,并接收语音参考帧。第二增益更新器318还连接到噪声模型306,用于接收噪声参考。第二增益更新器318使用噪声参考来减小存在于语音参考帧中的噪声的增益,由此抑制存在于主要语音信号pss中的噪声。
第二后处理器320连接到第二增益更新器318,用于接收其中噪声已经抑制的语音参考帧。第二后处理器320通过应用ifft然后应用逆加窗技术来将这些语音参考帧从频域变换到时域,以生成增强语音信号s_out。
本领域的技术人员应清楚,第二降噪电路210b是降噪电路的示意性例子,并且可以使用利用n麦克风噪声抑制技术抑制非平稳噪声的任何降噪电路。
图4a和4b是根据本发明的实施例的示出语音增强方法的流程图400。
在步骤402处,通过msc200从主要麦克风102a接收主要语音信号pss,并分别从第一辅助麦克风102b和第二辅助麦克风102c接收第一辅助语音信号sss_1和第二辅助语音信号sss_2。msc200对主要语音信号pss及第一辅助语音信号sss_1和第二辅助语音信号sss_2取样,并将其细分成对应帧。
在步骤404处,通过vad202在主要语音信号pss中检测话音活动。vad202在主要语音信号pss的每个帧中检测话音活动。在步骤406处,vad202确定是否已在主要语音信号pss的当前帧中检测到任何话音活动。在步骤406处,如果已检测到话音活动,那么针对主要语音信号pss的下一帧执行步骤404。然而,如果在当前帧中没有检测到话音活动,那么执行步骤408。
在步骤408处,通过vad202识别主要语音信号pss的非语音区域。将主要语音信号pss中vad202没有检测到话音活动的帧识别为非语音区域(即,非语音区域帧nrf)。
在步骤410处,通过分析器204从主要语音信号pss的非语音区域提取一组特征sof。换句话说,分析器204从主要语音信号pss的当前非语音区域帧nrf提取sof。所述一组特征包括频谱通量、频谱质心、频谱峰度、频谱偏斜度、频谱滚降斜率、频谱散度、频谱斜率等等。在步骤412处,噪声分类电路206使用所提取的一组特征sof和经训练分类模型110检测非语音区域中的噪声类型。在步骤414处,噪声分类电路206确定检测到的噪声类型是不是平稳噪声,如果是,检测到的噪声类型是平稳噪声,那么执行步骤416;否则,执行步骤420。在步骤416处,模式选择电路208选择第一操作模式来抑制主要语音信号pss中的噪声。在步骤418处,通过第一降噪电路210a抑制主要语音信号pss中的噪声以生成增强语音信号s_out。第一降噪电路210a抑制主要语音信号中的噪声,并舍弃第一辅助语音信号sss_1和第二辅助语音信号sss_2。
如果在步骤414处,确定噪声类型不是平稳噪声,那么执行步骤420。在步骤420处,模式选择电路208确定电子装置100的电池电平是否大于预定阈值电平,如果不大于,那么执行步骤416,否则,执行步骤422。在步骤422处,模式选择电路208选择第二操作模式来抑制存在于主要语音信号pss中的噪声。在步骤424处,第二降噪电路210b使用第一辅助语音信号sss_1和第二辅助语音信号sss_2中的至少一个来抑制主要语音信号pss中的噪声,以生成增强语音信号s_out。
在步骤426处,噪声抑制电路106确定主要语音信号pss的语音增强是否完成。如果在步骤426处,确定主要语音信号pss的语音增强未完成,那么方法循环回到步骤404,否则,则确定主要语音信号pss的语音增强完成,且方法结束。
噪声抑制电路106基于在主要语音信号pss中检测到的噪声类型和由电池电平信号bl指示的电池功率电平而在第一和第二操作模式之间动态地切换。在第一模式中,执行单麦克风噪声抑制技术的第一降噪电路210a用于抑制主要语音信号pss中的噪声。因此,当在主要语音信号pss中检测到的噪声类型只是平稳噪声时,噪声抑制电路106不处理第一辅助语音信号sss_1和第二辅助语音信号sss_2,同时仍保持增强语音信号s_out的质量。因为噪声抑制电路106在第一模式中不处理辅助语音信号sss_1和sss_2,所以噪声抑制电路106使用的处理功率更少。在第二操作模式中,使用n麦克风噪声抑制技术操作的第二降噪电路210b用于抑制主要语音信号pss中的噪声。因为第二降噪电路210b消耗的功率比第一降噪电路210a多,所以模式选择电路208只有当主要语音信号pss中检测到的噪声类型是非平稳噪声且电池105的电池功率电平大于预定阈值电平(例如,15%)时才选择第二操作模式。因为第二降噪电路210b能够处理这两种噪声类型,即,平稳和非平稳噪声,所以增强语音信号s_out的质量较高。第一降噪电路210a和第二降噪电路210b并不同时操作,这会减少噪声抑制电路106所需要的处理功率,由此减少噪声抑制电路106消耗的功率。如果电子装置100是具有有限备用电池的便携式装置,那么降低噪声抑制电路106的功耗相当重要。
虽然已经说明和描述本发明的各种实施例,但应清楚,本发明不仅限于这些实施例。在不脱离如权利要求书中所描述的本发明的精神和范围的情况下,本领域的技术人员将清楚许多修改、改变、变化、替代和等效物。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除