用于估计通道间时间差的装置、方法或计算机程序与流程
2021-01-28 12:01:05|342|起点商标网
[0001]
本申请涉及立体声处理,或一般而言涉及多通道处理,其中多通道信号具有两个通道,诸如在立体声信号的情形下的左通道和右通道,或多于两个的通道,例如三个、四个、五个或任何其他数量的通道。
背景技术:
[0002]
与立体声效音乐的存储和广播相比,立体声语音,特别是会话式立体声语音受到科学上的关注要少得多。确实,在语音通信中,现在仍然大多使用单通道传输。然而,随着网络带宽和容量的增加,可以预见以立体声效技术为基础的通信将变得更加普遍并带来更好的收听体验。
[0003]
立体声效的音频材料的高效率编码在音乐的感知音频编码中已经长期被研究,以用于高效率的存储或广播。在波形保持是至关重要的高位速率情形中,通常称为中/侧(m/s)立体声的和-差立体声已经被使用了很长时间。就低位速率而言,强度立体声以及更近期的参数立体声编码已经被引入。最新的技术在如heaacv2和mpegusac的不同的标准中被采用。它生成双通道信号的下降混合,并结合致密的空间侧信息。
[0004]
联合立体声编码通常是基于信号的高频分辨率(即所述信号的低时间分辨率、时频变换)建立,而与在大多数语音编码器中所执行的低延迟及时域处理不兼容。此外,所产生的位速率通常是高的。
[0005]
另一方面,参数立体声采用位于编码器的前端作为预处理器以及位于解码器的后端作为后置处理器的额外滤波器组。因此,参数立体声可以与acelp之类的传统语音编码器一起使用,如mpegusac所做的那样。此外,所述听觉场景的参数化可以用最少量的侧信息来实施,而这对于低位速率而言是极适合的。然而,参数立体声例如在mpegusac中并没有特别针对低延迟设计,且不能为不同的会话场景提供一致的质量。在空间场景的传统参数表示法中,立体声影像的宽度通过应用于两个合成通道上的解相关器以人工方式重现,并通过由编码器计算和传输的频道间相干性(ic)参数来控制。对于大多数立体声语音而言,这种加宽立体声图像的方式不适合用于重建属于优美的直接声音的语音的自然氛围,因为它是由位于所述空间中一特定位置的单个声源所产生的(有时会有一些来自房间的混响(reverberation))。相反地,乐器具有比语音更自然的宽度,其可通过对通道进行解相关来有效地模仿。
[0006]
当利用非多重收音(non-coincident)麦克风录制语音时也会出现问题,如在a-b配置中,当麦克风彼此间隔距离或用于双耳录制或呈现时。这些情境可以被设想为用于在电话会议中捕获语音、或者在多点控制单元(mcu)中使用远程扬声器创建虚拟听觉场景。因此,信号到达一个通道的时间与到达另一个通道的时间是不同的,这与在多重收音(coincident)麦克风上进行的录制,如x-y(强度录制)或m-s(中-侧录制)是不同的。从而,这样的时间非对准的两个通道的相干性的计算会被错误地估计,其导致人工环境合成失败。
[0007]
与立体声处理有关的现有技术参考文献是美国专利第5,434,948号或美国专利第8,811,621号。
[0008]
文献wo2006/089570a1公开了一种近透明的或透明的多通道编码器/解码器方案。多通道编码器/解码器方案额外地产生波形类型的残差信号。此残差信号与一个或多个多通道参数一起传输到解码器。与纯参数化多通道解码器相比,所述增强型解码器产生多通道输出信号,所述多通道输出信号由于所述额外的残差信号而具有改善的输出质量。在编码器侧,左通道和右通道均由分析滤波器组滤波。然后,对于每个子频带信号,计算子频带的对准值和增益值。然后在进一步处理之前执行此对准。在解码器侧,执行去对准和增益处理,然后对应的信号通过合成滤波器组来合成,以便产生解码左信号和解码右信号。
[0009]
在这种立体声处理应用中,计算第一通道信号和第二通道信号之间的通道间或通道间时间差是有用的,以便典型地执行宽带带时间对准过程。然而,也的确存在其他应用使用第一通道和第二通道之间的通道间时间差,这些应用包括存储或传输参数化数据、包括将两个通道时间对准的立体声/多通道处理、用于确定房间中的扬声器位置的到达估计的时间差、波束形成空间滤波、前景/背景分解或经由例如声波三角定位以定位声音源,此处仅举几个例子。
[0010]
对于所有此类应用而言,需要第一通道信号与第二通道信号之间的通道间时间差(inter-channel time difference)的有效、准确和强健的确定。
[0011]
已经存在有术语为“gcc-phat”或通称为“广义互相关相位变换”(generalized cross-correlation phase transform)的这种确定。典型地,互相关谱是在两个通道信号之间计算的,然后,在对广义互相关谱进行诸如逆dft的逆频谱变换以便找到时域表示之前,将加权函数应用于所述互相关谱,以获得所谓的广义互相关谱。所述时域表示代表某些时间迟滞(time lags)的值,并且所述时域表示的最高峰值通常对应于时间延迟或时间差,即两个通道信号之间的通道间时间延迟或差。
[0012]
然而,已经显示,特别是在与例如没有任何混响或背景噪声的干净语音不同的信号中,这种通用技术的强健性不是最佳的。
技术实现要素:
[0013]
因此,本发明的一个目的是提供一种用于估计两个通道信号之间的通道间时间差的改进概念。
[0014]
此目的是通过根据权利要求1所述的用于估计通道间时间差的装置、或根据权利要求28所述的用于估计通道间时间差的方法、或根据权利要求30所述的计算机程序实现的。
[0015]
本发明基于以下发现,即依据由信号分析器估计的信号特征来确定使用第一加权过程或第二加权过程,对经平滑或未经平滑的互相关谱进行加权,以获得经加权的互相关谱,其中所述第一加权过程不同于所述第二加权过程。
[0016]
在进一步的实施例中,由第一通道信号或第二通道信号的谱的谱特征所控制的对于互相关谱在时间上的平滑显著地改善了通道间时间差确定的强健性和准确性。
[0017]
在优选实施例中,确定谱的调性/噪声特征,并且在类似音调的信号的情形下,平滑较强,而在噪声信号的情形下,平滑变得不那么强。
[0018]
优选地,使用谱平坦度测量,并且在类似音调信号的情形下,谱平坦度测量将是低的,而平滑将变得较强,并且在类似噪声的信号的情形下,谱平坦度测量将是高的,例如大约1或接近1,而平滑将变弱。
[0019]
因此,根据本发明,提供一种用于估计第一通道信号和第二通道信号之间的通道间时间差的装置,其包括计算器,用于从时间块中的第一通道信号和所述时间块中的第二通道信号计算用于所述时间块的互相关谱。所述装置还包括用于估计所述时间块的第一通道信号和第二通道信号的谱特征的谱特征估计器,以及用于使用谱特征在时间上平滑互相关谱以获得经平滑互相关谱的平滑滤波器。然后,所述经平滑互相关谱被处理器进一步处理,以便获得通道间时间差参数。
[0020]
对于关于经平滑互相关谱的进一步处理的优选实施例,执行自适应的阈值处理操作,其中经平滑的广义互相关谱的时域表示被分析,以便确定取决于所述时域表示的变量阈值,以及将所述时域表示的峰值与变量阈值进行比较,其中通道间时间差被确定为与一峰值相关联的时间迟滞:所述峰值与所述阈值成预定关系,例如大于所述阈值。
[0021]
在一实施例中,变量阈值被确定为等于时域表示的值的最大部分例如10%中的值的整数倍,或者另外,在针对所述变量确定的另一实施例中,经由将所述变量阈值与所述值相乘来计算所述变量阈值,其中所述值取决于所述第一通道信号和所述第二通道信号的信号噪声比特征,其中,对于较高的信号噪声比,所述值变高,对于较低的信号噪声比,所述值变低。
[0022]
如前所述,所述通道间时间差的计算可用于许多不同的应用,例如参数化数据的存储或传输、立体声/多通道处理/编码、两个通道的时间对准、用于确定在具有两个麦克风和已知麦克风设置的房间中的扬声器位置的到达时间差估计、用于波束形成的目的、空间滤波、前景/背景分解或声源的位置确定,例如经由基于两个或三个信号的时间差的声波三角测量。
[0023]
然而,在下文中,为了在对具有至少两个通道的多通道信号进行编码的处理中两个立体声信号的宽带时间对准的目的,描述了通道间时间差的计算的优选实施方式和使用。
[0024]
用于对具有至少两个通道的多通道信号进行编码的装置包括参数确定器,其用于一方面确定宽带对准参数,另一方面确定多个窄带对准参数。信号对准器使用这些参数来对使用这些参数的至少两个通道进行对准,以获得对准通道。然后,信号处理器使用对准通道以计算中间信号和侧面信号,中间信号和侧面信号随后被编码并被转发至编码输出信号中,所述编码输出信号额外具有参数侧信息、宽带对准参数和多个窄带对准参数。
[0025]
在解码器侧,信号解码器对编码中间信号和编码侧面信号进行解码,以获得解码中间和侧面信号。然后,这些信号由信号处理器处理,用于计算解码第一通道和解码第二通道。然后,使用包括在编码多通道信号中的关于宽带对准参数的信息和关于多个窄带参数的信息,对这些解码通道进行去对准,以获得解码多通道信号。
[0026]
在具体实施方式中,宽带对准参数是通道间时间差参数,并且多个窄带对准参数是通道间相位差。
[0027]
本发明是基于以下发现,即特别是对于存在多于一个扬声器的语音信号,但是也可对于有多个音频来源的其他音频信号,两者都被映射到多通道信号的两个通道的音频来
源的不同位置可以使用宽带对准参数(例如,通道间时差参数)来解决。除了宽带对准参数之外,已经发现,子频带与子频带之间不同的若干窄带对准参数额外导致两个通道中的信号的更佳对准。
[0028]
因此,对应于每个子频带中的相同时间延迟的宽带对准、连同对应于不同子频带的不同相位旋转的相位对准一起,在这两个通道随后被转换为中间/侧面表示、并且随后被进一步编码之前,实现两个通道的最佳对准。由于已经获得了最佳对准的事实,一方面中间信号中的能量尽可能高,另一方面侧面信号中的能量尽可能小,因此,能够获得具有针对某一位速率的最低可能位速率或最高可能音频质量的最佳编码结果。
[0029]
具体地,对于转换语音材料,看起来通常扬声器在两个不同的地方处于活动状态。额外地,情形是这样的,通常只有一个扬声器从第一个位置发声,然后第二个扬声器从第二个位置或地点发声。不同的位置对于诸如第一或左通道和第二或右通道的两个通道的影响是通过不同的到达时间反映出的,因此,由于不同的位置,两个通道之间存在某种时间延迟,并且此时间延迟随时间变化。一般而言,此影响在两个通道信号中被反映为宽带去对准,该宽带去对准可以通过宽带对准参数来解决。
[0030]
另一方面,特别是来自混响或其他噪声来源的其他效应可以通过个体频段的个体相位对准参数来解决,所述个体相位对准参数被叠加在两个频道的宽带不同到达时间或宽带去对准上。
[0031]
鉴于此,使用宽带对准参数、以及宽带对准参数之上的多个窄带对准参数两者,实现在编码器侧的最佳通道对准,以获得良好且非常紧凑的中间/侧面表示,而另一方面,在解码器侧的解码之后的对应的去对准,实现针对某一位速率的良好音频质量或针对某一所需音频质量的小的位速率。
[0032]
本发明的一个优点是它提供了一种新的立体声编码方案,它比现有的立体声编码方案更适合于立体声语音的转换。根据本发明,参数立体声技术和联合立体声编码技术被组合,特别是通过利用发生在多通道信号的通道中的通道间时间差,而特别是在语音音源的情形下以及在其他音频音源的情形下。
[0033]
多个实施例提供了如后面讨论的有用优点。
[0034]
新方法是混合来自传统中间/侧面立体声和参数立体声元素的混合方法。在传统的中间/侧面中,被动地对通道进行下混(downmix)以产生中间和侧面信号。在对通道进行求和或差分之前,可以通过使用karhunen-loeve变换(klt),也称为主成分分析(pca),旋转所述通道,来进一步扩展所述过程。以主代码编码对中间信号进行编码,而将侧面信号传送到第二编码器。演进的中间/侧面(m/s)立体声可以进一步使用通过在当前帧或先前帧中编码的中间通道而对侧面信号进行的预测。旋转和预测的主要目的是最大化中间信号的能量,同时最小化侧面信号的能量。m/s立体声是波形保持的,并且在此方面对于任何立体声场景都非常强健,但是在位消耗方面可能非常昂贵。
[0035]
为了在低位速率下的最高效率,参数立体声对参数进行计算和编码,所述参数如通道间级别差(ild)、通道间相位差(ipd)、通道间时差(itd)和通道间相干性(ic)。它们紧凑地表示立体声图像,并且是听觉场景的线索(来源定位、平移、立体声的宽度......)。然后所述目标对立体声场景进行参数化,并仅编码经下混合的信号,所述信号可以位于解码器处,并且能够在所传输的立体声线索的帮助下再次进行空间化。
[0036]
本方法混合了两个概念。首先,立体声线索itd和ipd被计算,并被应用于两个通道。该目的是表示宽带中的时间差和不同频段中的相位。然后,将两个通道在时间和相位上对准,然后执行m/s编码。找到itd和ipd对于立体声语音建模是有用的,并且是m/s中基于klt的旋转的良好替代。与纯参数编码不同,该环境不是通过通道间相关性(ic)建模的,而是直接通过被编码和/或被预测的侧面信号建模。已发现,这种方法更加强健,尤其是在处理语音信号时。
[0037]
itd的计算和处理是本发明的关键部分。itd已经在现有技术的双耳线索编码(binaural cue coding,bcc)中采用,但是一旦itd在时间上发生变化,它是低效的。为了避免这个缺点,涉及了特定窗口,以用于平滑两个不同itd之间的过渡,并且能够从一个扬声器无缝地切换到位于不同位置的另一个扬声器。
[0038]
进一步的实施例涉及以下过程,即在编码器侧,使用已经与早期确定的宽带对准参数对准的通道,来执行用于确定多个窄带对准参数的参数确定。
[0039]
对应地,在使用典型的单个宽带对准参数执行宽带去对准之前,在解码器侧执行窄带去对准。
[0040]
在进一步的实施例中,优选地,在编码器侧、或者但更重要的是在解码器侧,在所有对准之后,并且具体是在使用宽带对准参数的时间对准之后,执行某种加窗和重叠相加操作,或者任一种从一个块到下一个块的交叉渐入渐出。这可以避免当时间或宽带对准参数从一个块到一个块改变时的任何可听到的伪影,例如咔嗒声(click)。
[0041]
在其他实施例中,应用不同的频谱分辨率。特别是,对通道信号进行具有高频分辨率的时间-频谱转换,例如dft频谱,同时为具有较低频谱分辨率的参数频带确定诸如窄带对准参数的参数。通常,参数频带具有比信号频谱多出多于一条的谱线,并且通常具有来自dft频谱的一组谱线。此外,参数频带从低频增加到高频以便解决心理声学问题。
[0042]
进一步的实施例涉及额外使用诸如级别间差异的级别参数、或用于处理诸如立体声填充参数的侧面信号的其他过程,等等。可以通过实际的侧面信号本身、或者通过使用当前帧或任何其他帧的中间信号执行预测残差信号、或者通过仅在频带的子集合中的侧面信号或侧面预测残差信号以及仅用于剩余频带的预测参数、或者甚至通过用于所有频带的预测参数而没有任何高频分辨率侧面信号信息,来表示编码侧面信号。因此,在上面的最后一个替代方案中,编码侧面信号仅通过每个参数频带的预测参数或仅通过参数频带的子集合来表示,使得对于剩余的参数频带,不存在关于原始侧面信号的任何信息。
[0043]
此外,优选使得多个窄带对准参数不是针对反映宽带信号的整个带宽的所有参数频带,而是仅用较低频带的集合,例如参数频带的较低的50%。另一方面,不针对这些较低频带使用立体声填充参数,因为对于这些频带,侧面信号本身或预测残留信号被传输,以便确保至少对于较低频带,波形校正表示是可用的。另一方面,针对较高频带,侧面信号不是以波形精确表示来传输的,以便进一步降低位速率,但是侧面信号通常由立体声填充参数表示。
[0044]
此外,优选的是基于相同的dft频谱在同一频域内,执行整个参数分析和对准。为此,进一步优选的是使用具有相位变换的广义互相关(gcc-phat)技术,以用于通道间时间差确定的目的。在此过程的优选实施例中,基于频谱形状的信息对相关谱进行的平滑是以这样的方式执行的,所述信息优选是谱平坦度测量:即,在类噪声信号的情形下,平滑将是
弱的,以及在类似音调的信号的情形下,平滑将变得更强。
[0045]
此外,优选的是执行特定的相位旋转,其中考虑通道幅值。特别地,为了在编码器侧对准的目的,并且当然,也为了在解码器侧去对准的目的,所述相位旋转被分布在两个通道之间,其中具有较高幅值的通道被考虑为前导通道,并且将受相位旋转的影响较小,即,将比具有较低幅值的通道旋转得更少。
[0046]
此外,使用具有从两个通道的能量导出的缩放因数的能量缩放来执行和-差计算,并且额外地,所述和-差计算被界定在某一范围内,以便确保中间/侧面计算不会过多地影响所述能量。然而,另一方面,需要注意的是,为了本发明的目的,这种能量保护不像在现有技术过程中那样重要,因为时间和相位已被预先对准。因此,由于(在编码器侧)从左和右计算中间信号和侧面信号或者(在解码器侧)从中间和侧面计算左和右信号所导致的能量波动不像在现有技术中那样重要。
附图说明
[0047]
随后,将相对于附图对本发明的优选实施例进行论述,在附图中:
[0048]
图1是用于对多通道信号进行编码的装置的优选实施例的框图。
[0049]
图2是用于对编码多通道信号进行解码的装置的优选实施例。
[0050]
图3是针对某些实施例的不同频率分辨率和其他频率相关方面的图标。
[0051]
图4a示出在编码装置中为了对准复数通道的目的所执行的过程的流程图。
[0052]
图4b示出在频域中执行的过程的实施例。
[0053]
图4c示出在编码装置中使用具有零填补部分和重叠范围的分析窗口执行的过程的实施例。
[0054]
图4d示出在用于编码的装置内执行进一步过程的流程图。
[0055]
图4e示出显示通道间时间差估计的实施方式的流程图。
[0056]
图5示出图示在用于编码的装置中执行的过程的进一步实施例的流程图。
[0057]
图6a示出编码器的实施例的框图。
[0058]
图6b示出一解码器的一相应实施例的流程图。
[0059]
图7示出用于立体声时间-频率分析和合成的具有零填补(zero padding)的低重叠正弦波窗口的优选窗口场景。
[0060]
图8示出不同参数值的位消耗的表格。
[0061]
图9a示出在优选实施例中由用于对编码多通道信号进行解码的装置执行的过程。
[0062]
图9b示出用于对编码多通道信号进行解码的装置的实施方式。
[0063]
图9c示出在对编码多通道信号进行解码的上下文中在宽带去对准的上下文中执行的过程。
[0064]
图10a示出用于估计通道间时间差的装置的实施例。
[0065]
图10b示出应用通道间时间差的信号进一步处理的示意图。
[0066]
图10c示出根据本发明实施例的信号分析器和加权器的示意图,所述信号分析器在实施例中被实施为噪声估计器。
[0067]
图10d示出根据本发明实施例的加权器的示意图。
[0068]
图10e示出根据本发明实施例的处理器的示意图。
[0069]
图10f示出根据本发明实施例的噪声估计器的示意图。
[0070]
图11a示出由图10a的处理器执行的过程。
[0071]
图11b示出由图10a中的处理器执行的进一步过程。
[0072]
图11c示出在时域表示的分析中计算变量阈值和使用所述变量阈值的进一步实施方式。
[0073]
图11d示出用于确定变量阈值的第一实施例。
[0074]
图11e示出确定阈值的进一步实施方式。
[0075]
图11f示出根据本发明实施例的处理器的示意图。
[0076]
图12示出针对干净语音信号的经平滑互相关谱的时域表示。
[0077]
图13示出具有噪声和氛围的语音信号的经平滑互相关谱的时域表示。
具体实施方式
[0078]
图10a示出用于估计诸如左通道的第一通道信号和诸如右通道的第二通道信号之间的通道间时间差的一置的实施例。这些通道被输入到时间-频谱转换器150中,所述时间-频谱转换器150相对于图4e作为项目451额外说明。
[0079]
此外,左通道和右通道信号的时域表示被输入到计算器1020中,用于从时间块中的第一通道信号和时间块中的第二通道信号,计算用于时间块的互相关谱(cross-correlation spectrum)。此外,所述装置包括谱特征估计器1010,用于估计时间块的第一通道信号或第二通道信号的谱特征。所述装置进一步包括平滑滤波器(smoothing filter)1030,用于使用所述谱特征在时间上平滑所述互相关谱,以获得经平滑互相关谱(smoothed cross-correlation spectrum)。所述装置进一步包括处理器1040,用于处理所述经平滑互相关谱,以获得通道间时间差。
[0080]
替代地,在另一实施例中,组件1030不存在,因此组件1010也不是必需的,如虚线1035所示。所述装置进一步包括信号分析器1037,用于计算信号特征估计,例如噪声估计1038。所述估计被转发到加权器1036,所述加权器1036配置为取决于所述信号特征估计,执行不同的加权操作。所述信号特征估计优选地还被用于控制处理器1040,例如当处理器1040执行峰值提取操作时。图10c进一步图示信号分析器1037和可控制的加权器1036。
[0081]
特别地,根据本发明实施例的装置涉及第一通道信号和第二通道信号之间的通道间时间差的估计。所述装置包括图10a的信号分析器1037、图10a的互相关谱计算器1020、图10a的用于对经平滑或未经平滑互相关谱进行加权的加权器1036、和后续连接的用于处理所述经加权的互相关谱的处理器1040。
[0082]
时间-频谱转换器150、谱特征估计器1010、平滑滤波器1030这些单元对于本发明的基本实施不是必需的,但对于本发明的优选实施例而言是优选的。信号分析器1037配置为估计第一通道信号或第二通道信号的、或者第一通道信号和第二通道信号两者的、或者从第一通道信号或第二通道信号导出的信号的信号特征,诸如噪声级别1038。因此,信号特征或信号特征估计,诸如稍后将被加权器1036使用的、且优选也被处理器1040使用的噪声估计,可以仅从左通道信号或第一通道信号、仅从第二通道信号或右通道信号导出,或者可以从所述两个信号导出。从两个信号中导出的信号特征例如可以是导出第一通道信号的个体信号特征、从第二通道信号或右通道信号导出额外个体信号特征,随后,最终信号特征
1038将例如是在两个通道之间的平均值或加权平均值。这里,例如可以根据幅值进行加权,使得例如所述通道的帧中的不同幅值导致对应的个体噪声估计对于最终噪声级别1038的不同影响。此外,从第一通道信号和第二通道信号导出的信号可以是例如组合信号,所述组合信号是通过将左通道信号或第一通道信号和所述第二通道信号或右通道信号相加以获得组合信号,随后,从所述组合信号计算信号特征1038。
[0083]
在优选实施例中,信号分析器1036被实施为噪声估计器或分析器。然而,也可以执行其他信号分析方式,例如调性分析、话音活动性检测、瞬变分析、立体声分析、语音/音乐分析、干扰-噪扰分析、背景音乐分析、干净语音分析或任何其他信号分析,以确定信号是否具有第一特征或第二特征,以便选择匹配的加权过程。
[0084]
所述组合可以是具有相等加权因子的组合,即,没有任何加权的左通道和没有任何加权的右通道的组合可以对应于1.0的加权因子,或者替代地,可以应用不同的加权因子。此外,从所述第一通道导出的信号或从所述第二通道导出的信号可以通过执行高通滤波或低通滤波来获得,或者可以通过执行使用振幅压缩或振幅逆压缩函数的处理来导出。振幅压缩函数可以是对数函数,或者是具有小于1的幂值的函数。逆压缩函数可以是指数函数,或者是具有大于1的幂指数的幂函数。因此,取决于某些实施方式,可以将不同的处理操作应用于不同的左和右通道信号,并且两个通道都可以被组合或不被组合。在优选实施例中,优选在甚至没有任何特定加权的情形下将左和右通道相加在一起,并且随后根据所述组合计算的结果来计算信号特征估计。
[0085]
用于从时间块中的第一通道信号和时间块中的第二通道信号计算时间块的互相关谱的计算器1020可以以多种方式实施。一种方式是从时域帧中的时域信号计算互相关,然后将所述结果从时域转换到频谱域。另一种实施方式是,例如,经由使用dft或任何其他时间-频谱转换,第一通道信号的后续帧和第二通道信号的后续帧被转换为谱表示,其中所述后续帧可以重叠或不重叠。因此,对于第一通道信号的每个时间块,获得谱表示,以及对应地,对于第二通道信号的每个时间块,获得谱表示。通过将某一频率区间(bin)k和某一时间块或时间样本索引s的谱值乘以来自于第二通道的同一时间块的谱表示的具有相同索引k和相同索引s的谱值的共轭复数值,执行互相关计算。与上述不同的其他互相关计算过程也可以被使用,以便计算用于时间块的互相关谱。
[0086]
加权器1036配置为对由计算器获得的互相关谱进行加权。在一种实施方式中,所述互相关谱是未经平滑的互相关谱,而在其他实施例中,所述互相关谱是经平滑的,其中所述平滑是相对于时间的平滑。因此,为了计算经平滑互相关谱的目的,最后一个块的互相关谱可以与当前块的(原始)互相关谱一起使用,并且,根据本实施方式,可以使用例如由图10a的谱特征估计器1010提供的平滑控制信息。然而,也可以使用预先确定的,即恒定的或非时变的平滑设置,来执行平滑。根据本发明的实施例,使用第一加权过程1036a或使用第二加权过程1036b,计算经加权的互相关谱,例如如图10d所示。特别地,取决于信号分析器1037估计的信号特征,选择是否使用第一或第二过程导出经加权的互相关谱。因此,根据本发明,具有第一加权特征的加权被用于第一通道或第二通道或组合信号的某一信号特征,而取决于由信号分析器1037确定的另一信号特征来应用第二加权过程。加权器1036的结果是经加权且经平滑或未经平滑的互相关谱,其随后被处理器1040进一步处理以获得第一通道信号和第二通道信号之间的通道间时间差。
[0087]
图10d是示出根据本发明实施例的作为噪声估计器的信号分析器和与处理器1040相连接的加权器的实施方式。特别地,噪声估计器1037包括噪声估计计算器1037a和噪声估计分类器1037b。噪声估计分类器1037b输出与由图10a中的块1037生成的噪声估计输出1038对应的控制信号1050。所述控制信号可以被施加到第一开关1036c或第二开关1036d。在本实施方式中,提供了用于实施第一加权过程的处理内核1036a和用于实施第二加权过程1036b的另一计算内核。取决于实施方式,仅提供开关1036c,并且取决于控制信号1050,仅选择由开关1036c确定的加权过程,即,仅将由计算器1020确定的互相关谱输入到开关1036c,并且取决于开关设置,将其转发到内核1036a或内核1036b。在另一实施方式中,开关1036c不存在,由块1020确定的互相关谱被馈送到处理内核1036a和1036b两者中,并且取决于输出开关1036d的控制,块1036a的输出或块1036b的输出被选择和转发到处理器1040。因此,取决于实施方式,仅单个经加权的互相关谱被计算,其中通过控制信号1050和输入开关来选择哪一个被计算。替代地,两个经加权的互相关谱均被计算,并且仅将由输出开关1036d选择的互相关谱转发到处理器1040。此外,仅能够存在单个处理内核,而没有任何输入/输出开关,并且取决于所述控制信号,为相应的时间块设置正确的加权过程。因此,对于每个时间块,可以计算噪声估计或控制信号1050,并且对于每个时间块,所述加权可以从一个加权过程切换到另一个加权过程。在此上下文中,要注意的是,依据具体情形,还可以取决于三个或更多个不同的噪声估计来实施三个或更多个不同的加权过程。因此,本发明不仅引起两个不同加权过程之间的选择,而且还包括取决于从第一和第二通道信号的噪声特征导出的控制信号在三个或更多个加权过程之间的选择。
[0088]
在优选实施方式中,第一加权过程包括加权,使得幅值被归一化并且相位被保持,第二加权过程包括使用幂小于1或大于0的幂运算从经平滑或非平滑的互相关谱导出的加权因子。此外,第一加权过程可以与第二加权过程基本相同,除了第二加权过程使用0和1之间的幂,即,幂大于0且小于1,而第一加权过程不应用任何幂,或换句话说,应用1的幂。因此,由第二加权过程执行的归一化是被压缩,即,由第一加权过程应用的归一化因子具有某个值,并且经由第二加权过程应用于相同谱互相关值的归一化因子具有较小的幅值。这应用于互相关谱的较高谱值。然而,对于互相关谱的小值,相对于互相关谱的相同谱值,第二加权过程的归一化值大于第一加权过程的归一化值。这是由于以下事实:具有低于1的幂的幂运算,诸如具有1/2的幂的平方根运算,使小值增多,但是降低了高值。因此,用于第二加权过程的额外加权因子计算还可以包括任何压缩函数,例如对数函数。在优选实施例中,第一加权过程是基于应用于相位变换(phat)的加权来操作,并且第二加权过程是基于应用于修正的互功率谱相位过程(modified cross-power spectrum phase procedure,mcsp)的计算来操作。
[0089]
此外,第二加权过程优选地被实施为包括归一化,以使得第二归一化过程的输出范围在第一归一化过程的输出范围所位于的范围内,或者,使得第二归一化过程的输出范围与第一归一化过程的输出范围相同。例如,这可以通过以下方式来实施:计算经mcsp加权的互相关谱的所有谱值的绝对值,将对应于一个时间块的一个谱表示的所有幅值相加在一起,然后将所述结果除以时间块中的频谱值的数目。
[0090]
一般而言,图10a的处理器1040被配置为相对于经加权的互相关谱执行一些处理步骤,其中,特别地,执行某一峰值提取操作,以便最终获得通道间时间差。优选地,此峰值
提取操作发生在时域中,即,经加权且经平滑或未经平滑的互相关谱被从谱表示转换至时域表示,然后,此时域表示被分析,并且特别地,基于阈值挑选一个或多个峰值。取决于噪声估计的设置,第一峰值提取操作或一第二峰值提取操作被执行,其中优选地,相对于由峰值提取操作使用的阈值,两个峰值提取操作所使用的阈值彼此不同。
[0091]
图10e是示出相对于输入开关1040和输出开关1043的与图10d中的过程相似的情形。在图10e所示的实施方式中,两个峰值提取操作可以都被应用,并且可以通过输出开关1043选择“正确”峰值提取操作的结果。替代地,存在输入开关,并且取决于控制信号1050,仅选择正确的峰值提取过程,即1041或1042。因此,在一实施方式中,两个开关都将不存在,但是在一实施方式中,将存在输入开关1040或输出开关1043,类似于之前已经相对于图10d得出的内容。在额外的实施方式中,仅存在应用具有变量阈值的峰值提取操作的单个处理内核,并且使用控制信号1050,以便在单个处理内核内设置正确的阈值。在优选实施例中,阈值设置是以第二阈值高于第一阈值的方式执行的,因此,当已经应用块1036b中的第二加权过程时,使用第二阈值,以及当已经应用块1036a中的第一加权过程时,使用第一阈值。因此,当检测到高级别的背景噪声时,则应用具有在0和1之间的幂或对数运算的第二加权过程,即应用压缩过程,以及随后,用于该峰值提取的阈值应当低于当检测到低级别的背景噪声时使用的峰值提取阈值,即,低于当应用利用如下归一化因子执行归一化的第一加权过程时使用的峰值提取阈值,所述归一化因子不依赖于诸如对数函数或具有小于1的幂的幂函数的压缩函数。
[0092]
随后,在图10f中示出作为噪声估计器1037的信号分析器的优选实施方式。基本上,噪声估计器1037包括噪声估计计算器1037a和噪声估计分类器1037b,如图10d所示,并且也在图10f中示出。噪声估计计算器1037a包括背景噪声估计器1060和后续连接的(时间)平滑器1061,该平滑器1061例如可以实施为iir滤波器。
[0093]
送入噪声估计计算器1037a、或具体为背景噪声估计器1060的输入是左或第一通道信号的帧、第二或右通道信号的帧、或者从这样的通道信号导出的信号、或者通过例如将第一通道信号的时域表示和在同一时间块中的第二通道信号的时域表示相加而获得的组合信号。
[0094]
相对于噪声估计分类器1037b,所述输入信号被递送到信号活动性检测器1070,其控制选择器1071。基于信号活动性检测器1070的结果,选择器1071仅选择活动帧。此外,信号级别计算器1072连接在选择器1071之后。所计算出的信号级别随后将被转发到(时间)平滑器1073,平滑器1073例如被实施为iir滤波器。然后,在块1074中,进行信号噪声比计算,并且其结果在比较器1075内与优选预先确定的阈值进行比较,例如,所述阈值在45db和25db之间,并且优选地甚至在30和40db之间的范围内,并且更优选地,在35db。
[0095]
比较器1075的输出是指示以下内容的检测结果:指示高噪声级别或低噪声级别,或者指示将通过单个加权过程处理器以某种方式执行阈值设置,或者当存在如图10d所示的两个加权过程处理器时,则来自比较器1075的确定结果,即信号1050,控制输入开关1036c或输出开关1036d,以便将经正确加权的互相关谱转发到处理器1040。
[0096]
检测结果1050优选的是针对每个时间块或帧来计算的。因此,当例如对于某一帧,信号活动性检测器1070指示这是非活动帧时,则针对所述帧既不执行信号级别计算也不执行时间平滑,因为选择器1071仅选择活动帧。因此,对于非活动帧,在一实施例中不执行snr
比计算,并且因此,在此实施例中,对于此非活动帧,根本不提供检测结果。因此,在实施中,使用与先前已经相对于最后的活动帧确定的相同的加权过程,或者,对于非活动帧,应用第一加权过程或第二加权过程或甚至第三加权过程作为后备解决方案。替代地,snr比计算器1074可以被实施为针对非活动帧,使用最后的或最近出现的活动帧的经时间平滑的信号级别。因此,或者即使对于非活动帧也可以获得检测结果,或者针对非活动帧使用某种(后备)加权过程,或者针对非活动帧,视实际情形而继续使用如已经针对此非活动帧之前的最后活动帧确定的相同的加权过程。
[0097]
在先前的专利申请[1]中,曾介绍通道间时差(itd)估计器。此估计器基于具有相位变换的广义互相关(generalized cross-correlation with phase transform(gcc-phat),gcc-phat),其是tdoa文献中广泛使用的技术(初始论文是[2],另一个很好的参考文献是[3])。两个通道之间的时间差是通过对gcc的输出进行峰值提取而找到的。通过使用大的分析窗口长度或通过在时间上平滑互相关谱,可以获得更好的强健性。先前专利[1]的主要贡献是利用取决于谱平坦度测量的平滑因子,使得此平滑是自适应的。
[0098]
[1]的itd估计的步骤可以描述如下:
[0099]
1.离散傅立叶变换:对左通道的信号x
l
(n)和右通道的信号x
r
(n)进行成帧,加窗,并使用dft将其变换到频域
[0100][0101][0102]
其中,n是时间样本索引,s是帧索引,k是频率索引,n是帧长度,n
dft
是dft长度,以及w(n)是分析窗口。
[0103]
2.互相关谱:在频域中计算两个通道之间的相关性
[0104][0105]
3.平滑:利用取决于谱平坦度测量的平滑因子在时间上平滑互相关谱。当谱平坦度较低时,使用较强的平滑,以便使得itd估计器在静止音调信号上更加强健。当谱平坦度高时,使用较弱的平滑,以便使得itd估计器在瞬变信号上,即当信号快速变化时,更快地适应。
[0106]
使用下式执行所述平滑
[0107][0108]
其中
[0109]
sfm(s)=max(sfm_chan(x
l
),sfm_chan(x
r
))
[0110]
且
[0111]
[0112]
4.加权:通过其幅值的倒数对经平滑的互相关谱进行加权。此加权使幅值归一化,且仅保持相位,这就是它被称为相位变换(phase transform,phat)的原因。
[0113][0114]
5.逆变换:通过将互相关谱变换回到时域,获得最终的gcc。
[0115][0116]
6.峰值提取:最简单的方法是搜索在步骤5中得到的gcc的绝对值的全局最大值。
[0117]
如果此最大值具有高于某个阈值的值,则将itd估计为对应于此最大值的迟滞n。更高级的方法是额外使用基于滞环(hysteresis)和/或拖尾(hangover)的机制来获得在时间上更平滑的itd估计。
[0118]
ggc-phat在低噪声、混响环境中表现非常出色(参见例如[3])。然而,当背景噪声的级别高或存在其他信号分量(例如音乐、瞬变、复杂的立体声场景、被分类为非活动的帧、干扰噪扰)时,gcc-phat性能显著下降。从而gcc输出是有噪声的,并且不包含一个单个的强峰。结果,峰值提取往往无法找到正确的itd。这是因为,无论信号噪声比如何,相位变换均同等地处理所有频率。从而,gcc被信号噪声比低的区间(bin)的相位污染。
[0119]
为了避免这个问题,在文献中提出了许多其他gcc权重。其中一个被发现对我们有问题的测试信号非常有效。它首先在[4]中提出,当时被称为“修正的互功率谱相位”(mcsp)。其在高噪声环境中的良好性能后来在其他几篇论文中得到证实(参见例如[5])。该加权(先前技术的步骤4.)被修正如下:
[0120][0121]
其中,ρ是介于0和1之间的参数。ρ=0对应于正常互相关的情形,而ρ=1对应于gcc-phat的情形。通常使用低于1但接近于1的值,这允许通过将更多的重点放在具有高相关性的区间来修正gcc-phat,具有高相关性的区间通常对应于信号,而具有低相关性的区间通常对应于噪声。更确切地说,已发现值ρ=0.8给出最佳性能(在[4]中为0.75,在[5]中为0.78)。
[0122]
不幸的是,只有当高级别的背景噪声存在时,这种新的加权才能比gcc-phat更好。新加权可能比gcc-phat表现更好的替代场景是非活动帧(即话音活动性检测检测到非活动,这可能表示低语音级别)、瞬变的存在、复杂的立体声场景、音乐、干扰噪扰、背景音乐的存在、非干净的语音。在干净的环境中,例如没有或只有低级别的背景噪声或音乐或偏离干净语音的其他信号成分,gcc-phat仍然表现更好。为了总是获得最佳结果,必须取决于信号内容在两种方法之间切换。
[0123]
为了检测信号中的高级别背景噪声的存在性,使用噪声估计器和信号活动性检测器(sad)。可以在sad检测到信号的帧上估计所述信号的级别l
s
,同时由噪声估计器估计噪声的级别l
n
。然后,通过将信号噪声比snr=l
s-l
n
(以db为单位)与阈值进行比较,简单地检测到高级别的背景噪声的存在性,例如,如果snr<35,则检测到高噪声级别。
[0124]
一旦知道信号是否包括高级别的背景噪声,就可做出选择phat加权或mcsp加权来计算gcc的决定(先前技术中的步骤4.)。也可以取决于是否检测到高背景噪声级别来修正峰值提取(先前技术中的步骤6.),例如通过降低阈值。
[0125]
随后,以逐步的方式描述优选实施例。
[0126]
0.高背景噪声级别检测:
[0127]
a.噪声估计器(例如来自[6])被用于估计背景噪声的级别l
n
。iir平滑滤波器被用于在时间上平滑所述噪声级别。
[0128]
b.信号活动性检测器(例如来自[6])被用于将帧分类为活动或非活动。然后活动帧被用于简单地通过计算信号能量并使用iir平滑滤波器在时间上平滑它,计算信号级别l
s
。
[0129]
c.如果信号噪声比snr=l
s-l
n
(以db为单位)低于阈值(例如35db),则检测到高背景噪声级别。
[0130]
1.离散傅里叶变换:与任何先前技术相同
[0131]
2.互相关谱:与任何先前技术相同
[0132]
3.平滑:与任何先前技术相同,或如本文基于谱特征所描述的
[0133]
4.加权:
[0134]
如果检测到低级别的背景噪声,则使用与先前技术中相同的加权(gcc-phat)。
[0135]
如果检测到高级别的背景噪声,则使用mcsp加权
[0136][0137]
其中0<ρ<1(例如ρ=0.8)。为了使gcc-mcsp输出保持在与gcc-phat输出相同的范围内,执行额外的归一化步骤
[0138][0139]
5.逆变换:与任何先前技术相同
[0140]
6.峰值提取:在检测到高级别的背景噪声并使用mcsp加权的情形下,可以调适(adapt)峰值提取。特别地,已经发现较低的阈值是有益的。
[0141]
此外,图10a示出与图10c的实施方式不同的实施方式。在图10c的加权器1036中,加权器执行第一或第二加权过程。然而,在如图10a所示的加权器1036中,所述加权器仅执行相对于图10d或10c中的注释的第二加权过程。当使用已经在例如单个数学运算或硬件操作中在平滑之后或者与平滑一起执行第一加权过程的如块1030所示的平滑滤波器时,此实施方式是有用的。因此,在平滑滤波器中执行作为归一化操作的第一加权过程且没有任何压缩的情形下,一方面的平滑滤波器1030和一方面的实际加权器1036两者都对应于用于对经平滑或未经平滑或非平滑的互相关谱进行加权的实际加权器。因此,在图10a的实施方式中,噪声估计1038仅被提供给单独的加权器1036,并且通过某种处理器设置1040进行与已经根据加权过程加权的平滑滤波器1030的输出之间的选择、以及与图10a中的实际加权器136的输出之间的选择,所述处理器设置1040在加权器1036不提供任何输出信号的时候,自动使用来自平滑滤波器1030的输出,但是当加权器1036提供输出时,自动使得加权器1036
的输出优先于平滑滤波器1030的输出。然后,噪声估计1038,或者如在其他图中所讨论的控制信号1050,随后被用于激活或去激活加权器1036。因此,用于使用一阶加权过程对经平滑或未经平滑的互相关谱进行加权的实际加权器可以以许多不同的方式实施,例如在图10a中的特定激活/去激活模式,或者图10d中的具有输入或输出开关的双内核模式,或者根据单个加权过程内核,其取决于控制信号而选择一个或另一个加权过程,或者对通用加权处理器进行调适以执行第一或所述第二加权过程。
[0142]
随后,描述其中在加权之前执行平滑的优选实施例。在此上下文下,谱特征估计器的功能在优选实施例中还通过图4e的项目453、454来反映。
[0143]
此外,互相关谱计算器1020的功能在优选实施例中还通过后面描述的图4e中的项目452反映。
[0144]
对应地,平滑滤波器1030的功能还在后面将要描述的图4e的上下文中由项目453反映。额外地,处理器1040的功能在优选实施例中还在图4e的上下文中被描述为项目456至459。
[0145]
处理器1040的优选实施例还在图10c中描述。
[0146]
优选地,谱特征估计计算谱的噪声或调性,其中优选实施方式是在音调的或非噪声的信号的情形下计算谱平坦度测量接近0,并且在噪声的或类似噪声的信号的情形下接近1。
[0147]
特别地,平滑滤波器从而配置为在第一较少噪声特征或第一较多音调特征的情形下,以第一平滑度在时间上应用较强的平滑,或者在第二较多噪声特征或第二较少音调特征的情形下,以第二平滑度在时间上应用较弱的平滑。
[0148]
特别地,所述第一平滑度大于所述第二平滑度,其中第一噪声特征比第二噪声特征具有较少噪声,或者第一音调特征比第二音调特征具有较多调性。优选实施方式是谱平坦度测量。
[0149]
此外,如图11a所示,处理器优选地被实施为对经平滑的互相关谱进行归一化,如图4e和11a中的456处所示,该步骤在与图4e的实施例中的步骤457和458对应的步骤1031中的计算时域表示之前。然而,如也在图11a中示出的,处理器也可以在没有图4e中的步骤456中的归一化的情形下操作。然后,处理器配置为分析所述时域表示,如图11a的框1032中所示,以便找到通道间时间差。此分析可以以任何已知的方式执行,并且将产生改进的强健性,因为所述分析是基于依据所述谱特征平滑后的互相关谱执行的。
[0150]
如图11b所示,所述时域分析1032的优选实施方式是如在与图4e的项458对应的图11b中的458处所示的时域表示的低通滤波、以及后续的进一步处理1033,所述处理1033是在经低通滤波的时域表示内使用峰值搜索/峰值提取操作。
[0151]
如图11c所示,峰值提取或峰值搜索操作的优选实施方式是使用变量阈值来执行此操作。特别地,处理器配置为通过从依据所述经平滑互相关谱导出的时域表示确定1034变量阈值,并且通过将(使用或不使用谱归一化获得的)所述时域表示的峰值或若干峰值与所述变量阈值进行比较,在所述时域表示内执行所述峰值搜索/峰值提取操作,其中所述通道间时间差被确定为与一峰值相关联的时间迟滞,所述峰值与所述阈值具有预定关系,诸如大于所述变量阈值。
[0152]
如图11d所示,在稍后描述的与图4e-b相关的伪代码中示出的一个优选实施例包
括根据它们的幅值对值进行排序1034a。然后,如图11d中的项1034b中所示,确定例如所述值的最高的10%或5%。
[0153]
然后,如步骤1034c所示,将诸如数值3的数值乘以所述最高的10或5%中的最低值,以便获得所述变量阈值。
[0154]
如上所述,优选地,确定最高的10%或5%,但是确定所述值的最高的50%中的最低数值、并使用更高的乘数(例如10)也是有用的。自然地,确定甚至更小的量,诸如所述值的最高的3%,然后将所述值的最高的3%中的最低值乘以一数值,所述数值例如等于2.5或2,即低于3。因此,在图11d中示出的实施例中可以使用数值和百分比的不同组合。除百分比外,所述数值也可以变化,大于1.5的数值是优选的。
[0155]
在图11e中示出的进一步的实施例中,将所述时域表示划分为子块,如框1101所示,并且这些子块在图13中在1300处被指示。这里,大约16个子块被用于有效范围,使得每个子块具有20的时间迟滞跨度(time lag span)。然而,子块的数量可以大于此值或更低,并且优选地大于3且小于50。
[0156]
在图11e的步骤1102中,确定每个子块中的峰值,并且在步骤1103中,确定所有子块中的平均峰值。然后,在步骤1104中,确定乘法值a,这一方面取决于信号噪声比,并且在进一步的实施例中,取决于所述阈值和最大峰值之间的差,如框1104左边所示。取决于这些输入值,确定优选三个不同的乘法值中的一个,其中所述乘法值可以等于a
low
,a
high
和a
lowest
。
[0157]
然后,在步骤1105中,将在框1104中确定的乘法值a乘以平均阈值,以便获得所述变量阈值,所述变量阈值随后在框1106中的比较操作中使用。对于所述比较操作,可以再次使用输入到框1101中的时域表示,或者如框1102中所示可以使用每个子块中的已经确定的峰值。
[0158]
随后,概述关于时域互相关函数内的峰值的评估和检测的进一步实施例。
[0159]
由于输入场景不同,从广义互相关(gcc-phat)方法产生的用于估计通道间时差(itd)的时域互相关函数内的峰值的评估和检测并不总是直截了当的。干净的语音输入可以产生具有强峰值的低偏差互相关函数,而在噪声混响环境中的语音可以产生具有高偏差的向量并且具有较低但仍然突出的幅值的峰值,指示itd的存在。描述一种自适应且灵活的适应不同的输入场景的峰值检测算法
[0160]
由于延迟约束,整个系统可以处理通道时间对准,直到某个限制,即itd_max。所提出的算法被设计用于检测在以下情形下是否存在有效itd:
[0161]
·
由于突出峰值导致的有效itd。存在位于互相关函数的[-itd_max,itd_max]界限内的突出峰值。
[0162]
·
没有相关性。当两个通道之间没有相关性时,没有突出峰值。应定义阈值,高于所述阈值时,峰值足够强而可被视为有效itd值。否则,不应以信号方式传递任何itd处理,这意味着itd设置为零,并且不运行时间对准。
[0163]
·
界限之外的itd。在区域[-itd_max,itd_max]之外的互相关函数的强峰值应被评估,以便确定是否存在超出系统处理能力的itd。在此情形下,不应以信号方式传递任何itd处理,并且因此不执行时间对准。
[0164]
为了确定峰值的幅值是否足够高到被考虑为时间差值,需要定义合适的阈值。对
于不同的输入场景,互相关函数输出取决于不同的参数而变化,例如,环境(噪声、混响等)、麦克风设置(ab、m/s等)。因此,自适应地定义阈值是必不可少的。
[0165]
在所提出的算法中,通过首先计算[-itd_max,itd_max]区域内的互相关函数的幅值的包络的粗略计算的平均值来定义阈值(图13),然后据此取决于snr估计来对所述平均值进行加权。
[0166]
将在下面描述对于所述算法的逐步描述。
[0167]
表示时域互相关的gcc-phat的逆dft的输出被从负时间迟滞重新排列为正时间迟滞(图12)。
[0168]
互相关向量分为三个主要区域:感兴趣区域,即[-itd_max,itd_max],以及itd_max界限之外的区域,即小于-itd_max(max_low)和高于itd_max(max_high)的时间迟滞。“界限之外的”区域的最大峰值被检测并保存,以便与在感兴趣区域中检测到的最大峰值进行比较。
[0169]
为了确定有效itd是否存在,互相关函数的子向量区域[-itd_max,itd_max]被考虑。所述子向量被分成n个子块(图13)。
[0170]
对于每个子块,最大峰值幅值peak_sub和等效时间迟滞位置index_sub被找到并保存。
[0171]
局部最大值peak_max的最大值被确定,并将其与所述阈值进行比较,以确定是否存在有效的itd值。
[0172]
将最大值peak_max与max_low和max_high进行比较。如果peak_max低于两者中的任何一个,则不以信号方式传递itd处理,并且不执行时间对准。由于系统的itd处理限制,界限之外的峰值的幅值不需要被评估。
[0173]
计算所述峰值的平均值:
[0174][0175]
然后通过利用取决于snr的加权因子a
w
对peak
mean
进行加权,来计算阈值thres:
[0176]
thres=a
w
peak
mean
,其中
[0177]
在snr<<snr
threshold
和|thres-peak_max|<ε的情形下,峰值幅值还与略微更松弛的阈值(a
w
=a
lowest
)进行比较,以避免拒绝具有高相邻峰值的突出峰值。加权因子可以是例如a
high
=3、a
low
=2.5和a
lowest
=2,而snr
threshold
可以是例如20db,以及界限ε=0.05。
[0178]
a
high
的优选范围是2.5到5;a
low
的优选范围是1.5至4;a
lowest
的优选范围是1.0到3;snr
threshold
的优选范围是10至30db;以及ε的优选范围是0.01至0.5,其中a
high
大于a
low
,a
low
大于a
lowest
。
[0179]
如果peak_max>thres,则返回等效时间迟滞作为所估计的itd,否则不以信号方式传递itd处理(itd=0)。进一步的实施例将相对于图4e稍后描述。
[0180]
图11f示出确定有效itd(通道间时间差)输出的优选实施方式。
[0181]
经加权且经平滑或未经平滑的互相关谱的时域表示的子块被输入到处理器1040内的确定步骤。确定步骤1120确定从经加权且经平滑或未经平滑的互相关谱导出的时域表示内的有效范围和无效范围。在步骤1121中,在无效范围内确定最大峰值,并且在步骤1122
中,在有效范围内确定最大峰值。特别地,在无效范围内确定至少一个最大峰值,并且在有效范围内确定至少一个最大峰值。在块1123中,将有效范围的最大峰值与无效范围的最大峰值进行比较。如果有效峰值即有效范围中的最大峰值大于“无效峰值”即无效范围中的最大峰值,则itd确定1124被实际执行,并且提供有效的itd输出。但是,当检测到“无效峰值”大于“有效峰值”或无效峰值与有效峰值具有相同大小时,则不提供有效输出,并且优选地,执行错误消息或任何类似的操作被执行,以引起处理器的注意。
[0182]
随后,将相对于图1至9e讨论图10b的用于信号进一步处理器的目的的块1050内的本发明的优选实施方式,即在立体声/多通道处理/编码以及两个通道的时间对准的上下文中。
[0183]
然而,如所述和如图10b所示,存在许多其他领域,在其中也可以执行使用所确定的通道间时间差的信号进一步处理。
[0184]
图1示出用于对具有至少两个通道的多通道信号进行编码的装置。多通道信号10一方面被输入到参数确定器100,另一方面被输入到信号对准器200。参数确定器100一方面确定宽带对准参数,另一方面确定来自多通道信号的多个窄带对准参数。这些参数经由参数线12输出。此外,如图所示,这些参数还经由另一参数线14输出到输出接口500。在参数线14上,诸如级别参数之类的额外参数被从参数确定器100转发到输出接口500。信号对准器200配置为使用经由参数线12接收的宽带对准参数和多个窄带对准参数来对准多通道信号10的至少两个通道,以在信号对准器200的输出处获得对准的通道20。对准的通道20被转发到信号处理器300,信号处理器300配置用于从经由线路20接收的对准的通道计算中间信号31和侧面信号32。所述用于编码的装置还包括信号编码器400,用于对来自线路31的中间信号和来自线路32的侧面信号进行编码,以获得线路41上的编码中间信号和线路42上的编码侧面信号。这两个信号都被转发到输出接口500,用于生成输出线50处的编码多通道信号。输出线50处的编码信号包括来自线路41的编码中间信号、来自线路42的编码侧面信号、来自线路14的窄带对准参数和宽带对准参数、以及可选地来自线路14的级别参数、以及额外可选地立体声填充参数,所述立体声填充参数由信号编码器400生成并经由参数线43转发到输出接口500。
[0185]
优选地,信号对准器配置为在参数确定器100实际计算窄带参数之前,使用宽带对准参数对来自多通道信号的通道进行对准。因此,在此实施例中,信号对准器200经由连接线15将经宽带对准的通道传输回参数确定器100。然后,参数确定器100从所述已经相对于宽带特征对准的多通道信号,确定多个窄带对准参数。然而,在其他实施例中,所述参数是在没有此特定过程序列的情况下确定的。
[0186]
图4a示出优选实施方式,其中执行引起连接线15的特定步骤序列。在步骤16中,使用两个通道确定宽带对准参数,并且获得诸如通道间时间差或itd参数的宽带对准参数。然后,在步骤21中,通过图1的信号对准器200,使用宽带对准参数对准两个通道。然后,在步骤17中,在参数确定器100内使用对准的通道确定窄带参数,以便确定多个窄带对准参数,例如针对多通道信号的不同频带的多个通道间相位差参数。然后,在步骤22中,针对此特定频带,使用对应的窄带对准参数对准每个参数频带中的谱值。当针对每个频带执行步骤22中的此过程时,其中窄带对准参数是可用的,则对准的第一和第二或左/右通道对于图1的信号处理器300所进行的进一步信号处理是可用的。
[0187]
图4b示出图1的多通道编码器的另一实施方式,其中在频域中执行多个过程。
[0188]
具体地,所述多通道编码器进一步包括时间-频谱转换器150,用于将时域多通道信号转换为频域内的至少两个通道的谱表示。
[0189]
此外,如在152所示,图1中的100、200和300所示的参数确定器、信号对准器和信号处理器都在频域中操作。
[0190]
此外,所述多通道编码器,并且具体来讲是信号处理器,进一步包括频谱-时间转换器154,用于至少生成中间信号的时域表示。
[0191]
优选地,频谱-时间转换器额外地将也由块152表示的过程所确定的侧面信号的谱表示转换为时域表示,然后图1的信号编码器400配置为取决于图1的信号编码器400的具体实施方式,进一步作为时域信号对中间信号和/或侧面信号进行编码。
[0192]
优选地,图4b的时间-频谱转换器150配置为实施图4c的步骤155、156和157。具体地,步骤155包括提供分析窗口,在该分析窗口的一端具有至少一个零填补部分,并且具体来讲是在初始窗口部分处的零填补部分和在终止窗口部分处的零填补部分,例如如在稍后的图7中所示。此外,分析窗口在窗口的前半部分和窗口的后半部分处额外具有重叠范围或重叠部分,并且额外地,中间部分优选地是视情形而定的非重叠范围。
[0193]
在步骤156中,使用具有重叠范围的分析窗口对每个通道进行加窗。具体而言,使用分析窗口对每个通道进行加窗,以此种方式获得通道的第一个块。随后,获得相同通道的第二块,其与所述第一块具有一定重叠范围,依此类推,使得在例如五次加窗操作之后,每个通道的五个加窗样本块是可用的,然后如图4c中的157所示,被单独地转换成谱表示。对于另一个通道也执行相同的过程,使得在步骤157结束时,可获得谱值块的序列,具体来讲是诸如dft谱值或者复数子频带样本之类的复数谱值。
[0194]
在由图1的所述参数确定器100执行的步骤158中,确定宽带对准参数,并且在由图1的信号对准200执行的步骤159中,使用宽带对准参数执行循环移位。再次由图1的参数确定器100执行的步骤160中,针对各个频带/子频带确定窄带对准参数,并且在步骤161中,使用针对特定频带所确定的对应窄带对准参数,针对每个频带旋转经对准的谱值。
[0195]
图4d示出由信号处理器300执行的进一步过程。具体地,信号处理器300配置为计算中间信号和侧面信号,如步骤301所示。在步骤302中,可以执行侧面信号的某种进一步处理,然后在步骤303中,将中间信号和侧面信号的每个块变换回到时域,并且在步骤304中,将合成窗口应用于在步骤303获得的每个块,并且在步骤305中,一方面执行中间信号的重叠相加操作,另一方面执行侧面信号的重叠相加操作,以最终获得时域中间/侧面信号。
[0196]
具体地,步骤304和305的操作导致执行从中间信号或侧面信号的一个块到中间信号或侧面信号的下一个块的一种交叉渐入渐出(cross fading),使得即使当任何参数出现变化,比如通道间时差参数或通道间相位差参数出现变化时,也将在图4d中通过步骤305获得的时域中间/侧面信号中听不到。
[0197]
新的低延迟立体声编码是利用一些空间线索的联合中间/侧面(m/s)立体声编码,其中通过主要单核心编码器对中间通道进行编码,以及在辅助核心编码器中对侧面通道进行编码。编码器和解码器原理在图6a和6b中示出。
[0198]
主要在频域(fd)中执行立体声处理。可选地,可以在频率分析之前在时域(td)中执行一些立体声处理。itd计算的情形便是如此,在频率分析之前计算和应用该itd计算,以
便在进行立体声分析和处理之前及时对准通道。替代地,itd处理可以直接在频域中完成。由于像acelp这样的常用语音编码器不包含任何内部的时间频率分解,因此立体声编码借助于在核心编码器之前的分析和合成滤波器组以及在核心解码器之后的分析-合成滤波器组的另一级,添加额外的复调制滤波器组(complex modulated filter-bank)。在优选实施例中,采用具有低重叠区域的过采样dft。然而,在其他实施例中,可以使用具有相似时间分辨率的任何复数值时间-频率分解。
[0199]
立体声处理包括计算空间线索:通道间时间差(itd)、通道间相位差(ipd)和通道间级别差(ild)。itd和ipd用在输入立体声信号上,用于在时间和相位上对准两个通道l和r。itd是在宽带或时域中计算的,而ipd和ild是针对每个或部分参数频带来计算,对应于频率空间的非均匀分解。一旦两个通道被对准,应用联合m/s立体声,其中随后从中间信号进一步预测侧面信号。从ild得出预测增益。
[0200]
通过主要核心编码器对中间信号进一步编码。在优选实施例中,主要核心编码器是3gpp evs标准,或者是从其衍生的编码,该编码可以在语音编码模式、acelp和基于mdct变换的音乐模式之间切换。优选地,acelp和基于mdct的编码器分别由时域带宽扩展(td-bwe)和/或智能间隙填充(igf)模块支持。
[0201]
首先通过中间通道使用从ild导出的预测增益来预测侧面信号。残差可以通过中间信号的延迟版本被进一步预测,或者通过辅助核心编码器被直接编码,这是在mdct域中的优选实施例中执行的。编码器处的立体声处理可以通过图5来概述,这将在后面解释。
[0202]
图2示出用于对在输入线50处接收的编码多通道信号进行解码的装置的实施例的框图。
[0203]
特别地,信号被输入接口600接收。连接到输入接口600的是信号解码器700和信号去对准器900。此外,信号处理器800一方面连接到信号解码器700,另一方面连接到信号去对准器。
[0204]
特别地,编码多通道信号包括编码中间信号、编码侧面信号、关于宽带对准参数的信息以及多个窄带参数的信息。因此,在线50上的编码多通道信号可以是与通过图1的输出接口500输出的信号完全相同的信号。
[0205]
然而,重要地,这里要注意的是,与图1中所示的相反,以特定形式包括在编码信号中的宽带对准参数和多个窄带对准参数可以确切地是由图1中的信号对准器200使用的对准参数,但是,替代地,也可以是其相反值,即,可以被由信号对准器200执行的完全相同的操作使用的、但是具有相反值以便获得去对准的参数。
[0206]
因此,关于对准参数的信息可以是由图1中的信号对准器200使用的对准参数,或者可以是相反值,即实际的“去对准参数”。额外地,这些参数通常将以某种形式被量化,这将在稍后相对于图8来讨论。
[0207]
图2的输入接口600从编码中间/侧面信号中分离关于宽带对准参数和多个窄带对准参数的信息,并且经由参数线610将所述信息转发到信号去对准器900。另一方面,编码中间信号经由线601转发到信号解码器700,并且编码侧面信号经由信号线602转发到信号解码器700。
[0208]
信号解码器配置用于对编码中间信号进行解码,以及用于对编码侧面信号进行解码,以获得线701上的解码中间信号和线702上的解码侧面信号。这些信号被信号处理器800
用于从解码中间信号和解码侧面信号计算解码第一通道信号或解码左信号、以及计算解码第二通道或解码右通道信号,并且所述解码第一通道和解码第二通道分别在线801、802上输出。信号去对准器900被配置使用关于宽带对准参数的信息、以及额外地使用关于多个窄带对准参数的信息,对线801上的解码第一通道和解码右通道802进行去对准,以获得解码多通道信号,即具有线901和902上的至少两个经解码和去对准的通道的解码信号。
[0209]
图9a示出由图2中的信号去对准器900执行的优选步骤序列。具体地,步骤910接收对准的左和右通道,所述对准的左和右通道可在图2中的线801、802上得到。在步骤910中,信号去对准器900使用关于窄带对准参数的信息对各个子频带进行去对准,以便在911a和911b处获得经相位去对准的解码的第一和第二或者左和右通道。在步骤912中,使用宽带对准参数对通道进行去对准,使得在913a和913b处获得经相位和时间去对准的通道。
[0210]
在步骤914中,执行任何进一步的处理,包括使用加窗或任何重叠相加操作,或者一般而言,任何交叉渐入渐出操作,以便在915a或915b处获得伪影减少或无伪影的解码信号,即,成为没有任何伪影的解码通道,虽然通常往往存在一方面用于宽带和另一方面用于多个窄带的时变去对准参数。
[0211]
图9b示出图2中所示的多通道解码器的优选实施方式。
[0212]
特别地,图2的信号处理器800包括时间-频谱转换器810。
[0213]
所述信号处理器还包括中间/侧面(m/s)到左/右(l/r)转换器820,以便从中间信号m和侧面信号s计算左信号l和右信号r。
[0214]
然而,重要地,为了在块820中通过中间/侧面-左/右转换来计算l和r,侧面信号s不一定被使用。代之以,如稍后所讨论的,仅使用从通道间级别差参数ild导出的增益参数来初始计算左/右信号。通常,预测增益也可以被认为是ild的一种形式。增益可以从ild导出,但也可以直接计算。优选的是不再计算ild,而是直接计算预测增益并且在解码器中传输和使用所述预测增益而不是ild参数。
[0215]
因此,在此实施方式中,仅在通道更新器830中使用侧面信号s,通道更新器830使用如旁路线821所示的所传输的侧面信号s以提供更好的左/右信号。
[0216]
因此,转换器820使用经由级别参数输入822获得的级别参数进行操作,而不实际使用侧面信号s,但是随后通道更新器830使用侧面821、以及取决于具体实施方式使用经由线831接收的立体声填充参数,来进行操作。然后,信号对准器900包括相位去对准器和能量缩放器910。所述能量缩放是通过缩放因数计算器940得出的缩放因数来控制。通道更新器830的输出被馈送至缩放因数计算器940。基于经由输入911接收的窄带对准参数,执行相位去对准,并且在块920中,基于经由线921接收的宽带对准参数,执行时间去对准。最后,执行频谱-时间转换930,以便最终获得解码信号。
[0217]
图9c示出在优选实施例中通常在图9b的块920和930内执行的另一系列步骤。
[0218]
具体地,窄带去对准通道被输入到对应于图9b的块920的宽带去对准功能。在块931中执行dft或任何其他变换。在实际计算时域样本之后,执行使用合成窗口的可选合成加窗。合成窗口优选地与分析窗口完全相同,或者从分析窗口所导出,例如插值或抽取(decimation),但是以某种方式依赖于所述分析窗口。此依赖性优选地使得针对重叠范围中的每个点,由两个重叠窗口定义的乘法因子加起来为一。因此,在块932中的合成窗口之后,执行重叠操作和随后的加法操作。替代地,不执行合成加窗和重叠/相加操作,而代之以
执行针对每个通道的后续块之间的任何交叉渐入渐出,以便如在图9a的上下文中已经讨论的那样,获得伪影减少的解码信号。
[0219]
当考虑图6b时,变得清楚的是,一方面的针对中间信号的实际解码操作,即“evs解码器”,和另一方面的针对侧面信号的实际解码操作,即逆向量量化vq-1
和逆mdct操作(imdct),对应于图2的信号解码器700。
[0220]
此外,块810中的dft操作对应于图9b中的单元810,以及逆立体声处理和逆时间移位的功能对应于图2的块800、900,以及图6b中的逆dft(idft)操作930对应于图9b中的块930中的对应操作。
[0221]
随后,更详细地讨论图3。特别地,图3示出具有个体谱线的dft频谱。优选地,图3中所示的dft谱或任何其他谱是复数谱,并且每条线是具有幅值和相位、或者具有实部和虚部的复数谱线。
[0222]
额外地,所述谱还被分成不同的参数频带。每个参数频带具有至少一个、并且优选地多于一个的谱线。额外地,参数频带从较低频率增加到较高频率。通常,宽带对准参数是针对整个谱的单个宽带对准参数,即针对包括图3中的示例性实施例中的所有频带1至6的频谱。
[0223]
此外,提供多个窄带对准参数,使得对于每个参数频带存在单个对准参数。这意味着针对一频带的对准参数总是应用于对应频带内的所有谱值。
[0224]
此外,除了窄带对准参数之外,还针对每个参数频带提供级别参数。
[0225]
针对频带1到频带6的每一参数频带提供的级别参数不同,优选的是仅为有限数量的较低频带(例如频带1、2、3、和4)提供多个窄带对准参数。
[0226]
额外地,针对除了较低频带之外的某一数量的频带,例如在示例性实施例中针对频带4、5和6,提供立体声填充参数,同时针对较低参数频带1、2和3,存在侧面信号谱值,并且因此,对于这些较低频带,不存在立体声填充参数,在这些较低频带中,使用侧面信号本身或表示所述侧面信号的预测残差信号来获得波形匹配。
[0227]
如上所述,在较高频带中存在更多的谱线,例如在图3的实施例中,参数频带6中的七条谱线,对比于参数频带2中的仅三条谱线。然而,自然地,参数频带的数量、谱线的数量、和参数频带内的谱线的数量、以及对于某些参数的不同限制将是不同的。
[0228]
尽管如此,图8示出在某个实施例中的参数、以及为其提供参数的频带的数量的分布,在该实施例中,与图3不同,实际上有12个频带。
[0229]
如图所示,为12个频带中的每一个提供级别参数ild,并将其量化为由每个频带5位表示的量化精度。
[0230]
此外,窄带对准参数ipd仅针对直到2.5khz的边界频率的较低频带来提供。额外地,通道间时间差或宽带对准参数仅作为针对整个频谱的单个参数来提供,但具有针对整个频带的由8位表示的非常高的量化精度。
[0231]
此外,提供了非常粗略量化的立体声填充参数,由每个频带三位表示,且不提供给低于1khz的较低频带,因为对于较低频带,包括实际编码的侧面信号或侧面信号残差频谱值。
[0232]
随后,相对于图5,概述编码器侧的优选处理。在第一步骤中,执行左通道(l)和右通道(r)的dft分析。所述过程对应于图4c的步骤155至157。在步骤158中,计算宽带对准参
数,特别地,优选的宽带对准参数是通道间时间差(itd)。如170中所示,执行频域中的l和r的时间移位。替代地,所述时间移位也可以在时域中执行。然后,执行逆dft,在时域中执行时间移位,并且执行附加的正向dft,以便在使用宽带对准参数进行对准之后再次具有谱表示。
[0233]
如在步骤171处所示,在经移位的l和r表示上针对每个参数频带,计算ild参数即级别参数、以及相位参数(ipd参数)。例如,所述步骤对应于图4c的步骤160。作为通道间相位差参数的函数来旋转经时间移位的l和r表示,如图4c或图5的步骤161所示。随后,如步骤301所示,并且优选地额外利用稍后讨论的能量对话操作,来计算中间和侧面(m/s)信号。在随后的步骤174中,利用作为ild的函数的m,以及可选地利用过去的m信号,即较早帧的中间信号,来执行s的预测。随后,执行中间信号和侧面信号的逆dft,其在优选实施例中对应于图4d的步骤303、304、305。
[0234]
在最后的步骤175中,对时域中间信号m进行编码,以及可选地对残差信号进行编码,如步骤175所示。此过程对应于由图1中的信号编码器400执行的操作。
[0235]
在逆立体声处理的解码器中,在dft域中被生成侧面(side)信号,并且其首先如下从中间(mid)信号预测出:
[0236][0237]
其中g是为每个参数频带计算的增益,并且是所传输的通道间级别差(ild)的函数。
[0238]
随后可以以两种不同的方式对预测的残差side-g
·
mid进行细化:
[0239]-通过残差信号的二次编码(secondary coding):
[0240][0241]
其中g
cod
是为整个频谱传输的全局增益
[0242]-通过残差预测,该残差预测被称为立体声填充,利用来自先前dft帧的先前解码的mid信号频谱来预测残差侧面谱:
[0243][0244]
其中g
pred
是为每个参数频带传输的预测增益。
[0245]
两种类型的编码细化(refinement)可以在相同的dft频谱内被混合。在优选实施例中,残差编码被应用于较低参数频带,而残差预测被应用于剩余频带。在如图1中描述的优选实施例中,在时域中合成残差侧面信号并通过mdct对其进行变换之后,在mdct域中执行残差编码。与dft不同,mdct是关键采样的(critical sampled),更适合音频编码。通过格型向量量化(lattice vector quantization)直接对mdct系数进行向量量化,但也可以替代地通过标量量化器及随后的熵编码器对mdct系数进行编码。替代地,残差侧面信号也可以通过语音编码技术在时域中被编码,或者直接在dft域中被编码。
[0246]
1.时间-频率分析:dft
[0247]
重要的是,由dft进行的立体声处理的额外时间-频率分解能够实现良好的听觉场景分析,同时不会显著增加编码系统的整体延迟。默认情形下,使用10ms的时间分辨率(核心编码器的20ms成帧的两倍)。分析和合成窗口是相同的并且是对称的。在图7中以16khz的采样率表示所述窗口。可以观察到,重叠区域被限制以减少产生的延迟,并且还添加零填补
以在频域中应用itd时平衡循环移位,如下文将解释的。
[0248]
2.立体声参数
[0249]
可以在立体声dft的时间分辨率下最大地传输立体声参数。最小可以将其减少到核心编码器的成帧分辨率,即20ms。默认情形下,当未检测到瞬变时,将在2个dft窗口上每20ms计算一次参数。参数频带构成所述谱的非均匀和非重叠的分解,大致为等效矩形带宽(equivalent rectangular bandwidth,erb)的大约2倍或4倍。图8概述了配置的范例,其中以大约5kbps传输立体声侧信息。
[0250]
3.计算itd和通道时间对准
[0251]
通过使用具有相位变换的广义互相关(gcc-phat)估计到达时间延迟(tdoa)来计算itd:
[0252][0253]
其中l和r分别是左右通道的频谱。频率分析可以独立于用于后续立体声处理的dft被执行,或者可以被共享。用于计算itd的伪代码如下:
[0254][0255]
图4e示出用于实施先前示出的伪代码以便获得作为宽带对准参数示例的通道间时间差的强健且有效的计算的流程图。
[0256]
在块451中,执行第一通道(1)和第二通道(r)的时域信号的dft分析。例如,此dft分析通常与已经在图5或图4c中的步骤155至157的上下文中讨论的dft分析相同。
[0257]
然后,如块452所示,针对每个频率区间执行互相关。
[0258]
从而,针对左和右通道的整个频谱范围获得互相关谱。
[0259]
在步骤453中,随后从l和r的幅值谱计算谱平坦度测量(sfm),以及在步骤454中,选择较大的频谱平坦度测量。然而,步骤454中的选择不一定必须是选择较大的一个,而是来自两个通道的单个sfm的确定也可以是仅左通道或仅右通道的选择和计算,或者可以是两个sfm值的加权平均值的计算。
[0260]
在步骤455中,取决于谱平坦度测量(sfm)在时间上对互相关谱进行平滑。
[0261]
优选地,通过将幅值谱的几何平均值除以幅值谱的算术平均值来计算谱平坦度测量。因此,sfm的值被限制在0和1之间。
[0262]
在步骤456中,然后通过其幅值对经平滑互相关谱进行归一化,以及在步骤457中,计算经归一化且经平滑的互相关谱的逆dft。在步骤458中,优选地执行某种时域滤波,但是取决于实施方式,此时域滤波也可以被搁置,但是如稍后将概述的,此时域滤波是优选的。
[0263]
在步骤459中,通过对经滤波的广义互相关函数的峰值提取、并且进行某种阈值操作,执行itd估计。
[0264]
如果没有获得高于阈值的峰值,则将itd设置为零,并且不对此对应块执行时间对准。
[0265]
itd计算也可以如下概述。取决于谱平坦度测量(spectral flatness measurement,sfm),在平滑之前在频域中计算互相关。sfm的范围在0到1之间。在类似噪声的信号的情形下,sfm将是高的(即大约接近1),并且平滑将是弱的。在类似音调的信号的情形下,sfm将是低的,并且平滑将变得更强。然后,在将经平滑互相关变换回到时域之前通过其幅值对其进行归一化。归一化对应于互相关的相位变换,并且已知的是在低噪声和相对高混响环境中显示出比正常互相关更好的性能。首先对如此获得的时域函数进行过滤,以实现更强健的峰值成峰。对应于最大幅值的索引是与左和右通道之间的时间差(itd)的估计对应的。如果最大值的幅值低于给定阈值,则itd的估计不被考虑为是可靠的,并且被设置为零。
[0266]
如果在时域中应用所述时间对准,则所述itd在一单独的dft分析中被计算。所述平移被完成如下:
[0267][0268]
它需要在编码器处的额外延迟,其最大值等于可以处理的最大绝对itd。通过dft的分析窗口来平滑itd在时间上的变化。
[0269]
替代地,可以在频域中执行时间对准。在这种情形下,itd计算和循环移位处于相同的dft域中,所述域与此其他立体声处理共享。所述循环移位由下式给出:
[0270][0271]
需要dft窗口的零填补来模拟具有循环移位的时间移位。零填补的大小对应于可以被处理的最大绝对itd。在优选实施例中,通过在两端都添加3.125ms的零,所述零填补被均匀地分割在分析窗口的两侧。从而最大绝对可能itd是6.25ms。在a-b麦克风设置中,对应
于最坏情形是两个麦克风之间的最大距离约为2.15米。通过合成窗口和dft的重叠相加来平滑itd在时间上的变化。
[0272]
重要的是,时间移位之后是经移位信号的加窗。它是与现有技术的双耳线索编码(bcc)的主要区别,其中时间移位应用于经窗口信号,但在合成阶段不被进一步加窗。因此,itd在时间上的任何变化都会在解码信号中产生非自然的(artificial)瞬变/咔嗒声(click)。
[0273]
4.计算ipd和通道旋转
[0274]
在时间对准两个通道之后,计算ipd,并且这是针对每个参数频带的,或者是至少达到给定的ipd_max_band,取决于立体声配置。
[0275][0276]
然后ipd被应用于两个通道以对准它们的相位:
[0277][0278]
其中β=atan2(sin(ipd
i
[b]),以及b是频率索引k所属于的参数频带索引。参数β负责在两个通道之间分配相位旋转量,同时使它们的相位对准。β取决于ipd,但也取决于通道的相对振幅级别ild。如果通道具有较高的幅值,它将被视为前导通道,并且其受到相位旋转的影响将小于具有较低幅值的通道。
[0279]
5.和-差和侧面信号编码
[0280]
以在mid信号中保存能量的方式,对两个通道的经时间和相位对准的谱执行和-差变换(sum difference transformation)。
[0281][0282]
其中被界定在1/1.2和1.2之间,即-1.58和+1.58db。当调整m和s的能量时,该限制避免伪影。值得注意的是,当时间和相位事先已被对准时,这种能量保存不太重要。替代地,所述界限可以被增加或减少。
[0283]
利用m进一步预测侧面信号s:
[0284][0285]
其中其中替代地,可以通过最小化由前一等式推导的残差和ild的均方误差(mse),来找到最佳预测增益g。
[0286]
可以通过两种方式对残差信号s
′
(f)进行建模:或者通过利用m的延迟谱对其进行预测,或者通过在mdct域中在mdct域中直接对它进行编码。
[0287]
6.立体声解码
[0288]
中间信号x和侧面信号s被首先如下转换为左通道l和右通道r:
[0289]
l
i
[k]=m
i
[k]+gm
i
[k],对于band_limits[b]≤k<band_limits[b+1],
[0290]
r
i
[k]=m
i
[k]-gm
i
[k],对于band_limits[b]≤k<band_limits[b+1],
[0291]
其中从ild参数导出每参数频带的增益g:
[0292]
其中
[0293]
对于低于cod_max_band的参数频带,利用解码侧面信号更新两个频道:
[0294]
l
i
[k]=l
i
[k]+cod_gain
i
·
s
i
[k],对于0≤k<band_limits[cod_max_band],
[0295]
对于0≤k<band_limits[cod_max_band],
[0296]
对于更高的参数频带,侧面信号被预测,并且通道被更新为:
[0297]
l
i
[k]=l
i
[k]+cod_pred
i
[b]
·
m
i-1
[k],对于band_limits[b]≤k<band_limits[b+1],
[0298]
对于band_limits[b]≤k<band_limits[b+1],
[0299]
最后,通道乘以复数值,旨在恢复原始能量和立体声信号的通道间相位:
[0300]
l
i
[k]=a
·
e
j2πβ
·
l
i
[k]
[0301][0302]
其中
[0303][0304]
其中a是如先前所定义和界定的,且其中β=atan2(sin(ipd
i
[b]),cos(ipd
i
[b])+c),其中atan2(x,y)是x与y的四象限反正切。
[0305]
最后,取决于所传输的itd,在时域或频域中对通道进行时间移位。通过逆dft和重叠相加来合成时域通道。
[0306]
本发明的具体特征涉及空间线索与和-差联合立体声编码的组合。特别地,空间线索idt和ipd被计算并被应用于立体声通道(左和右)。此外,计算和-差(m/s信号),并且优选地利用m将预测应用于s。
[0307]
在解码器侧,宽带和窄带空间线索与和-差联合立体声编码组合在一起。特别地,使用诸如ild的至少一个空间线索,利用中间信号预测侧面信号,并且计算逆和-差,以获得左和右通道,以及额外地,将宽带和窄带空间线索应用于左和右通道。
[0308]
优选地,编码器具有在使用itd进行处理之后相对于时间对准通道的窗口和重叠相加。此外,解码器额外具有在应用通道间时间差之后对通道的移位或去对准版本的加窗和重叠相加操作。
[0309]
使用gcc-phat方法计算通道间时间差是一种特别强健的方法。
[0310]
所述新过程相对于现有技术是有利的,因为它以低延迟实现了立体声音频或多通道音频的位速率编码。它被特别设计为对于输入信号的不同性质以及多通道或立体声录制的不同设置具有强健性。特别是,本发明针对低位速率立体声语音编码提供了良好的质量。
[0311]
优选的过程可用于在给定的低位速率下,以恒定的感知质量分配所有类型的立体声或多通道音频内容(例如语音和音乐)的广播。这些应用领域是数字无线电、因特网串流媒体或音频通信应用。
[0312]
虽然已经根据若干实施例描述了本发明,但是存在落入本发明范围内的改变、置换和各种替代等同物。还应当注意,有许多实施本发明方法和设备的可选方式。因此,意图是以下所附权利要求应被解释为包括所有这样的落入本发明主旨和范围内的改变、置换和各种替代等同物。
[0313]
尽管已在装置的上下文中描述一些方面,但显然,这些方面也表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的方面也表示对应装置的对应块或项或特征的描述。可通过(或使用)硬件装置,例如微处理器、可编程计算机或电子电路,执行方法步骤中的一些或全部。在一些实施例中,可通过这种装置执行最重要的方法步骤中的一个或多个。
[0314]
本发明的编码数据流可存储于数字存储介质上或可在诸如无线传输介质的传输介质或诸如因特网的有线传输介质上传输。
[0315]
取决于某些实施要求,本发明的实施例可在硬件或软件中实施。可使用上面存储有与可编程计算机系统协作(或能够协作)的电子可读控制信号,使得执行相应方法的数字存储介质(例如,软盘、dvd、蓝光光盘、cd、rom、prom、eprom、eeprom或闪存)来进行实施。因此,数字存储介质可以是计算机可读的。
[0316]
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,所述控制信号能够与可编程计算机系统协作,使得执行本文中所描述的方法中的一个。
[0317]
大体而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品运行于计算机上时,程序代码操作性地用于执行所述方法中的一个。程序代码可例如存储于机器可读载体上。
[0318]
其他实施例包括存储于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。
[0319]
换言之,本发明方法的实施例因此为计算机程序,其具有用于在计算机程序运行于计算机上时执行本文中所描述的方法中的一个的程序代码。
[0320]
因此,本发明方法的另一实施例为数据载体(或数字存储介质,或计算机可读介质),其包括记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。
[0321]
因此,本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可例如配置为经由数据通信连接(例如,经由因特网)而传送。
[0322]
另一实施例包括处理手段,例如经配置或调适以执行本文中所描述的方法中的一个的计算机或可编程逻辑器件。
[0323]
另一实施例包括上面安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。
[0324]
根据本发明的另一实施例包括配置为将用于执行本文中所描述的方法中的一个的计算机程序(例如,电子地或光学地)传送至接收器的装置或系统。接收器可例如为计算
机、移动设备、存储设备等。装置或系统可例如包括用于传送计算机程序至接收器的文件服务器。
[0325]
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可用以执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器协作,以便执行本文中所描述的方法中的一个。通常,所述方法优选地由任何硬件装置来执行。
[0326]
本文中所描述的装置可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来实施。
[0327]
本文中所描述的方法可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来执行。
[0328]
上述实施例仅说明本发明的原理。应理解,对本文中所描述的配置和细节的修改和变化将对本领域其他技术人员清楚明白。因此,意图是仅受到所附专利权利要求的范围限制,而不受到以描述和解释本文中的实施例的方式呈现的具体细节的限制。
[0329]
参考文献
[0330]
[1]patent application.
″
apparatus and method for estimating an inter-channel time difference.
″
international application number pct/ep2017/051214.
[0331]
[2]knapp,charles,and glifford carter.
″
the generalized correlation method for estimation of time delay.
″
ieee transactions on acoustics,speech,and signal processing 24.4(1976):320-327.
[0332]
[3]zhang,cha,dinei florencio,and zhengyou zhang.
″
why does phat work well in low-noise,reverberative environments?
″
acoustics,speech and signal processing,2008.icassp 2008.ieee international conference on.ieee.2008.
[0333]
[4]rabinkin,daniel v.,et al.
″
dsp implementation of source location using microphone arrays.
″
advanced signal processing algorithms,architectures,and implementations vi.vol.2846.international society for optics and photonics,1996.
[0334]
[5]shen,miao,and hong liu.
″
a modified cross power-spectrum phase method based on microphone array for acoustic source localization.
″
systems,man and cybernetics,2009.smc 2009.ieee international conference on.ieee,2009.
[0335]
[6]3gpp ts 26.445;codec for enhanced voice services(evs);detailed algorithmic description.
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
热门咨询
tips