使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除的制作方法
2021-01-28 15:01:57|351|起点商标网
本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2014年7月18日、申请号为201480041810.x、发明名称为“使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除”的分案申请。本发明涉及音频信号处理,特别地,涉及一种使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除。
背景技术:
:至今为止,一些多声道声音格式被采用,从典型的电影声轨5.1环绕音效至更广泛的3d环绕音效格式。在某些情况下,声音内容必须通过数目较少的扬声器进行传递。此外,在近期的低比特率音频解码方法中,如在j.breebaart,s.vandepar,a.kohlrausch,ande.schuijers,“parametriccodingofstereoaudio,”eurasipjournalonappliedsignalprocessing,vol.2005,pp.1305–1322,2005以及在j.herre,k.j.breebaart,c.faller,s.disch,h.purnhagen,j.koppens,j.hilpert,j.w.oomen,k.linzmeier,andk.s.chong,“mpegsurround-theiso/mpegstandardforefficientandcompatiblemultichannelaudiocoding,”j.audioeng.soc,vol.56,no.11,pp.932–955,2008所描述,较高数量的声道被以一组降混信号和空间辅助边信息的形式被传送,使得原始声道配置的多声道信号被还原。这些使用的案例促进了降混方法的发展,很好地保留了声音品质。最简单的降混方法是使用静态降混矩阵的声道总和。然而,若输入声道包含连贯的声音但在时间上未经过校准,所述降混信号可能达到感知的光谱偏差,例如梳型滤波器的特征。在j.breebaart和c.faller,“spatialaudioprocessing:mpegsurroundandotherapplications”.wiley-interscience,2008中,描述了一种校准两个输入信号的相位校准方法,其根据在频带所估计的声道间相位差异参数(icpd)来调整输入声道的相位。此方案提供了如论文里提及的方法的类似基本功能,但却无法应用于多于两个内部相关声道的降混。在wo2012/006770,pct/cn2010/075107(huawei,faller,lang,xu)中,描述了一种二对一声道(立体声至单声道)情况的相位校准处理。此处理并未直接应用在多声道的音频。在wuetal,“parametricstereocodingschemewithanewdownmixmethodandwholebandinterchanneltime/phasedifferences”,proceedingsoftheicassp,2013中,提出一种针对降混立体声的使用全频带内部声道相位差异的方法。单声道信号的相位被配置在左声道以及所有相位差异间的相位差异。同时,此方法仅适用于立体声至单声道的降混。多于两个的内部依赖声道在此方法中无法被降混。技术实现要素:本发明的目的在于提供对音频信号处理的改进的概念。本发明的目的通过权利要求1所述的编码器、权利要求12所述的解码器、权利要求13所述的系统、权利要求14所述的方法以及权利要求15所述的计算机程序来实现。提出一种音频信号处理解码器,包含至少一个频带,且所述音频信号处理解码器用于处理在至少一个频带内具有多个输入声道的输入音频信号。所述解码器被配置用于根据所述输入声道之间的声道间依赖性校准所述输入声道的相位,其中所述输入声道的相位互相之间被校准得越多,其声道间依赖性越高。另外,所述解码器用于将所述校准的输入音频信号降混至输出音频信号,所述输出音频信号具有数目比所述输入声道的数目少的输出声道。所述解码器的基本工作原理为在特定频带的相位中,所述输入音频信号的互依赖(相干)输入声道彼此相互吸引,而所述输入音频信号的相互独立(非相干)的那些输入声道是不受影响的。本文所提出解码器的目的在于改进相对于临界信号抵消条件的后均衡方法的降混品质,同时在非临界条件下提供相同的表现。另外,所述解码器的至少一些函数可以被传送至所述外部装置,例如编码器,所述外部装置提供所述输入音频信号。这可以提供与信号交互的可能性,在现有技术中解码器可能会产生伪迹。另外,有可能在不改变解码器的情形下更新降混处理规则,并确保高级的降混品质。所述解码器的函数的传送将在下文中详细地进行描述。在一些实施例中,为了识别在输入音频声道间的声道间依赖性,所述解码器用来分析在频带中的输入音频信号。在这种情况下,当输入音频信号的分析是由解码器本身完成时,提供输入音频信号的编码器可以是标准的编码器。在一些实施例中,所述解码器可从提供所述输入音频信号的外部装置,例如编码器接收输入声道间的所述声道间依赖性。这个版本允许在解码器里有弹性渲染设置,但在编码器和解码器之间需要更多额外的数据传输,通常在比特流包含所述解码器的输入信号。在一些实施例中,所述解码器用于根据所述输入音频信号的确定能量,归一化所述输出音频信号的能量,其中所述解码器用于确定所述输入音频信号的所述信号能量。在一些实施例中,所述解码器用于根据所述输入音频信号的确定能量,归一化所述输出音频信号的所述能量,其中所述解码器用于从提供所述输入音频信号的外部装置,例如编码器接收所述输入音频信号的所述确定能量。通过确定所述输入音频信号的所述信号能量以及归一化所述输出音频信号的所述能量,可确保所述输出音频信号的所述能量与其他频带相比具有相当的水平。举例而言,所述归一化可用以下方式完成:每个频带的音频输出信号的能量与频带的输入音频信号的能量乘以相对应的降混增益的平方的总和相同。在各种实施例中,所述解码器可以包含根据降混矩阵用于降混输入音频信号的降混器,其中所述解码器用于计算所述降混矩阵,使得根据识别的声道间依赖性以校准输入声道的相位。矩阵操作是有效解决多维问题的一种数学工具。因此,降混矩阵的使用提供了一种降混所述输入音频信号至输出音频信号的灵活且简单的方法,其中输出音频信号具有的输出声道的数目少于输入音频信号的输入声道的数目。在一些实施例中,所述解码器包含降混器,所述降混器用于根据降混矩阵降混输入音频信号,其中所述解码器用于接收所述降混矩阵,降混矩阵被计算使得根据来自于提供所述输入音频信号的外部装置,例如编码器的所述识别的声道间依赖性校准输入声道的相位。在此,解码器里的输出音频信号的处理复杂度可大幅地降低。在一些特定实施例中,所述解码器可用于计算所述降混矩阵,使得根据所述输入音频信号的所述确定能量,所述输出音频信号的所述能量被归一化。在此情况下,所述输出音频信号的所述能量的归一化被集成至降混处理,使得信号处理变得简单。在一些实施例中,所述解码器可用于接收计算的所述降混矩阵m,使得根据来自于提供所述输入音频信号的外部装置,例如编码器的所述输入音频信号的所述确定能量,所述输出音频信号的所述能量被归一化。所述能量均衡步骤可以被包含在编码处理或解码器中进行,因为它是一种简单且明确地被定义的处理步骤。在一些实施例中,所述解码器可用于使用窗口函数分析所述输入音频信号的时间间隔,其中所述声道间依赖性对于每一个时间帧被确定。在一些实施例中,所述解码器可用于接收使用窗口函数的所述输入音频信号的时间间隔的分析,其中从提供所述输入音频信号的外部装置,例如编码器,所述声道间依赖性对于每一个时间帧被确定。虽然其他选择也可行,所述处理仍可以以重叠逐帧的方式在两种情况下完成,例如使用递归窗口来评估相关参数。原则上,可选择任何窗口函数。在一些实施例中,所述解码器用于计算协方差值矩阵,其中所述协方差值表示一对输入音频声道的所述声道间依赖性。计算协方差值矩阵是一种用于获取所述频带的短时间随机特性的简单方法,此短时间随机特性可用于确定所述输入音频信号的所述输入声道的相干性。在一些实施例中,所述解码器用于从提供所述输入音频信号的外部装置,例如编码器接收协方差值矩阵,其中所述协方差值表示一对输入音频声道的所述声道间依赖性。在此情况下,所述协方差矩阵的计算可以被传递至所述编码器。然后,所述协方差矩阵的所述协方差值必须在所述编码器与所述解码器间的所述比特流中被传送。这个版本允许在接收器处有弹性渲染设置,但需要所述输出音频信号中的额外的数据。在一些优选的实施例中,可建立归一化协方差值矩阵,其中所述归一化协方差值矩阵以协方差值矩阵为基础。通过此特征,可简化更进一步的处理。在一些实施例中,所述解码器可用于通过应用映射函数至所述协方差值矩阵或至从所述协方差值矩阵所得到的矩阵而建立吸引力值矩阵。在一些实施例中,对于所有的协方差值或者从所述协方差值得到的数值,所述映射函数的所述梯度可以大于或等于0。在一些优选实施例中,对于0到1之间的输入数值,所述映射函数可以达到0到1之间的数值。在一些实施例中,所述解码器可用于接收吸引力值矩阵a,所述吸引力值矩阵a通过应用映射函数至所述协方差值矩阵或至从所述协方差值矩阵所得到的矩阵而建立。通过应用非线性函数至所协方差值矩阵或者所述协方差值矩阵所得到的矩阵,例如归一化协方差矩阵,所述相位校准在两种情况下都可以被调整。相位吸引力值矩阵以相位吸引力系数的形式提供控制数据,其用于确定在声道对之间的相位吸引力。根据量测协方差值矩阵,得到每一时间频率片的相位调整,使得具有低协方差值的声道不互相影响且具有高协方差值的声道彼此进行相位搜索。在一些实施例中,所述映射函数为非线性函数。在一些实施例中,对于小于第一映射阈值的协方差值或是从所述协方差值得到的数值,所述映射函数等于0,和/或对于协方差值或是从所述协方差值得到的数值大于第二映射阈值,所述映射函数等于1。通过此特征,所述映射函数由三个区间组成。对于小于所述第一映射阈值的所有协方差值或是从协方差值得到的数值,所述相位吸引力系数被计算成0,因此,相位调整并未被执行。对于高于所述第一映射阈值但小于所述第二映射阈值的所有协方差值或是从所述协方差值得到的数值,所述相位吸引力系数被计算成0到1之间的数值,因此,部分相位调整被执行。对于高于所述第二映射阈值的所有协方差值或是从所述协方差值得到的数值,所述相位吸引力系数被计算成1,因此,完整的相位调整被执行。通过以下映射函数来举例说明:f(c′i,j)=ai,j=max(0,min(1,3c′i,j-1))另一个优选的实施例如下:在一些实施例中,所述映射函数通过形成s形曲线的函数来展现。在特定的实施例中,所述解码器用于计算相位校准系数矩阵,其中此相位校准系数矩阵以所述协方差值矩阵和原型降混矩阵为基础。在一些实施例中,所述解码器用于从提供所述输入音频信号的外部装置,例如编码器接收相位校准系数矩阵,其中此相位校准系数矩阵以来自的所述协方差值矩阵以及原型降混矩阵为基础。所述相位校准系数矩阵描述相位校准的个数,此相位校准是校准所述输入音频信号的不为零的吸引力声道所需的。所述原型降混矩阵定义了哪些输入声道被混合到哪些输出声道。所述降混矩阵的系数可为比例因子,其用于降混输入声道至输出声道。其亦有可能将所述相位校准系数矩阵的完整计算转移到所述编码器。然后,所述相位校准系数矩阵必须在此输入音频信号内传送,但是其元素往往为零且仅能以积极的方式来量化。当此相位校准系数矩阵紧密依赖于所述原型降混矩阵时,此相位校准系数矩阵在所述编码端即为被认为是公知的。这限制了可能的输出声道配置。在一些实施例中,所述降混矩阵的降混系数的所述相位和/或幅值被规划成随时间而平滑,使得在相邻时间帧间由于信号抵消所产生的时间伪迹得以避免。此处"随时间而平滑"指的是随着时间的推移没有突然的变化出现在降混系数中。特别地,降混系数可以按照连续或准连续的函数而随时间变化。在一些实施例中,所述降混矩阵的降混系数的所述相位和/或幅值被规划成随频率而平滑,使得在相邻频带间由于信号抵消产生的频谱伪迹得以避免。此处"随频率而平滑"指的是随着频率的推移没有突然的变化出现在降混系数中。特别地,降混系数可以按照连续或准连续的函数而随频率变化。在一些实施例中,所述解码器用于计算或接收归一化相位校准系数矩阵,其中所述归一化相位校准系数矩阵以所述相位校准系数矩阵为基础。通过此特征,可以简化更进一步的处理。在一些优选实施例中,所述解码器用于根据所述相位校准系数矩阵以建立正则化相位校准系数矩阵。在一些实施例中,所述解码器用于接收来自于提供所述输入音频信号的外部装置,例如编码器的以所述相位校准系数矩阵为基础的正则化相位校准系数矩阵。所提出的降混方法提供了在相反相位信号的临界条件中的有效正则化,其中所述相位校准处理可以突然改变其极性。所述额外的正则化步骤被定义为减少由于突然改变相位调整系数所造成的在相邻帧间的过渡区域中的抵消。在相邻时间频率片之间的突然相位改变的正则化以及避免为本文提出的降混的优点。它减少了当相邻时间频率片间的相位跳跃或是在相邻频带间的凹槽出现时所产生的不需要的伪迹。正则化的相位校准降混矩阵可以通过应用相位正则化系数θi,j至归一化的相位校准矩阵而取得。此正则化系数可以在每一个时间频率片的处理循环中被计算。所述正则化可以递归地在时间及频率方向被应用。考虑到在相邻时间槽及频带间的相位差异,它们由产生加权矩阵的所述吸引力值来进行加权。从此矩阵可得到如下面更详细讨论的正则化系数。在一些优选实施例中,所述降混矩阵以所述正则化相位校准系数矩阵为基础。以此方式,可确保降混矩阵的所述降混系数随着时间和频率而平滑。此外,一种音频信号处理编码器包含至少一个频带,且此音频信号处理解码器用于处理在至少一个频带中具有多个输入声道的输入音频信号,其中此编码器用于根据所述输入声道间的声道间依赖性校准所述输入声道的相位,其中所述输入声道的所述相位互相校准得越多,其声道间依赖性越高;以及降混所述校准输入音频信号至输出音频信号,所述输出音频信号具有数目比所述输入声道数目少的输出声道。所述音频信号处理编码器可被配置成类似于在本申请中所讨论的音频信号处理解码器。此外,一种音频信号处理编码器包含至少一个频带,所述音频信号处理编码器用于输出比特流,其中所述比特流包含在此频带中的编码音频信号,其中所述编码音频信号在所述至少一个频带具有多个编码声道,其中所述编码器用于确定在所述输入音频信号的所述编码声道间的声道间依赖性,以及在所述比特流内输出所述声道间依赖性;和/或用于确定所述编码音频信号的所述能量及在所述比特流内输出此编码音频信号的所述确定能量;和/或用于计算降混器的降混矩阵m,所述降混器用于根据降混矩阵降混所述输入音频信号,使得所述编码声道的所述相位根据所述识别声道间依赖性以进行校准,优选地,使得所述降混器的输出音频信号的能量根据所述编码音频信号的所述确定能量被归一化,以及用于在所述比特流内传送所述降混矩阵m,其中特别是降混矩阵的降混系数被配置成随时间而平滑,使得在相邻时间帧间由于信号抵消所产生的时间伪迹得以避免,和/或其中特别是降混矩阵的降混系数被配置为随频率而平滑,使得在相邻频带间由于信号抵消产生的频谱伪迹得以避免;和/或用于使用窗口函数分析所述编码音频信号的时间间隔,其中所述声道间依赖性是针对每一时间帧而确定,以及用于对于每一时间帧输出所述声道间依赖性至所述比特流;和/或用于计算协方差值矩阵,其中此协方差值表示一对编码音频声道的所述声道间依赖性,以及用于在所述比特流内输出此协方差值矩阵;和/或用于通过应用映射函数至所述协方差值矩阵或从所述协方差值矩阵所得到的矩阵而建立吸引力值矩阵,且用于在所述比特流内输出所述吸引力值矩阵,其中,对于所有的协方差值或者从所述协方差值得到的数值,所述映射函数的所述梯度优选地为大于或等于0,以及所述映射函数对于在0到1之间的输入数值,优选地可达到0到1之间的数值,特别是非线性函数,特别是映射函数,对于小于第一映射阈值的协方差值,映射函数等于0,和/或对于小于第二映射阈值的协方差值,映射函数等于0,和/或所述映射函数通过形成s形曲线的函数表示;和/或用于计算相位校准系数矩阵,其中所述相位校准系数矩阵以所述协方差值矩阵以及原型降混矩阵为基础,和/或用于根据所述相位校准系数矩阵v来建立正则化相位校准系数矩阵以及用于在所述比特流内输出所述正则化相位校准系数矩阵。所述编码器的所述比特流可以被传送至上述解码器并进行解码。有关进一步详情,可参阅有关解码器的说明。本发明还提供了一种系统,其包含了本发明所提出的音频信号处理解码器以及音频信号处理编码器。此外,本发明还提供了一种处理输入音频信号的方法,且所述输入音频信号在频带中具有多个输入声道,所述方法包含以下步骤:分析在所述频带中的所述输入音频信号,其中在所述输入音频声道之间的声道间依赖性已被识别;根据所述已识别的声道间依赖性校准所述输入声道的所述相位,其中所述输入声道的所述相位互相校准得越多,其声道间依赖性越高;以及降混所述校准的输入音频信号至输出音频信号,此输出音频信号在所述频带上具有数目比所述输入声道的数目少的输出声道。此外,本发明还提供了一种计算机程序,当于计算机或信号处理器上执行时实现上述方法。附图说明在下文中,本发明的实施例将参考附图进行更详细地描述,其中:图1示出提出的自适应相位校准降混的框图;图2示出提出方法的工作原理;图3描述了计算降混矩阵m的处理步骤;图4示出可被用于归一化协方差矩阵c′以计算吸引力值矩阵a的公式;图5示出三维音频编码器的概念性综述的示意框图。图6示出三维音频解码器的概念性综述的示意框图。图7示出格式转换器的概念性综述的示意框图。图8示出具有随时间变化的两个声道的初始信号处理示例。图9示出具有随频率变化的两个声道的初始信号处理示例。图10示出77频带合成滤波器组。具体实施方式在描述本发明的实施例之前,提供更多现有技术的编码器及解码器系统的相关背景。图5是三维音频编码器1的概念性综述的示意框图,而图6是三维音频解码器2的概念性综述的示意框图。三维编解码系统1及2可以根据mpeg-d联合语音及音频编码(usac)编码器3,以用于声道信号4及对象信号5的编码,并根据mpeg-d联合语音及音频编码(usac)解码器6,以用于解码编码器3的输出音频信号7。所述比特流7可包含参照编码器1的频带的已编码的音频信号37,其中已编码的音频信号37具有多个已编码的声道38。此已编码的音频信号37可以被送入解码器2的频带36(见图1)作为输入音频信号37。为了增加对大量的对象5的编码效率,改进了空间音频对象编码(saoc)技术。三种类型的渲染器8,9及10将对象11及12渲染至声道13、将声道13渲染至耳机或将声道渲染至不同的扬声器设置。当使用空间音频对象编码中的对象信号进行明确地传送或参数化编码时,相对应的对象元数据(oam)14信息被压缩且被多路复用至三维音频比特流7。在编码之前,预先渲染器/混合器15可以被选择性地使用于将声道对象输入场景4及5转换成声道场景4及16,其功能相同于下面所描述的对象渲染器/混合器15。对象5的预先渲染在编码器3的输入能确保确定性信号熵,所述编码器3基本上独立于多个同步激活对象信号5。通过对象信号5的预先渲染,不需传送任何对象元数据14。离散对象信号5被渲染至供编码器3使用的声道布局。对于每个声道16,对象5的权重从相关联的对象元数据14取得。所述核心编解码器可以根据mpeg-dusac技术,应用于扬声器声道信号4、离散对象信号5、对象降混信号14及已预先渲染的信号16。所述核心编解码器通过根据输入声道及对象分配的几何信息和语义信息产生声道及对象映射信息,而处理多个信号4、5及14的编码。所述映射信息描述输入声道4及对象5如何被映射至usac声道元件,亦即被映射至双声道元件(cpe)、单声道元件(sce)、低频率增强(lfe),以及相对应的信息被传输至解码器6。所有额外的负载,例如saoc数据17或对象元数据14可以经过拓展元件被传输,并且可以在编码器3的速率控制中被考虑。对象5的编码可以使用不同的方法,此方法取决于应用于渲染器的速率/失真需求及交互作用的需求。下列对象编码变型是可能的:-预先渲染的对象16:在编码之前,对象信号5被预先渲染及混合至声道信号4,例如在编码前,预先渲染及混合至22.2声道信号4。随后的编码链可见22.2声道信号4。-离散对象波形:对象5作为单声道波形且被供应至编码器3。除了声道信号4以外,所述编码器3使用单声道元件(sce)以传输对象5。已解码的对象18被渲染及混合于接收器端。已压缩的对象元数据信息19及20被并排地传输至接收器/渲染器21。-参数化对象波形17:使用saoc参数22及23来描述对象属性及对象属性彼此之间的关系。所述对象信号17的降混使用usac来编码。参数化信息22被并排地传输。降混声道17所选择的数目取决于对象5的数目及整体的数据速率。压缩的对象元数据信息23传输至saoc渲染器24。针对对象信号5的saoc编码器25及解码器24基于mpegsaoc技术。此系统根据较少数量的传输声道7及额外的参数化数据22及23能够重新创建、修正及渲染多个音频对象5,额外的参数化数据22及23为例如对象位准差异(old)、对象间的相关性(ioc)及降混增益值(dmg)。额外的参数化数据22及23使数据速率明显低于所有对象5个别传输所需要的数据速率,这使得编码十分有效率。所述saoc编码器25将所述对象/声道信号5作为输入以成为单声道的波形,并且输出(被填充至立体声比特流7的)参数化信息22及(被使用单声道元件编码并且被传输的)saoc传输声道17。所述saoc解码器24从已解码的saoc传输声道26及参数化信息23重建对象/声道信号5,并且根据再现布局、已解压缩的对象元数据信息20以及可选的用户的交互信息,产生所述输出音频场景27。对于每个对象5,此相关联的对象元数据14具体定义在三维空间中的对象的几何位置及体积,对象元数据编码器28通过在时间及空间内的对象属性的量化,可以有效率地编码所述对象元数据14。被压缩的对象元数据(coam)19被传输至接收器作为边信息20,所述边信息20可以使用oam解码器29进行解码。对象渲染器21根据给予的再现格式,利用已压缩的对象元数据20来产生对象波形12。每个对象5根据其对象元数据19及20被渲染至特定的输出声道12。块21的输出从部分结果的总和所产生。如果基于声道的内容11、30及离散/参数化的对象12、27被解码,在由混合器8输出产生波形13之前(或在反馈产生的波形至后处理器模块9及10,如双耳渲染器9或扬声器渲染器模块10,之前),基于声道的内容11及30及已渲染的对象波形12、27将被混合。此双耳渲染器模块9产生多声道音频材料13的双耳降混,使得每个输入声道13由虚拟声源所表示。此处理被逐帧应用于正交镜像滤波器(qmf)域。所述双耳化是基于所述量测的双耳室内脉冲响应。图7中更详细示出的扬声器渲染器10在传输的声道配置13及所期望的再现格式31之间转换。在下文中将所述扬声器渲染器称为“格式转换器”10。所述格式转换器10执行转换以降低输出声道31的数目,即所述格式转换器通过降混器32产生降混。所述dmx配置器33自动化产生最优的降混矩阵,应用于给予的输入格式13及输出格式31的结合,并且在降混过程32中使用所述降混矩阵,其中混合器输出布局34及再现布局35被使用。所述格式转换器10允许标准扬声器配置以及非标准扬声器位置的随机配置。图1显示了具有至少一个频带36的音频信号处理装置,且被用于处理在至少一个频带36中具有多个输入声道38的输入音频信号37,其中所述装置:用于分析所述输入音频信号37,其中在输入声道38之间的声道间依赖性被识别;以及用于根据已识别的声道间依赖性39来校准输入声道38的相位,其中输入声道38的相位互相校准得越多,其声道间依赖性39则越高;用于降混已校准的输入音频信号至输出音频信号40,所述输出音频信号40的输出声道41的数量少于输入声道38的数量。此音频信号处理装置可以为编码器1或解码器,例如本发明适用于编码器1以及解码器。本发明所提出的降混方法,例如图1的框图所示,通过以下原则进行设计:1.此相位调整根据测量的信号协方差矩阵c从每个时频片中得到,使得具有低ci,j的声道彼此之间不会互相影响,且具有高ci,j的声道相对于彼此被相位锁定;2.此相位调整随时间及频率的改变被正则化,用于避免由于在相邻的时频片的重叠区的相位调整差异而产生的信号抵消伪迹;3.降混矩阵增益被调整,以保存降混能量。编码器1的基本工作原理为,当这些输入音频信号37的彼此独立(不相干的)输入声道38保持不受影响时,输入音频信号的互相依赖(相干的)输入声道38依据特定频带36的相位互相吸引。当提供在非临界条件的相同性能时,提出编码器1的目的是为了改进相对应于在临界信号抵消条件的后均衡方法的降混品质。因为声道间依赖性39通常无法事先得知,故提出一种降混的自适应方法。重现信号频谱的直接方法为,应用自适应均衡器42以衰減或放大频带36内的信号。然而,如果频率凹槽比施加的频率转换解析度更急剧,可以合理地预计此类方法无法稳健地重现信号41。在降混之前,此问题由预先处理输入信号37的相位被解决,以避免在第一位置的此类频率凹槽。下面讨论根据本发明实施例的方法,用于将在频带36中,即在所谓的时间-频率片中的两个或更多个的声道38自适应地降混成数量更少的声道41。此方法包含下列特征:-在频带36中分析信号能量及声道间依赖性39(由协方差矩阵c包含的);-在降混之前,调整频带相位输入声道信号38,使得在降混时的信号抵消影响被降低和/或相干信号总和被增加;-调整相位,使得当互相依赖的声道(也有潜在的相位偏移量)较少或没有全部都相对于彼此被相位校准时,具有高互依赖性(但潜在着相位偏移)的声道对或群组被相对于彼此校准得更多;-相位调整系数被(任选地)配置成随时间而平滑,用于避免由于在相邻时间帧之间的信号抵消而产生的时间伪迹;-相位调整系数被(任选地)配置成随频率而平滑,用于避免由于在相邻频带之间的信号抵消而产生的频谱伪迹;-频带降混声道信号41的能量被归一化,例如使得每个频带降混信号41的能量相等于频带输入信号38能量的总和乘以相对应的降混增益。此外,所提出的降混方法提供相反相位信号的临界条件的有效的正则化,在此相反相位信号在相位校准处理时可能会突然地切换其极性。接着,提供降混器的数学描述,其为上述内容的具体实现。对于本领域的技术人员,可以预见另一种具有根据上述描述的特征的具体实现。如图2所示的方法,其基本原理为,当这些信号si1为非相干且保持不受影响时,相互相关的信号sc1、sc2及sc3依据频带36的相位彼此互相吸引。所述方法的目的在于简单改进在临界信号抵消条件的后均衡方法的降混品质,同时提供与非临界条件相同的性能。此方法根据频带信号37及静态原型降混矩阵q的短时间随机特性而设计,用于制定频带36自适应相位校准及能量平衡降混矩阵m。特别地,此方法只用于互相地实施相位校准至相互依存的声道sc1,sc2,及sc3。图1显示了一般的操作过程。此处理使用重叠逐帧方式执行,尽管其它选择也可以轻易得到,例如使用递归窗口以估计相关的参数。对于每个音频输入信号帧43,相位校准降混矩阵m包含相位校准矩阵系数,其根据输入信号帧43的随机数据和原型降混矩阵q被定义,且原型降混矩阵q被定义哪个输入声道38被降混至哪个输出声道41。信号帧43在窗口化步骤44所产生。此随机数据被包含于输入信号37的复值协方差矩阵c,复值协方差矩阵c在估计步骤45中从信号帧43被估计(或使用递归窗口)。从此复值协方差矩阵c,相位校准矩阵在步骤46中的相位校准降混系数的配置所得到。将输入声道的数量定为nx且降混声道的数量ny<nx。原型降混矩阵q及相位校准降混矩阵m通常为稀疏矩阵且维度为ny×nx。此相位校准降混矩阵m通常作为时间及频率的函数而变化。相位校准降混解决方案降低了频道间的信号抵消,但若相位调整系数突然地被改变,可能在相邻时间频率片之间的过渡区内引入抵消。当相邻的相反相位输入信号被降混时,可能会出现突然随时间改变的相位,但至少在振幅或相位有微小的变化。在这种情况下,相位校准的极性可以快速地切换,即使信号本身是相当稳定的信号。此效应可能会发生,例如当音调信号组件与频道间时间差异一致,且其反过来可以为基础,例如从间隔开的麦克风录音技术的使用或来自以延迟为基础的音频效果。在频率轴,可能会发生在片之间突然的相位移动,例如当两个相干但不同地延迟宽带信号被降混时。对于较高的频带相位差异较大,以及包在特定频带边界可能会在过渡区域造成凹槽。优选地,在之的相位调整系数将被在另一步骤被正则化,用于避免由于突然的相移而产生的处理伪迹,此相位调整系数随时间变化或随频率变化,或者是随时间及频率两者变化。以这种方式可获得正则化矩阵如果正则化47被省略,在此可能会由于在相邻的时间帧和/或相邻的频带的重叠区的相位调整差异,而产生信号抵消伪迹。接着,能量正则化48自适应地确保在降混信号40的能量的动态水平。在重叠步骤49,处理后的信号帧43被重叠叠加至输出数据流40。请注意,在设计该时间频率处理结构时,将得到很多变异。可能获得与具有不同次序的信号处理块相似的处理。另外,一些块可以被结合成单一处理步骤。此外,当达到相似的处理特性时,用于窗口化44或块处理的方法可以使用各种方式被重新制定。图3描述了相位校准降混的不同步骤。在三个整体处理步骤获得降混矩阵m后,所述降混矩阵m被用于将初始的多声道输入音频信号37降混成不同的声道数量。计算矩阵m的各子步骤的详细描述如下。根据本发明的实施例,降混方法可在64频带qmf域实现。可使用64频带复合调变均匀qmf滤波器组。计算来自时频域内的输入音频信号x((等同于输入音频信号38),复值协方差矩阵c被计算作为矩阵c=e{xxh},其中e{·}为期望运算子且xh为x的共轭转置。在实际执行时,期望运算子由随多个时间和/或频率样本变化的平均运算子所取代。接着,在协方差正则化步骤50,矩阵c的绝对值被正则化,以使此矩阵c包含0及1之间的数值(元素被称为c′i,j且矩阵被称为c′))。这些数值表示在不同声道对之间相关的声音能量的部分,但可能有相位偏移。换言之,当不相干信号产生数值0时,同相、反相及倒相信号每个将产生归一化数值1。在吸引力值计算步骤51,它们被转换成控制数据(吸引力值矩阵a)),此控制数据通过映射函数f(c′i,j)来表示在声道对之间的相位吸引力,此函数f(c′i,j)被应用到绝对正则化归一化协方差矩阵m′之的所有输入。在此,公式f(c′i,j)=ai,j=max(0,min(1,3c′i,j-1))可被使用(参见图4中产生的映射函数)。在此实施例中,等对于小于第一映射阈值54的归一化的协方差值c′i,j,映射函数f(c′i,j)等于0,和/或对于大于第二映射阈值55的归一化的协方差值c′i,j其中,映射函数f(c′i,j)等于1。通过这些特征,映射函数由三个区间所组成。对于所有小于第一映射阈值54的归一化协方差值c′i,j,相位吸引力系数ai,j被计算为零,因此相位调整没有被执行。对于所有大于第一映射阈值54但小于第二映射阈值55的归一化协方差值c′i,j,相位吸引力系数ai,j被计算为介于0到1之间的数值,因此部分相位调整被执行。对于所有高于第二映射阈值55的归一化协方差值c′i,j,相位吸引力系数ai,j被估计为1且完整相位调整被执行。从所述吸引力值,计算相位校准系数vi,j。其描述了需要被用于校准信号x的非零吸引力声道的相位校准的数量。其中为在对角线具有元素的对角矩阵。此结果为相位校准系数矩阵v。在相位校准系数矩阵归一化步骤52,系数vi,j接着被归一化至降混矩阵q的量级,以产生归一化相位校准的降混矩阵所述降混矩阵具有元素此降混的优点在于具有低吸引力的声道38彼此不会互相影响,因为相位调整从测量的信号协方差矩阵c所得出。具有高吸引力的声道38相对于彼此相位锁定。所述相位校正的强度取决于相干的特性。如果相位调整系数突然地改变,则相位校准降混的方案降低声道间的信号抵消,但可会产生相邻的时频片之间的过渡区中的抵消。当相邻的相反相位输入信号被降混时,可能会发生突然随时间改变的相位,但至少在幅值或相位有微小的变化。在此情况,相位校准的极性可以快速地切换。由于突然改变相位调整系数vi,j,额外的正则化步骤47被定义为降低在相邻帧之间的过渡区内的消除。所述正则化以及在音频帧之间的突然相位改变的避免为此提供的降混的优势。它减少了当相邻音频帧间的相位跳跃或是在相邻频带间的凹槽出现所产生的伪迹。正则化可以通过各种不同的方式进行执行,用于避免在相邻的时频片之间有大的相位移动。在一个实施例中,简单的正则化方法被被使用且被详细地描述于下文中。在此方法中,处理循环可以被用于按照时间顺序从最低到最高频率片执行每个片,并且相位正则化可以相对于在时间及频率的先前片被递归地应用。图8和图9显示了下文所述的设计步骤的实际效果。图8示出了具有随时间变化的具有两声道38的初始信号37。在两声道38之间有缓慢增加的声道间相位差(ipd)56。从+π到-π的突然的相位移动产生第一声道38的非正则化相位调整57的突然的变化以及第二声道38的非正则化相位调整58的突然的变化。然而,第一声道38的正则化相位调整59以及第二声道38的正则化相位调整60没有显示出任何突然的变化。图9示出了具有两个声道38的原始信号37的例子。此外,所述信号37的一个声道38的原始频谱61被显示。校准的降混频谱(被动降混频谱)62示出了梳型滤波器的效果。所述梳型滤波器的效果在未校准的降混频谱63被降低。然而,所述梳型滤波器效果在正则化后的降混频谱64中并不明显。正则化相位校准降混矩阵可通过应用相位正则化系数θi,j至矩阵而得到。在处理循环中随着每个时频帧变化计算正则化系数。正则化47在时间及频率的方向被递归地施加。在相邻的时槽及频带之间的相位差被考虑在内,且所述相位差由吸引力值加权以产生加权的矩阵mda。从所述矩阵可以得到正则化系数:连续的相位偏移通过实施正则化来避免在0到之间朝向零逐渐减弱,此相位偏移依赖于相关的信号能量:其中正则化的相位校准降混矩阵的输入为:最后,能量归一化的相位校准降混向量在用于每个声道j的能量归一化步骤53中被定义,形成所述最终相位校准降混矩阵的列:计算完矩阵m后,计算所述输出音频材料。qmf域输出声道为qmf输入声道的加权总和。复值加权被纳入自适应相位校准处理,为矩阵m的元素:y=m·x一些处理步骤可能被转移至编码器1。所述处理步骤将大幅地降低在解码器2内的降混7的处理复杂度。这也提供了与输入音频信号37交互的可能性,标准版本的降混器将产生伪迹。在没有改变解码器2下,此处理步骤可以更新所述降混处理规则以及提高降混品质。在部分的相位校准降混能被转移至编码器1时具有多种可能性。有可能转移相位校准系数vi,j的完整计算至编码器1。相位校准系数vi,j接着需要被转移至比特流7,但相位校准系数vi,j时常为零且以积极方法作量化。当相位校准系数vi,j紧密依赖于原型降混矩阵q时,此矩阵q在编码器端必须被得知。这将限制可能的输出声道配置。所述均衡器或能量归一化步骤可能被包括于编码处理或者还被执行于解码器2,因为所述归一化步骤为简单且清楚地被定义的处理步骤。另外一种可能性为转移协方差矩阵c的计算至编码器1。然后,协方差矩阵c之的元素必须被转移至比特流7。此版本允许在接收器2中灵活选择渲染方案,但需要更多在比特流7中的额外数据。在下文中,描述了本发明的一个优选的实施例。在下文中,音频信号37被送入格式转换器42且被称为输入信号。音频信号40为格式转换处理的结果且被称为输出信号。请注意格式转换器的音频输入信号37为核心解码器6的音频输出信号。向量及矩阵由粗体字符号表示。向量元素或矩阵元素由斜体的变量所表示,此变量通过指数指出在向量/矩阵内的向量/矩阵元素的列/行来补充说明,例如[y1…ya…yn]=y代表向量及其元素。相似地,ma,b代表在矩阵m的第a列及第b行内的元素。下列变量将被使用:nin在输入声道配置内的声道数量nout在输出声道配置内的声道数量mdmx降混矩阵,包含实值非负降混系数(降混增益),mdmx的维度为(nout×nin)geq由每个处理的频带的增益值所组成的矩阵,其确定均衡滤波器的频率响应ieq发信号指示哪些均衡滤波器应用至输入声道(如果有)的向量l在时间域音频样本内的被测量的帧长度ν时间域样本指数nqmf时槽指数(=子频带样本指数)ln在qmf槽内被测量的帧长度f帧指数(帧数量)k混合qmf频带的数量,k=77kqmf频带指数(1..64)或混合qmf频带指数(1..k)a,b声道指数(声道配置的声道数量)eps数值常数,eps=10-35在发生由核心解码器6传送的音频样本的处理之前,执行格式转换器42的初始化。所述初始化以下列数据作为输入参数·待处理的音频数据的采样速率·参数format_in:其信号化格式转换器待处理的音频数据的声道配置·参数format_out:信号化期望输出格式的声道配置·可选的:从标准扬声器方案信号化扬声器位置的偏移(随机设置功能)的参数。输出·输入扬声器配置的声道数量,nin,·输出扬声器配置的声道数量,nout,·降混矩阵mdmx及均衡的滤波器参数(ieq,geq),其被应用至格式转换器42的音频信号处理。·微调增益及延迟值(tg,a和td,a):用于补偿不同的扬声器距离。格式转换器42的音频处理块从核心解码器6得到对于nin声道38的时域音频样本37,并且产生由nout声道41所组成的降混的时域音频输出信号40。此处理以下列数据作为输入:·被核心解码器6解码的音频数据,·被格式转换器42的初始化返回的降混矩阵mdmx,·被格式转换器42的初始化返回的均衡滤波器参数(ieq,geq)。所述处理返回nout声道的时域输出信号40,其应用于format_out声道配置且在格式转换器42的初始化期间被信号化。格式转换器42可以操作于输入音频信号的长度l=2048时域样本的连续且非重叠的帧上,并且输出长度l的每个已处理的输入帧的l样本的一帧。更进一步,t/f转换(混合qmf分析)可以被执行。作为第一处理步骤,转换器转换nin声道时域输入信号的l=2048样本至混合qmfnin声道信号表现,且此声道信号表现由ln=32qmf时槽(槽指数n)以及k=77频带(频带指数k)所组成。qmf分析根据iso/iec23003-2:2010的第7.14.2.2小节,首先执行:其中0≤ν<l和0≤n<ln,接着进行混合分析将执行混合滤波,如iso/iec14496-3:2009的8.6.4.3描述。然而,低频分离定义(iso/iec14496-3:2009的表格8.36)可以由下面的表格取代:77频带混合滤波器组的低频分离的概述更进一步,在下面的表格中,原型滤波器定义必须由系数取代:分离77频带混合滤波器组的低qmf子频带的滤波器的原型滤波器系数ng0[n],q0=8g1,2[n],q1,2=400.00746082949812-0.0030515192730510.02270420949825-0.0079486231620320.045468659304730.030.072661139295910.0431892403875640.098851085752640.1254244821044550.117937105672170.2122780704916060.1250.2570.117937105672170.2122780704916080.098851085752640.1254244821044590.072661139295910.04318924038756100.045468659304730.0110.02270420949825-0.00794862316203120.00746082949812-0.00305151927305更进一步,与iso/iec14496-3:2009的8.6.4.3相反,没有子频带被结合,即通过将最低的3个qmf子频带分离成(8,4,4)子频带,形成77频带混合滤波器组。参照图10,所述77混合qmf频带没有被重新排序,但遵循混合滤波器组的传送次序。现在,可使用静态均衡器增益。转换器42应用零相位增益至输入声道38,且所述输入声道通过ieq及geq变量进行信号化。ieq为长度为nin的向量,则对于所述nin输入声道的每个声道a发信号·是没有均衡的滤波器必须被应用至特定的输入声道:ieq,a=0,·或是与具有指数ieq,a>0的均衡滤波器对应的geq的增益必须被应用。如果对于输入声道a,ieq,a>0,声道a的输入信号通过从geq矩阵的行获得的零相位增益的乘法而滤波,所述geq矩阵被ieq,a信号化:对于每个混合qmf频带k及独立的k,请注意以下所有处理的步骤直到转换回到时域信号,被个别地执行。频带参数k因此在下文的方程式中被省略,例如对于每个频带k,更进一步,输入数据及信号自适应输入数据窗口化的更新被执行。让f为单调性地增加的帧指数用于表示输入数据的当前帧,例如对于帧f,在格式转换器42的初始化后,输入数据的第一帧从f=0开始。长度为2*ln的分析帧从输入混合qmf频谱被公式化为分析帧根据以下公式乘以分析窗口wf,n其中,wf,n为信号自适应窗口,其被计算且应用于每个帧f,如下公式:现在,可执行协方差分析。所述协方差分析被执行于窗口化输入数据上,所述期望预算子e(·)被执行作为自动/交叉项的总和且随着窗口化输入数据帧f的2lnqmf时槽改变。对于每个处理的帧f,下一个处理步骤被独立地执行。指数f因此被省略直到被明确需要,例如对于帧f,请注意,在具有nin个输入声道的情况下,代表具有nin个元素的列向量。因此,协方差值矩阵按照下式形成:在此(·)t代表转置以及(·)*代表变量的复共轭,且cy为在每个帧f被计算一次的nin×nin的矩阵。从协方差矩阵cy得出声道a及b之间的声道间相干系数其中,在符号cy,a,b内的两个指数代表在cy内的第a列及第b行的矩阵元素。更进一步,相位校准矩阵可以被公式化。icca,b数值被映射至吸引力测量矩阵t,所述吸引力测量矩阵t具有元素并且中间的相位校准混合矩阵mint(等价于在先前实施例的归一化相位校准系数矩阵)被公式化。以吸引力值矩阵:pa,b=ta,b·cy,a,b和v=mdmxp,矩阵元素被得出如下:mint,a,b=mdmx,a,b·exp(jarg(va,b)),其中exp(·)代表指数函数,为虚数单位,且arg(·)为返回的复变量的自变量。为避免突然的相位移动,所述中间的相位校准混合矩阵mint被修正而产生mmod:首先,对于每个帧f,加权的矩阵df被定义作为具有元素的对角矩阵。所述混合矩阵的随着时间改变(亦即随着帧改变)的相位通过比较当前加权的中间混合矩阵以及前一帧的加权产生的混合矩阵mmod来测量:所述中间的混合矩阵的测量的相位改变被处理,用于取得相位修正参数,且此相位修正参数被应用于所述中间的混合矩阵mint,产生mmod(等价于正则化的相位校准系数矩阵):能量换算被应用于混合矩阵,用于取得最后的相位校准混合矩阵mpa。其中其中(·)h代表共轭转置运算子,且其中,限制被定义为smax=100.4及smin=10-0.5,最终的相位校准混合矩阵元素如下mpa,b,a=slim,b·mmod,b,a。在进一步的步骤,输出数据可以被计算出来。当前帧f的输出信号通过应用相同的复值降混矩阵至窗口化的输入数据向量的所有的2ln时槽n来计算重叠叠加步骤被应用于新计算出的输出信号帧以达成最终的频域输出信号,包含对于帧f的每个声道的ln样本,现在,可执行f/t转换(混合qmf合成)。请注意上述所描述的处理步骤必须被独立地执行于每个混合qmf频带k。在下面的方程式,频带指数k被重新引入,即混合qmf频域输出信号被转换为每个输出声道b的长度l的时域样本的nout声道的时域信号帧,以得到最终的时域输出信号所述混合合成可以被实现如iso/iec14496-3:2009的图8.21的定义,即通过计算最低的三个qmf子频带的子频带的总和,以得出64频带qmf表现的三个最低qmf子频带。然而,显示于iso/iec14496-3:2009的图8.21的处理必须可被适用于(8,4,4)低频带分离,代替所显示出的(6,2,2)低频带分离。随后的qmf合成可如iso/iec23003-2:2010中第7.14.2.2小节的定义来执行。如果输出扬声器位置的半径不同(即,如果对于所有输出声道a,trima不同),在初始化中得到的补偿参数被应用于输出信号。输出声道a的信号将被td,a时域样本延迟且信号也将被乘以线性增益tg,a。关于解码器及编码器以及所描述的实施例的方法,在下文中被提到。虽然已经在装置的上下文中描述了一些方面,但显然,这些方面还表示对应的方法的描述,其中块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面还表示对应装置的对应块或项目或特征的描述。根据某些实施要求,本发明的实施例可以以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的数字存储介质,例如软盘、dvd、cd、rom、prom、eprom、eeprom或闪存,执行实施方案,电子可读控制信号与(或能够与)可编程计算机系统协作,从而执行各个方法。根据本发明的一些实施例包括具有电子可读控制信号的数据载体,所述电子可读控制信号能够与可编程计算机系统协作,从而执行本文中描述的方法之一。一般地,本发明的实施例可被实施为具有程序代码的计算机程序产品,所述程序代码可操作用于当计算机程序产品在计算机上执行时执行所述方法之一。所述程序代码可以,例如,存储于机器可读载体上。其他实施例包括存储于机器可读载体或非临时性存储介质上的用于执行本文中描述的方法之一的计算机程序。换言之,本发明的方法的实施例因此为具有程序代码的计算机程序,该程序代码用于当计算机程序在计算机上运行时执行本文中描述的方法之一。本发明的进一步实施例因此为数据载体(或数字存储介质,或计算机可读介质),其包括记录于其上的用于执行本文中描述的方法之一的计算机程序。本发明的进一步实施例因此为数据流或信号序列,其表示用于执行本文中描述的方法之一的计算机程序。所述数据流或信号序列可以是,例如被配置为通过数据通信连接,例如,通过因特网,进行传送。进一步实施例包括处理装置,例如,计算机或可编程逻辑装置,其被配置为或适于执行本文中描述的方法之一。进一步实施例包括一种计算机,其具有安装于其上用于执行本文中描述的方法之一的计算机程序。在一些实施例中,可使用可编程逻辑设备(例如,现场可编程门阵列)执行本文中描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作以执行本文中描述的方法之一。通常,所述方法优选地被硬件装置执行。虽然本发明已描述数个实施例,但对其进行变更、置换及等同均落入本发明的范围之内。还有应当注意的是,有很多替换本发明的实施方法及组成的方式。因此,下文所附的权利项应当被理解为包含所有此类的变更、置换及等同,这些均未脱离本发明的精神及范畴。当前第1页1 2 3 
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
热门咨询
tips