将相位值应用于幅度值的下混合器、音频编码器、方法和计算机程序与流程
根据本发明的实施例涉及一种用于基于多个输入信号来提供下混合信号的下混合器。
根据本发明的另外的实施例涉及一种用于基于多个输入音频信号来提供编码的音频表示的音频编码器。
根据本发明的另外的实施例涉及一种用于基于多个输入信号来提供下混合信号的方法。
根据本发明的另外的实施例涉及计算机程序。
背景技术:
在音频信号处理领域,有时希望将多个音频信号组合成单个音频信号。例如,这可以降低音频编码的复杂度。例如,关于原始音频信号的特性和/或关于下混合处理的特性的信息以及下混合信号本身(优选地以编码形式)可以被包括在编码的音频表示中。
下混合是将例如具有多声道配置的节目转换成具有较少声道的节目的过程。关于这个问题,例如参考“下混合”的定义,该定义可以在维基百科中找到。
一种特殊情况是双耳下混合,其中将若干个双耳渲染信号(按照每个耳朵)向下混合到一个声道中。常规地,通过简单相加将多声道信号的n个声道合并在一起以形成m声道信号(其中,通常,n>m)。
在下文中,将描述一些下混合问题。
已经发现,当对若干个音频信号进行下混合时,可能产生不想要的干扰。还发现干扰可以被划分为三类:
1.两个信号(其中,信号可以例如由向量s表示,s描述信号的幅度(长度)和相位(角度))s1和s2在某个时间点确实具有相似的相位角(例如,参见图4a),然后存在相长干扰(例如,幅度增加+6db,而不是能量增加+3db)。
2.如果两个向量在某个时间指向不同的方向(例如,参见图4b),则存在部分相消干扰。
3.如果两个向量的确具有相似的幅度值和大约180°的角度差,则将存在强烈的相消干扰甚至完全抵消(例如,参见图4c)。在这种情况下,所得向量确实具有错误的相角。
总而言之,已经讨论了三种类型的干扰,这些干扰可能在下混合过程期间发生。这三种类型的干扰如图4所示。
在宽带信号以及各个频带中都会出现此问题。就音频质量而言,前两种类型的干扰会导致音色发生不利变化、类镶边效应、部分混响效果等。另一方面,第三种类型的干扰导致信号分量的抵消,或者可以(在感知上)放大上述伪像。
已经发现一种用于校正不利的声音变化的方法是通过修改下混合后的信号的频谱来进行的。已经发现,通过在各个频带中的能量节省校正,无源下混合在频谱域中被均衡并且(几乎)实现了期望的频谱。还已经发现,优选地,应使用该方法随时间对该能量值进行平滑。然而,已经发现,通过平滑,所得的校正值在反应中变慢并且可以进一步放大相长干扰或减弱相消干扰。
这样的构思可以被概括为能量校正的下混合。
us7,039,204b2描述了用于音频混合的均衡。在混合n声道输入信号以生成m声道输出信号期间,混合声道信号被均衡(例如放大),以保持输出信号的总能量/响度水平实质上等于输入信号的总能量/响度水平。在一个实施例中,将n个输入声道信号逐个帧地转换到频域,并且估计n个声道输入信号的总频谱响度。在混合了针对n个输入声道信号的频谱之后(例如,使用加权求和),还估计所得的m个混合声道信号的总频谱响度。将基于两个响度估计的频率相关增益因子应用于m个混合声道信号的频谱分量,以生成m个均衡的混合声道信号。通过将m个均衡的混合声道信号转换到时域来生成m声道输出信号。
然而,鉴于常规构思,需要用于下混合的构思,其提供了音频质量和计算复杂度之间的改进的折衷。
技术实现要素:
根据本发明的实施例创建了一种下混合器,下混合器用于基于多个输入信号(其可以例如是复数值并且例如可以是输入音频信号)来提供下混合信号。下混合器被配置为基于输入信号的响度信息(例如,基于与输入信号的给定频谱区间相关联的响度值)来确定(例如,计算或估计)下混合信号的频谱域值(例如,针对给定频谱区间)的幅度值。下混合器被配置为确定下混合信号的频谱域值(例如,针对给定频谱区间)的相位值(例如,可以是标量值)。例如,下混合器可以被配置为独立于幅度值的确定来确定相位值。下混合器被配置为应用相位值,以便基于下混合信号的频谱域值的幅度值获得下混合信号的频谱域值(例如,针对给定频谱区间)的复数值表示。
根据本发明的该实施例基于这样的思想:可以通过计算下混合信号的频谱域值的幅度值(为标量值)并且通过在后续步骤中应用相位(通常是独立于幅度值而计算的标量值)来实现计算复杂度和音频质量之间的良好折衷。因此,大多数处理步骤可以对标量值进行操作,并且仅在计算的后期(或最终)阶段才生成下混合信号的频谱域值的复数值表示。
此外,已经发现,基于输入信号的响度信息,可以高精度地确定标量值。通过使用输入信号的响度信息获得幅度值,可以避免幅度值受到相消干扰的强烈影响。这是由于以下事实:输入信号的响度信息通常不受相消干扰的影响,因此将响度信息映射到幅度值通常得到数值上稳定的解决方案。
换句话说,通过主要基于输入信号的响度信息来确定频谱域值的幅度值(在将响度信息映射到幅度值之后进行可能的可选校正,以考虑抵消效应),可以避免因对复数值进行相加和后续缩放而引起的数值不稳定性和伪像。
此外,通过在确定幅度值时考虑输入信号的响度信息,可以避免在相长干扰的情况下可能发生的、通常被视为伪像的6db信号放大。相反,通过考虑输入信号的响度信息,与简单地对表示输入信号的复数值进行相加的情况相比,可以实现下混合信号更好地适配于感知的响度。
此外,已经发现,与确定幅度值分开的单独的相位计算提供了高度的灵活性。可以高精度地进行相位计算,其中在相消干扰的情况下可以应用校正来确定相位值。由于相位值通常是标量值(仅在已经确定出幅度值时才应用),因此用于确定和校正相位值的计算量特别小。
总而言之,已经发现,通过分别处理幅度值和相位值并且通过仅在处理链最后(例如,在下混合的最后)对这些值进行组合,以获得下混合信号的频谱域值的复数值表示,可以实现计算效率和听觉印象之间的良好折衷。
在优选实施例中,下混合器被配置为独立于确定下混合信号的频谱域值的幅度值来确定下混合信号的频谱域值的相位值。已经示出了对幅度值和相位值的这样的单独的处理以及确定是计算效率高的。同样,在用于确定幅度值的处理路径中也没有不可控制的相消干扰的影响。
在优选实施例中,下混合器被配置为确定输入信号的频谱域值的响度值。下混合器被配置为基于输入信号的频谱域值的响度值来导出与下混合信号的频谱域值相关联的总响度值。下混合器被配置为根据总响度值导出下混合信号的频谱域值的幅度值(例如,振幅值)。因此,幅度值很好地表示感知的响度。然而,通过考虑总响度,并且通过将该总响度值转换为幅度值,可以实现:在输入信号示出相长干扰的情况下,下混合信号的频谱域值的幅度值(例如,振幅值)不包括过度响度。在这种情况下,只是响度的相加,而不是响度的二次增大,这带来了合理的听觉印象。另一方面,即使在输入信号之间存在相消干扰的情况下,也没有相消干扰,使得幅度值没有“深谷”。因此,导出的幅度值非常适合于进一步处理。如果期望的话,可以容易地衰减幅度值或者甚至增大幅度值而没有任何数值问题。特别地,基于响度值导出幅度值的优点在于:幅度值始终在合理的值范围内,因为避免了非常小的值(通过考虑总响度值),也避免了太大的值(通过避免振幅的直接相加)。因此,这种处理具有很大的优势。
在优选的实施例中,下混合器被配置为确定输入信号的频谱域值的和或加权和,并且基于输入信号的频谱域值的和或加权和来确定相位值。通过使用相位值的这样计算,在许多情况下(即使在强相消干扰的情况下可能会有一些误差),也可以获得正确和可靠的相位值。
在优选实施例中,下混合器被配置为使用下混合信号的频谱域值的幅度值作为下混合信号的频谱域值的极性表示的绝对值,并且使用相位值作为下混合信号的频谱域值的极性表示的相位值。此外,下混合器被配置为基于极性表示来获得下混合信号的频谱域值的笛卡尔复数值的表示。因此,在处理的相对较晚的阶段获得频谱域值的笛卡尔复数值的表示,而先前的处理阶段分别确定绝对值和相位值。已经发现,这样的过程是有利的,因为根据输入信号之间的相位关系,对全部复数值的处理会引起不期望的伪像。相反,仅在处理的最后阶段(或甚至确定下混合信号的最终阶段)对绝对值和相位值进行组合可以避免这种伪像。同样,绝对值和相位值的单独处理在计算上比在多个处理阶段中处理复数值更容易。
在优选实施例中,下混合器被配置为确定(例如,计算)抵消度信息(例如,q),并且在确定下混合信号的频谱域值的幅度值(例如,mr,
换句话说,该构思允许在计算效率与减小(强烈的)相消干扰的影响之间实现特别好的折衷。
在优选实施例中,下混合器被配置为确定输入信号的频谱域值的具有(例如,四个)不同取向的分量的和(例如sumim+,sumim-,sumre+,sumre-)(例如,具有在正虚轴方向上的取向的分量,具有在负虚轴方向上的取向的分量,具有在正实轴方向上的取向的分量和具有在负实轴方向上的取向的分量;备选地,分量具有在第一方向(可以通过输入信号的频谱域值之和的向量来确定)、与第一方向正交的第二方向、与第一方向相反的第三方向、以及与第二方向相反的第四方向上的取向。此外,下混合器被配置为基于输入信号的频谱域值的具有不同取向的分量的和(例如,sumim+,sumim-,sumre+,sumre-)来确定所述抵消度信息。
已经发现,评估输入信号的频谱域值的具有不同取向的分量的和允许有效地判断预期的抵消度。例如,如果所有分量都具有相同的取向(例如,所有分量都具有正虚部和正实部),则可以预期不会出现强抵消。另一方面,如果相反方向上的分量的和相似或甚至相同,则可以得出结论,存在高抵消度。换句话说,通过比较不同取向或方向上的分量的和,可以有效且可靠地得出抵消度。因此,当预期过度抵消时(或者等效地,当预期相位信息不可靠时),可以适配下混合信号的频谱域值的幅度值。
在优选实施例中,下混合器被配置为在所确定的和中选择与正交取向或方向(例如,沿着正虚轴以及沿着正实轴)相关联且大于或等于与相反取向或方向相关联的和(例如,sumim-和sumre-)的两个和(例如,sumim+和sumre+),作为主导和值(例如,sumim+和sumre+)。例如,下混合器被配置为针对两个取向确定所确定的和中的哪些具有最大幅度,并且选择这些和作为“主导和值”。此外,下混合器被配置为确定缩放值(例如,q或qmapped),缩放值基于与跟第一主导和值(例如,sumre+)的取向相反的方向或取向相关联的第一非主导和值(例如,sumre-)与第一主导和值(例如,sumre+)之间的无符号比(即,未考虑符号的比例或者绝对值的比例或者比例的绝对值),还基于与跟第二主导和值(例如,sumim+)的取向(或方向)相反的取向(或方向)相关联的第二非主导和值(例如,sumim-)与第二主导和值(例如,sumim+)之间的无符号比(例如,未考虑符号的比例或者绝对值的比例或者比例的绝对值),选择性地减小下混合信号的频谱域值的幅度值(例如,
在优选实施例中,下混合器被配置为根据在此提及的等式来计算抵消度信息q。在这种情况下,sumre+是输入音频信号的复数值的频谱域值的正实部的和(例如,在正在考虑的频谱区间中,其中考虑了具有正实部的所有复数值的频谱域值)。sumre-是输入音频信号的复数值的频谱域值的负实部的和(例如,在正在考虑的频谱区间中,其中考虑了具有负实部的所有复数值的频谱域值)。sumim+可以是输入音频信号的复数值的频谱域值的正虚部的和(例如,在正在考虑的频谱区间中,其中考虑了具有正虚部的所有复数值的频谱域值)。sumim-是输入音频信号的复数值的频谱域值的负虚部的和(例如,在正在考虑的频谱区间中,其中考虑了具有负虚部的所有复数值的频谱域值)。因此,可以根据上述考虑以有效的方式计算抵消度信息q。
在优选实施例中,下混合器被配置为确定下混合信号的频谱域值的幅度值(例如,
在优选实施例中,下混合器被配置为:随时间跟踪抵消度信息(例如,q(t)),并且根据抵消度信息的历史确定在抵消度信息(例如,q)指示输入信号之间的相消干扰相对较小的时刻相对于参考幅度值(例如,mr)选择性地将幅度值(例如,
在优选实施例中,下混合器被配置为基于即时抵消度信息,使用无限脉冲响应平滑操作或使用滑动平均平滑操作,获得时间上平滑的抵消度信息,以便跟踪抵消度信息。已经发现,这样的操作良好地适配于跟踪抵消度信息并带来可靠的结果。
在优选实施例中,下混合器被配置为根据时间上平滑的抵消度信息将即时抵消度值(例如,q(t))映射到映射抵消度值(例如,qmapped)(其可以例如确定在抵消度信息q指示输入信号之间的相消干扰相对较小的时刻相对于参考值mr选择性地将幅度值
在优选实施例中,下混合器被配置为根据在此描述的等式,基于先前平滑的抵消度值qsmooth(t-1)并且基于即时(当前)抵消度值q(t)来获得更新的平滑的抵消度值qsmooth(t),其中p可以是常数且0<p<1。下混合器还可以被配置为根据在此描述的等式来获得映射抵消度值qmapped(t),其中t是常数且0<t<1。优选地,关系0.3≤t≤0.8可以成立。此外,可以假设q(t)在0到1之间的范围内,并且对于输入信号之间的相消干扰相对较大的情况取值为0,并且对于输入信号之间的相消干扰相对较小的情况取值为1。已经表明,映射抵消度值的这种计算带来了良好的结果,同时保持相当小的计算复杂度。
在优选实施例中,下混合器被配置为使用抵消度值(例如,qmapped)来缩放与输入信号的频谱域值的总响度相对应的幅度值(例如,“参考值”,其可以等于mr),以获得下混合信号的频谱域值的幅度值。因此,可以在存在高干扰风险的时刻减小下混合信号的频谱域值(例如,相对于参考值),并且可以在存在低干扰风险的时刻增大下混合信号的频谱域值(例如,相对于参考值)。因此,可以在存在相消干扰的高可能性的时刻避免过多的伪像,并且可以在存在相消干扰的低可能性的时刻补偿能量损失。另一方面,可以将下混合信号的频谱域值的幅度值保持在合理的范围内,从而也避免了在相长干扰的情况下过度的响度夸大。此外,本文描述的构思避免了数值问题,因为避免了强烈地“放大”接近零的值(例如,由于相消干扰)。
在优选的实施例中,下混合器被配置为确定输入信号的频谱域值的加权和,并且基于输入信号的频谱域值的加权和来确定相位值。例如,下混合器被配置为以避免大于预定干扰水平的相消干扰的方式对输入信号的频谱域值进行加权。换句话说,当确定相位值时,可以引入加权以避免过多的相消干扰。例如,通过使用这种加权,可以提高相位值的可靠性(例如,通过将相对增大的权重施加于过去具有较大幅度的频谱域值)。因此,可以提高相位确定的质量。
在优选的实施例中,下混合器被配置为确定输入信号的频谱域值的加权和,并且基于输入信号的频谱域值的加权和来确定相位值。下混合器被配置为根据不同输入信号中的相应频谱区间的时间平均强度(例如,振幅或能量或响度)对输入信号的频谱域值进行加权。因此,可以实现有意义的加权,并且可以提高相位值的可靠性。
根据本发明的实施例创建了一种用于基于多个输入音频信号来提供编码的音频表示的音频编码器。音频编码器包括如上所述的下混合器。下混合器被配置为基于多个输入音频信号的(优选地,复数值的)频谱域表示来提供下混合信号。音频编码器还被配置为对下混合信号进行编码,以获得编码的音频表示。已经发现,在音频编码器中使用这样的下混合器是特别有利的,因为幅度值和相位值的可靠性都可以通过下混合器来提高。因此,下混合信号非常适合于在音频解码器侧重建音频信号,也适合于直接重放。特别地,由于使用本文公开的下混合构思伪像相对较小,因此音频编码器可以使用相对“干净”的下混合信号,这有助于编码并且同时提高了解码的音频信号的质量。
根据本发明的另一实施例创建了一种用于基于多个(例如,复数值的)输入信号(例如,可以是输入音频信号)提供下混合信号的方法。所述方法包括:基于输入信号的响度信息(例如,基于与输入信号的给定频谱区间相关联的响度值)来确定(例如,计算或估计)下混合信号的频谱域值(例如,针对给定频谱区间)的幅度值(例如,mr或
根据本发明的另一实施例创建了一种计算机程序,用于当在计算机上运行计算机程序时执行本文所述方法。
附图说明
后续将参考所附附图来描述根据本发明的实施例,在附图中:
图1示出了根据本发明的实施例的下混合器的示意框图;
图2示出了根据本发明的另一实施例的下混合器的示意框图的摘要;
图3示出了根据本发明的实施例的相位值确定的框图;
图4示出了下混合过程期间的三种类型的干扰的示意图;
图5示出了根据本发明的实施例的用于保持响度的下混合的信号流程图;
图6示出了利用自适应参考幅度的响度下混合的信号流程图;
图7示出了复平面中的三个输入信号的抵消度的导出的示意图;
图8示出了利用自适应相位的响度下混合的信号流程图;以及
图9示出了根据本发明的实施例的用于提供下混合信号的方法的流程图;以及
图10示出了根据本发明的实施例的音频编码器的示意框图;以及
图11示出了映射曲线的示例的图形表示,可以使用本文所述的用于响度保持的不同映射构思来实现映射曲线。
具体实施方式
1.根据图1的下混合器
图1示出了根据本发明的实施例的下混合器100的示意框图。
下混合器被配置为接收多个输入信号110a、110b,并且基于输入信号110a、110b提供下混合信号112。例如,可以是输入音频信号的第一输入信号可以由一系列频谱域值(与不同的频率或频谱区间相关联)表示,该频谱域值可以例如为复数表示的形式。此外,第二输入信号也可以例如包括一系列频谱域值(其与不同的频率或频谱区间相关联),频谱域值可以以复数表示来表示。
下混合信号112可以由下混合信号的频谱域值表示(或者通常由与不同频率相关联的多个频谱域值表示),该频谱域值可以以复数表示的形式表示。
在下文中,将考虑仅对一个频谱区间的处理。然而,例如,可以独立地并且以相同的方式来处理不同频谱区间的频谱域值。
下混合器100包括幅度值确定(也可以被视为幅度值确定器)120。幅度值确定120被配置为基于输入信号110a、110b的响度信息(例如,基于与输入信号的给定频谱区间相关联的响度值)来确定下混合信号的频谱域值112(例如,针对给定的频谱区间)的幅度值122。例如,幅度值确定包括第一响度信息确定(或确定器)124,其确定第一输入信号110a的频谱域值的响度。此外,幅度值确定120还包括第二响度信息确定(或确定器)126,其确定第二输入信号110b的频谱域值的响度信息。此外,幅度值确定120通常确定幅度值122,使得幅度值122(其可以是确定下混信号的频谱域值的幅度值的基础,或者甚至可以用作下混信号的频谱域值的幅度值)基于第一输入信号110a的相应频谱域值和第二输入信号110b的相应频谱域值的总响度。然而,幅度值120可以包括附加的校正,以使得根据情况以明确定义的方式校正幅度值以对应于小于总响度或大于总响度的响度。然而,应当注意,幅度值通常是与某个频谱域值相关联(例如,与某个频谱区间相关联)的一个标量值。
下混合器100还包括相位值确定(或确定器)130。因此,下混合器被配置为确定下混合信号的频谱域值112(例如,针对给定的频谱区间)的(标量)相位值132。例如,相位值确定130接收第一输入信号110a和第二输入信号110b,或者接收第一输入信号110a的频谱域值(与某一频谱区间相关联)和第二输入信号110的频谱域值(与某一频谱区间相关联)。例如,相位值确定(或确定器)130独立于幅度值122的确定来确定相位值132。
此外,下混合器还包括相位值应用(也可以视为相位值应用器)140。因此,下混合器被配置为应用相位值132,以便基于下混合信号的频谱域值的幅度值122获得下混合信号的频谱域值112(例如,针对给定频谱区间)的复数值表示。
一般而言,应该注意的是,下混合器100可以例如独立地确定幅度值112和相位值132,然后作为最终处理步骤,应用相位值132以获得下混合信号的频谱域值的复数表示。例如,相位值132可以用于基于幅度值来导出下混信号的频谱域值的同相分量和正交分量,使得获得下混合信号的复数值频谱域值的笛卡尔表示(实部和虚部表示)。通过基于输入信号的响度信息(例如,基于输入信号的给定频谱区间的响度值)导出幅度值,可以获得良好的数值稳定程度,同时可以避免过大的响度(例如,在相长干扰的情况下,这可以是由于频谱域值的简单相加而引起的)和显著的响度下降(在执行频谱域值的简单复数值相加的情况下,这可以是由相消干扰引起的)。而且,可以避免由于对复数相加后的值进行较强的后校正的解决方案引起的数值不稳定性。
综上所述,参考图1描述的下混合器具有显著的优点,这些优点部分地源于幅度值122和相位值132的单独处理,并且还源于在确定幅度值122时考虑响度信息。
此外,应当注意,根据图1的下混合器100可以由本文所述的任何特征、功能和细节(无论是单独地还是组合地使用)来补充。而且,关于下混合器100描述的特征、功能和细节可以单独地或组合地引入到其他实施例中。
2.根据图2的下混合器
图2示出了根据本发明的实施例的下混合器的示意框图的摘要。
特别地,图2表示基于第一输入信号210a(其可以对应于参考图1描述的第一输入信号110a)以及还基于第二输入信号210b(其可以对应于参考图1描述的第二输入信号110b)来导出幅度值222(其可以对应于参考图1描述的幅度值122)。
还应当注意,图2中所示的处理单元或功能块200可以例如替代图1中所示的幅度值确定(幅度值确定器)120。
功能块200包括参考幅度值确定或参考幅度值确定器220,其功能通常可以类似于幅度值确定/幅度值确定器120的功能。例如,参考幅度值确定器220可以被配置为基于第一输入信号210a并且基于第二输入信号210b提供参考幅度值221。例如,参考幅度值确定220可以基于输入信号210a、210b的响度信息来导出下混合信号的频谱域值的参考幅度值221(其可以被认为是未修改的参考)。例如,参考幅度值221可以是与下混合信号的给定频谱区间相关联的标量值,并且可以基于与第一输入信号210a的给定频谱区间相关联的响度值和与第二输入信号210b的给定频谱区间相关联的响度值。因此,频谱域值的参考幅度值例如可以对应于响度,该响度大于最小响度值(例如,输入信号的给定频谱区间的最小响度值),并且通常甚至大于输入信号210a、210b的给定频谱区间的最大响度值。换句话说,除非给定的频谱区间在两个输入信号210a、210b中都包括非常小的信号强度,否则参考幅度221通常不会特别小。另一方面,参考幅度值221通常也不包括过大的值,因为它基于所有输入信号的响度信息。优选地,参考幅度值221不受输入信号的相长干扰和相消干扰的影响,如果在确定参考幅度值时考虑了输入信号的相位,则将发生相长干扰和相消干扰。相反,参考幅度值可以例如反映输入信号的正在考虑的给定频谱区间中的响度的相加。
因此,参考幅度值221是进行可能的校正的良好基础,因为可以假设它位于数值上合理的范围内,因此可以在不引起数值不稳定的情况下进行缩小和放大。
功能块200还包括抵消度计算230,其被配置为接收输入信号210a、210b(或至少正在考虑的给定频谱区间的频谱域值)。抵消度计算230提供抵消度信息232,其通常描述如果将输入信号的正在考虑的给定频谱区间的频谱域值作为复数相加(即,在考虑其相位以及可能的抵消效应的情况下)会存在多少抵消(相消干扰)。可以使用不同的机制来计算抵消度信息232(其可以被视为当前或即时抵消度信息,并且可以与正在考虑的给定频谱区间相关联)。然而,在优选的方法中,如果抵消度高,则也用q表示的抵消度信息232取接近零的值,如果抵消度低(例如,在正在考虑的给定频谱区间中),则抵消度信息q取接近1的值。
抵消度信息232可以例如用于缩放参考幅度值221,以便导出频谱域值的(缩放的)幅度值222。然而,即使可以直接使用抵消度信息232来缩放参考幅度值221,也优选具有附加处理,这将在下面进行描述。
在优选实施例中,功能块200还包括映射(或映射器)240,其接收(即时/当前)抵消度信息(其描述了与当前要处理的时间块相关联的正在考虑的给定频谱区间中的抵消度),并且基于抵消度信息提供映射抵消度值(或者映射抵消度信息)242。例如,将映射抵消度值提供给缩放(或缩放器260),缩放(或缩放器260)基于映射抵消度值242来缩放参考幅度值221,从而导出下混合信号的频谱域值的幅度值222。
功能块200优选地包括时间平滑/历史跟踪250,其将抵消度历史信息或在时间上平滑的抵消度信息252提供给映射/幅度值调整确定240。换句话说,映射/幅度值调整确定240优选地接收即时(当前)抵消度信息232和抵消度历史信息252(其例如可以是时间上平滑的抵消度信息)。因此,映射/幅度值调整确定240可以基于即时(当前)抵消度信息232来提供映射抵消度值242,其中可以根据抵消度历史信息252来选择性地增大即时(当前)抵消度信息232,从而导出映射抵消度信息242。
例如,抵消度信息232可以是在0到1之间的范围内的值,使得利用抵消度信息232直接缩放参考幅度值221通常导致能量的减小。然而,已经发现,在输入信号210a、210b之间(例如,在正在考虑的频谱区间内)存在高抵消度的情况下,应该由缩放器260缩小参考幅度值221。另一方面,还已经发现,在低抵消度的时候,以适度的方式“放大”参考幅度值221是没有问题的。换句话说,已经发现,如果在当前时刻抵消度高,则映射抵消度值242应该显著小于1(例如,小于0.5,或者甚至小于0.3,或者甚至小于0.1)。另一方面,已经发现,如果在抵消度低的时候映射抵消度值242稍微大于1(例如,在1到1.2之间,或者在1到1.5之间,或者甚至在1到2之间),这也是没问题的。因此,映射/幅度值调整确定240根据抵消度历史信息252,相对于即时(当前)抵消度信息232选择性地增大映射抵消度值242。例如,如果即时抵消度信息232在一定时间段内已经取相对较小的值,则映射/幅度值调整确定240可以相对于即时抵消度信息232(至少在抵消度较低的情况下)将映射抵消度值242增大到大于1(至少在抵消度较低的时刻),从而至少部分地补偿由相对较小的抵消度信息232引起的能量损失(相对较小的抵消度信息232通常还导致相对较小的映射抵消度值242,该映射抵消度值242显著小于1)。另一方面,如果即时(当前)抵消度信息232已经接近1,则映射抵消度值242相对于即时(当前)抵消度信息232的增大通常较小,因为在这种情况下不必补偿较大的能量损失。总而言之,映射抵消度值242相对于即时(当前)抵消度信息增大的程度(或量)取决于抵消度历史信息252,并且如果过去存在(相对)较大的能量损失,则增大相对较大,如果过去仅存在(相对)较小的能量损失,则增大相对较小。
通常,相对较小的抵消度信息(接近0,指示较高的抵消度)也导致相对较小的映射抵消度值242(其远小于1)。另一方面,如果即时抵消度信息接近于1(指示抵消度较低),则映射抵消度值242可以小于1或者也可以大于1,例如如果即时抵消度信息在之前的某个时间段内取的值远小于1。因此,如果抵消度较高,则由缩放器260获得的频谱域值的幅度值222通常小于参考幅度值221,并且如果抵消度较低并且如果在之前的某一时间段内抵消度较高,则幅度值222通常甚至大于参考幅度值221。
如上所述,在本发明的一些实施例中,功能块200可以例如替代图1的幅度值确定/确定器120。
此外,应当注意,在本文中还关于其它实施例描述的任何特征、功能和细节可以补充功能块200。可以将这些特征、功能和细节单独地或组合地添加到功能块200。特别地,当实现功能块200的功能时,可以可选地使用本文中所描述的用于计算即时(当前)抵消度信息q、用于计算抵消度历史信息qsmooth、用于计算映射抵消度信息qmapped、用于计算参考幅度值mr和用于计算(缩放)的幅度值
3.根据图3的相位值确定
图3示出了根据本发明的实施例的相位值确定的示意图。根据图3的相位值确定整体用300表示。应当注意,相位值确定300可以可选地替代根据图1的下混合器100中的相位值确定130。应当注意,相位值确定300可以可选地与功能块200(其可以替代根据图1的下混合器100中的块120)结合使用。然而,相位值确定300也可以与幅度值确定120结合使用。
在附图标记310处,示出了输入信号(例如,输入音频信号)的时频域表示。横坐标312描述时间,纵坐标313描述频率。因此,示出了时频区间(bin)。例如,突出显示了三个时频区间314a、314b、314c,它们全部与频率(或频率范围或频率区间)f4相关联,并且与时间(或时间部分或帧)t1、t2、t3相关联。
类似地,在附图标记320处,示出了第二输入信号的时频域表示的图形表示。横坐标322描述时间,纵坐标323描述频率。突出显示了频谱区间324a、324b、324c(例如,在频率f4以及在时间t1、t2、t3处),其中,例如,复数值频谱域值与频谱区间324a、324b、324c中的每一个相关联。
类似地,附图标记330处的示意表示示出了第三输入信号的时频域表示。横坐标332描述时间,纵坐标333描述频率。突出显示了在频率f4以及在时间t1、t2、t3处的三个频谱区间334a、334b、334c。
在下文中,将描述可以由相位值确定(例如,由相位值确定/相位值确定器130)执行的处理。例如,第一平均(或第一平均器)360可以形成多个频谱区间的频谱域值的平均值(例如,强度、能量或响度的平均值),该多个频谱区间与相同频率相关联并且与随后的时间相关联。该平均可以是滑动窗口平均,或者可以是递归(有限冲激响应)平均。此外,应当注意,平均可以例如对频谱域值的复数值进行平均,或者可以对频谱域值的幅度或响度值进行平均。因此,平均器330提供加权值362。
类似地,第二平均(或第二平均器370)确定与第二输入信号的频谱区间324a至324c相关联的频谱域值在时间上的平均值(例如,强度、能量或响度的平均值),从而获得第二输入信号的加权值372。
此外,第三平均(或第三平均器380)确定与第三输入信号的频谱区间334a至334c相关联的频谱域值在时间上的平均值(例如,强度、能量或响度的平均值),从而获得第三输入信号的加权值382。
换句话说,第一平均360、第二平均370和第三平均380可以执行相似或相同的功能,但是对不同输入信号的频谱域值进行操作。
相位值确定300还包括第一输入信号(或从第一输入信号导出的)的当前频谱域值的缩放或加权364,从而获得第一输入信号的缩放的频谱域值366。类似地,相位值确定包括第二缩放或加权374,其中使用从第二输入信号导出的加权值372对第二输入信号的当前频谱域值(例如,与当前处理的频谱区间相关联的当前频谱域值)进行缩放。由此,获得第二输入信号的加权频谱域值376。类似地,相位值确定300包括第三缩放或加权384,其使用第三输入信号的加权值382对第三输入信号的当前频谱域值进行缩放,从而获得第三输入信号的频谱域值386。
相位值确定300还包括组合390,其对第一输入信号的缩放的频谱域值366、第二输入信号的缩放的频谱域值376和第三输入信号的缩放的频谱域值386进行组合。例如,执行求和组合,其中应当注意,缩放的复数值(例如,在包括实分量和虚分量的笛卡尔表示中)被组合。因此,作为组合390的结果,获得了加权和392,其通常是复数值,并且通常为笛卡尔表示(具有实分量和虚分量)形式。相位值确定300还包括相位计算396,在相位计算396中计算加权和392的相位值并将所计算的相位值提供为相位值398。相位值398可以例如对应于参考图1描述的相位值132,并且可以由相位值应用140使用。
相位值确定300基于如下这样的思想:与一个或多个输入信号的频谱域值(其在过去相对较弱)(例如,在具有与当前频谱域值相同的频率但与更早的时间相关联的频谱区间中)相比,在相位计算396中应对输入信号的当前频谱域值(例如,在与更早的时间相关联但具有与当前频谱域值相同的频率的频谱区间中)(其在过去相对较强(例如,与其他输入信号相比))进行更强加权。已经发现,通过这种构思减小了相位值398包括大误差或包括快速变化的可能性,并且结果是,可以通过使用这样的相位值确定来减小或避免下混合信号中的(可听到的)伪像。换句话说,被执行以获得相位值398的相位计算396不是基于不同输入信号的当前频谱域值的均等加权组合来执行的,而是根据强度、能量或响度的过去时间平均值(例如,在相同频率的过去频谱区间中)对不同输入信号的当前频谱域值进行加权。因此,提高了相位计算的可靠性。
然而,应注意,本文例如关于相位值确定描述的任何特征、功能和细节也可以单独地或组合地与相位值确定300结合应用。此外,应当注意,相位值确定300可以可选地引入到本文描述的任何其他实施例中。
4.根据图5的实施例
在下文中,将参考图5描述下混合器的实施例。
图5示出了根据本发明的实施例的下混合器500的示意框图。下混合器被配置为接收多个输入信号500a至500n,其也用s1至sn表示。
此外,下混合器500提供下混合信号592(也用sloudnessdmx表示)作为输出信号。下混合器500可选地包括滤波器组501,该滤波器组例如是分析滤波器组(或者,一般来说,其用于执行分析)。例如,滤波器组501可以单独分析不同的输入信号500a至500n。例如,滤波器组可以针对输入信号500a至500n中的每一个提供复数值表示。例如,滤波器组501基于第一输入信号500a提供第一复数值表示501a,并且基于第n输入信号500n提供第n复数值表示501n。例如,第一复数值表示501a可以包括多个频谱值,例如,针对每个频谱区间一个频谱值。各个频谱值可以是复数值,并且可以例如以笛卡尔形式(具有实部和虚部的单独数字表示)表示。
在下文中,将仅针对一个频谱区间来描述该处理。然而,应当注意,不同的频谱区间(具有与之相关联的不同的频率)可以例如被单独地处理,但是均是例如使用相同的构思来处理的。
例如,第一输入信号的正在考虑的频谱区间的频谱域表示用re1(第一输入信号的频谱域值的实部的数字表示)和im1(第一输入信号的频谱域值的虚部的数字表示)表示。类似地,第n输入信号的频谱域表示用ren(第n输入信号的频谱域值的实部的数字表示)和imn(第n输入信号的频谱值的虚部的数字表示)表示。
下混合器还包括响度估计503,在其中针对不同的输入信号单独地估计响度。例如,基于第一输入信号的频谱域值的实部的数字表示和基于第一输入信号的频谱域值(针对正在考虑的频谱区间)的虚部的数字表示计算或估计第一输入信号500a的响度值503a。类似地,基于第n个输入信号的频谱域值(针对正在考虑的频谱区间)的数字表示ren、imn来计算或估计第n个输入信号的响度,从而获得响度值503b。单独的响度估计块或单元由503表示。
此外,在组合器503c中对分别表示各个输入信号500a至500n的响度的各个响度值503a、503b进行组合(例如,求和),从而获得总响度值503d。因此,总响度值503d描述了输入信号501a至501n的总响度。下混合器500还包括响度-幅度值转换504,其接收总响度值503d并将总响度值503d转换为幅度值505,幅度值505可以被认为是参考幅度mr。参考幅度值505可以是标量值,其表示由总响度值503d描述的总响度(但是可以在振幅值的范围内)。
下混合器500可以可选地包括缩放器506,然而在图5的实施例中该缩放器可以是不活跃的。因此,修改的(“缩放的”)幅度值506a可以与参考幅度值505相同。
下混合器500还包括相位计算508。相位计算508可以接收将频谱域值501a至501n组合而得到的复数值的和值的数字表示。例如,可以对频谱域值501a至501n的实部的数字表示re1至ren求和(例如,在求和器或组合器507a中),以获得和值的实部的数字表示507b(也用redmx表示)。类似地,可以对频谱域值501a至501n的虚部的数字表示im1至imn求和(例如,通过求和器或组合器507c),以获得和值的虚部的数字表示507d(也用lmdmx表示)。
相位计算508基于和值的实部的数字表示507b并且基于和值的虚部的数字表示507d来计算相位值508a。例如,相位计算可以包括圆弧切线运算,其中可以考虑和值的实部和虚部的数字表示位于其中的象限之间的区别。因此,相位值508a可以例如指示在0到360°之间、或0到2π之间、或-180°到+180°之间、或-π到+π之间的范围。
下混合器500还包括可选的相位校正510,其在根据图5的实施例中通常是不活跃的。
下混合器500还包括相位值应用/数字表示重构511。相位值应用接收幅度值506a(在本实施例中可以与参考幅度值505相同),并且还接收校正后的相位值510a(在本实施例中可以与相位值508a相同)。
相位值应用511确定下混合信号的频谱域值的实部(reactive)的数字表示,并且还确定下混合信号的频谱域值的虚部的数字表示。因此,相位值应用511提供下混合信号的频谱域值的实部的数字表示511a和下混合信号的频谱域值的虚部的数字表示511b。
实部的数字表示511a和虚部的数字表示511b都被提供给可选的滤波器组502,其可以是合成滤波器组。滤波器组502可以被配置为基于下混合信号的(复数值的)频谱域值(例如,针对多个频谱区间(例如,具有相关联的不同的频谱))的数字表示,提供下混合信号的时域表示592。
因此,可以获得下混合信号,其中幅度值和相位值被独立地处理(例如,作为标量值处理),并且其中频谱域值的复数值表示仅作为最终处理步骤(例如,在重新合成时域表示之前)而生成。
在下文中,将总结参考图5描述的构思。应当注意,以下描述的构思可以独立于上述细节使用。然而,以下描述的任何细节也可以与本文描述的任何实施例结合使用。
应当注意,该构思可以被认为是“响度保持下混合”。本文所述的新方法不只是简单地对输入信号进行下混合,而是随后尝试校正不想要的副作用。它基于两种不同的构思,彼此独立地计算期望的(响度保持)幅度和相位信息。
例如,直接计算期望的(参考)幅度。它没有任何不期望的干扰,因此在与适当的相位信息结合使用时也没有任何不期望的下混合(dmx)伪像。相位信息是单独计算的,并且源于无源下混合(dmx)。
在图5中,针对一个频带(在滤波器组分析501和合成502之间)示例性地示出了本发明的实施例。当然,不同的缓冲器大小是可能的。此外,应当注意,图5所示的抵消度计算(伪像预防)和映射(响度保持)不是根据图5的实施例的必要组成部分,而应被视为可选扩展。同样,相位校正值计算应被视为可选的补充。
在下文中,将关于幅度或参考幅度(505或506a)的计算以及关于相位的计算给出一些附加说明。
(参考)幅度:
以响度保持方式对输入信号进行下混合以形成幅度mr505,其由红色/连续线或图5中标有“幅度计算”的线表示,如下所示:
1.计算每个输入信号的响度(响度估计503);响度可以表示基于人类听觉系统、能量值、幅度值等的响度;
2.对响度值进行求和;
3.将响度和转换成幅度(响度到幅度转换504);例如,平方根用于能量值;
4.可选的:对mr(参考幅度mr505)的加权导致修改的(或缩放的)幅度mmodr506a(例如,使用缩放506);下面将在描述利用自适应参考幅度的响度下混合中描述进一步的细节。为了避免由错误的相位信息引起的可能的伪像,可以执行该步骤。
相位:
相位pp508a(也被表示为无源dmx相位pp)是从无源下混合(例如,由组合器或加法器507a、507c获得,并且由507b、507d表示)导出的,其中相位的导出用蓝色/连续线或标记为“相位计算”的线示出,如下所示:
1.例如,在组合器或加法器507a、507c中,以无源方式(简单相加)对输入信号进行下混合;可选地,可以在组合器或加法器507a、507c中使用动机不同的下混合dmx;然而,在这种情况下,应当在不同类型的下混合的意义上处理(或者需要处理)以下在描述“利用自适应参考幅度的响度下混合”和“利用自适应相位的下混合”的部分中描述的响度求和和附加过程二者;
2.使用redmx和imdmx(507b、507d)来计算相位信息(例如,使用相位计算508),例如通过使用四象限反正切函数。
3.可选的:相位pp508a(也被表示为无源dmx相位pp)可以被修改以形成校正或修改的相位值pmodp510a(例如,使用组合器或加法器510)。例如,以下在描述利用自适应相位的响度下混合的部分中描述了有关此问题的细节。可以执行此步骤,以创建没有相位跳变的相位响应。
在相位值应用511中组合参考幅度mr(505)(或修改的幅度值mmodr506a)和相位pp(508a)(或修改的相位pmodp510a),即从极坐标形式变为笛卡尔形式(或数字表示)。
5.根据图6的实施例
图6示出了使用利用自适应参考幅度的响度下混合的下混合器的示意框图。应当注意,根据图6的下混合器600类似于根据图5的下混合器500,由此将不再描述相同的信号、块、特征和功能。另外,应当注意,相同的特征和信号用相同的附图标记表示,由此参考以上描述。
然而,除了下混合器500之外,下混合器600还包括可以被视为伪像预防的抵消度计算612和可以被视为响度保持的映射613。例如,抵消度防止612接收频谱域值501a至501n(或更准确地,其笛卡尔数值表示)。抵消度计算612将也用q表示的增益值612a提供给映射613。
映射613接收增益值612(q),并基于增益值向缩放器506提供也用qmapped表示的映射增益值613a,其中缩放器506使用映射增益值613a对参考幅度值505进行缩放,从而获得缩放的幅度值506a,缩放的幅度值506a被输入到相位值应用511。例如,抵消度计算612可以确定增益值612a,使得如果抵消度较高,则增益值612a取相对较小的值(例如,接近0的值),并且当输入信号之间的抵消度相对较小时(例如,当考虑通过复数值相加实现的输入信号的组合时),确定增益值612a取相对较大的值(例如,接近1的值)。因此,如果发现(或预期)抵消度较高(这对应于相位值的不可靠度较高或相位跳变的风险较高),则将增益612a选择为较小。另一方面,如果抵消度较小(这意味着相位值是相对可靠的并且没有不适当的相位跳变),则将增益值612a选择为相对较大。
映射613帮助至少部分地补偿能量损失(至少时间上的平均),该能量损失是在抵消度较高的情况下通过减小(缩放的)幅度值506a而引起的。例如,映射613可以以如下方式获得映射增益613a:使得映射增益有时大于1(例如,当抵消度相对较小并且当以前已经存在由于相对较小的增益值q引起的能量损失时),以及使得在其他时间段内映射增益值613显著小于1(例如,当抵消度相对较大时)。
下面将描述关于抵消度计算612和关于映射613的细节。然而,也参考上述说明,其中上述功能可以可选地引入到下混合器600中。
在下文中,将提供一些附加的说明。特别地,应该注意的是,与下混合器500相比,下混合器600被扩展以更好地处理抵消度较高的情况。
然而,通常可以说,根据图6的下混合器600以及根据图8的下混合器800为特殊情况提供了可选的解决方案。
如上文所述(例如,两个向量的幅度确实相似且角度差约为180度的情况的说明;请参见图4c),输入信号的总和可以引起非常强的抵消,并产生强相位跳变。在那种情况下,参考幅度mr505与错误的相位信息pp508a的组合将引起可听的伪像。
为了克服这些人为产生的伪像,本文提出了两种解决方案(例如,参考图6和图8)。第一解决方案包括通过降低参考幅度来将伪像衰减到可听阈值以下。在题为“利用自适应参考幅度的响度下混合”的部分中对此进行了描述。作为可以第一解决方案的备选或附加项使用的第二解决方案,可以对不可靠的相位响应进行校正。在题为“利用自适应相位的响度下混合”的部分中对此进行了描述。
利用自适应参考幅度的响度下混合
用于克服人工产生的伪像的一种可能性是在某些时间点衰减参考幅度(例如参考幅度505),直到其变为听不见的为止。为此,根据图5的下混合器500的“左翼”被激活(例如,由红色/虚线或由标记为“可选的幅度修改”的线类型示出)。
关于这个问题,参考图6,其示出了使用利用自适应参考幅度的响度下混合的下混合器的示意框图。
在抵消度计算612中,对输入信号进行分支,并且计算(或估计)抵消度。如果没有相消干扰,则也用q表示的增益值612a为1。在完全抵消的情况下,也用q表示的增益值612a为0。该措施用于检测潜在的错误相位信息。
在指定为映射613的第二步骤中,将抵消度映射为响度保持增益qmapped(例如,映射增益613a)。下面描述步骤或功能块或功能612、613。
伪像预防/抵消度计算612:
图7示出了复平面中的三个输入信号的抵消度的导出的示意图。横坐标710表示实部(或实分量),纵坐标712表示虚部(或虚分量)。表示例如第一输入信号的频谱区间的第一复数值由第一向量720a表示,可以例如表示第二输入信号的频谱区间的第二复数值由第二向量720b表示,并且可以例如表示第三输入信号的频谱区间的第三复数值由第三向量720c表示。换句话说,在图7中,基于由复平面中的三个向量720a、720b、720c表示的三个输入信号示例性地解释了一种可能的构思。
虚轴和实轴上的抵消度单独计算,并以能量校正的方式组合:
·计算三个向量的正虚部的和→sumim+
·计算三个向量的负虚部的和→sumim-
·计算三个向量的正实部的和→sumre+
·计算三个向量的负实部的和→sumre-
·以下列等式组合这四个和
然而,应注意,对于抵消度的计算,也可以使用倾斜轴系统(例如,具有朝向无源下混合dmx的相位角的取向)。此外,应当注意,上述附加过程可以可选地使用备选公式来计算抵消度。然而,在一些实施例中,重要的是准确地计算强抵消度,以便充分减小参考幅度。应该注意的是,可以以下列等式(或者使用下列等式)组合这四个和(例如,正虚部的和、负虚部的和、正实部的和以及负实部的和),例如以导出增益值612a:
·sumim+≥|sumim-|,sumre+≥|sumre-|
·sumim+≥|sumim-|,sumre+<|sumre-|
·sumim+<|sumim-|,sumre+≥|sumre-|
·sumim+<|sumim-|,sumre+<|sumre-|
进行了四种情况区分,以使q可以取0到1之间的值。
响度保存映射613-备选方案1:
在下文中,对于能量保持的情况,示例性地计算映射过程(可以由映射块613执行)。然而,应注意,不同的映射等式是可能的。
如果将增益值q直接应用于参考幅度,则会降低其能量(例如,如果增益值q在0到1之间的范围内)。这可能会降低混合信号的感知响度。
根据本发明的一个方面,因此跟踪能量损失并将其以时间延迟的方式反馈给信号。重要的是,不要通过此第二步骤613恢复先前已执行的参考幅度612的减小。只有在参考幅度的减小不太高的情况下,才能反馈能量。具体来说,执行以下步骤:
-通过使用p=[0-1]进行平滑来随时间跟踪抵消度:
qsmooth(t)=p*qsmooth(t-1)+(p-1)*q(t)
-将q映射到其值范围的上限之上以允许值大于1并因此进行放大:
然而,应注意,不同的跟踪等式和/或方法是可能的。
然而,应注意以下几点:
已经发现,在恒定值t=0.6的情况下,可以实现q的值范围的映射,其平均地补偿了能量损失。应当注意,指数t的值是凭经验根据多于125个音频信号的信号数据库确定的。为此,在所有频带上(在可听范围内)对参考幅度的能量求和,并将其与利用qmapped处理的修改的幅度的求和能量进行比较,并且在t上对差进行最小化。然而,如果需要不同的映射效果,则指数t仍然可以更改。
此外,应注意的是,q越小,向上映射的越少。伪像不会被放大。
同样,q越大,向上映射的越多,并且可以达到大于1的值。
在一些实施例中,这确保了一次获得的相位信息越可靠,则越多的能量被反馈到信号中。然而,在一些实施例中,限制反馈能量的量以避免过度放大可能是有用的。例如,可以将qmapped限制为某个值,例如1.2、1.5、1.8或2.0。
响度保存映射613-备选方案2:
在下文中,将描述响度保持映射613的备选实施方式。
在下文中,对于能量保持的情况,示例性地计算映射过程。然而,不同的映射等式是可能的。
如果将q直接应用于参考幅度,则这会降低其能量。这可能会降低混合信号的感知响度。因此,跟踪能量损失并将其以时间延迟的方式反馈给信号。重要的是,不要通过该第二步骤(例如,在框613中)恢复先前已经执行的参考幅度的减小(例如,在框612中)。只有在参考幅度的减小不太高的情况下,才能反馈能量。
具体来说,执行以下步骤:
ο用p=[0-1]进行平滑来随时间跟踪抵消度:
qsmooth(t)=p*qsmooth(t-1)+(p-1)*q(t)
然而,不同的跟踪等式/方法是可能的。
ο(令人满意的)将q映射到值1,因此不放大参考幅度[212]:
mslope(t)=max{g*qsmooth(t)-1,1}
qmapped(t)=min{mslope(t)*q(t),1}
一般来说,这种类型的映射尝试保持原始参考幅度,并且仅在检测到较强的相消干扰时才将其衰减。尽管没有放大,但是感知的总响度没有改变。由于较强的相消干扰,参考幅度的衰减大部分被信号掩盖。
优选地考虑以下几点:
ο恒定增益g是斜率的强度,例如可以取1到10之间(或0.5到20之间)的值。
ο斜率mslope(t)取决于抵消度的平均值:
οqsmooth(t)越小,映射就越谨慎,以免放大潜在的伪像。
οqsmooth(t)越大,映射越强。
图11示出了映射曲线的示例,可以使用本文所述的用于响度保持的不同映射构思来实现映射曲线。
在根据第一备选方案的映射中,允许大于1的放大,使得使用qmapped以时间延迟的方式将丢失的能量引入(反馈)到信号中。
在根据第二备选方案的映射中,不允许放大。而是,试图尽可能多地维持参考幅度,从而不缩小(或减小)参考幅度。仅在发生强烈的相消干扰的情况下,才会减小或缩小参考幅度。同样,减小(或缩小)的程度仍取决于qsmooth,即,源自随着时间的流逝而损失的能量。
6.根据图8的下混合器
图8示出了根据本发明的另一实施例的下混合器的示意框图。
下混合器800类似于下混合器500,由此在此不再描述相同的特征、功能和信号。相反,将像在对下混合器500的讨论中那样使用相同的附图标记,并且参考关于下混合器500的以上说明。
然而,除了下混合器500的功能和/或块之外,下混合器800还包括相位校正值计算814,其接收输入信号(或其频谱区间)的复数值表示501a至501n。此外,相位校正值计算814也可以接收相位值508a。相位校正值计算814还将相位校正值815提供给组合器510,使得组合器510考虑相位校正值815(也用w表示),基于相位值508a导出修改的相位值510a。
因此,相位校正值计算814可以例如确定何时相位值508a(可以通过上述简单的相位计算508获得)严重偏离实际相位值、或者何时相位值508a包括过多的相位跳变等。
例如,相位校正值计算814可以提供相位校正值815,使得在由相位计算508a提供的相位值和校正的相位值510a之间存在平滑的渐变(fade-over)。例如,相位校正值计算814可以提供相位校正值815,使得相位校正值815从零平滑地过渡到期望的相位校正值。
然而,应注意,在一些实施例中,求和器/组合器507a、507c、相位计算508、相位校正值计算814和组合510可以由改进的相位值计算替代,这计算通常计算具有更高的可靠性的相位值。
例如,根据需要,如图3所示的相位值确定可以永久使用,或者可以用于提供相位校正值815。
利用自适应相位的响度下混合
在下文中,将描述利用自适应相位的响度下混合,其可以根据本发明的一方面被使用。
为了能够连续地使用参考幅度mr,需要“可靠”的相位响应。为此,图5(以及图8)中的右翼被激活(以蓝色/虚线或标记为“可选的相位修改”的线显示)。在步骤或功能块“相位校正值计算”814中,基于分支的输入信号(例如,基于数字表示501a至501n)计算相位校正值815(也用w表示)。以这种方式校正无源下混合的潜在错误相位(例如,“无源下混合相位pp508a”),从而避免了明显的伪像(基于相位跳变)。
模块(或功能块或功能)“相位校正值计算”814可以由若干个子模块组成。在无源下混合期间输入信号无相消干扰的情况下,相位校正值接近零。一旦发生相消干扰/抵消,就计算得到可靠的相位响应的值(例如,相位校正值)。
例如,根据输入信号的自适应加权求和取得可靠的相位响应。例如,可能有必要随时间跟踪各个信号的响度值。自适应加权旨在创建dmx(子混合(sub-mix))而不会干扰相消干扰。在子混合中,相消干扰可以容忍到一定程度。在重新加权各个输入信号时,这可以用于避免人为生成的相位跳变。
为了确保在无源下混合(dmx)和子混合之间切换时的平滑过渡,当不发生相消干扰/抵消时,也可以应用相位校正。可选地,可以在若干个频带上对相位响应进行平滑,以附加地衰减相位跳变。
总而言之,图8示出了使用利用自适应相位的响度下混合的下混合器的示意框图。
例如,在根据图8的实施例中,抵消度计算612和映射613可以是不活跃的(或不存在),但是相位校正值计算814可以是活跃的。
然而,在一些实施例中,还可以同时使用抵消度计算612和映射613以及相位校正值计算814,从而获得良好的结果。
然而,应当注意,根据图8的实施例可以由本文所述的任何特征、功能和细节(无论是单独地还是组合地使用)来补充。
7.结论与一般说明
总而言之,应当注意,已经描述了有助于在基于多个输入信号提供下混合信号时减少伪像的构思。特别地,已经解决了由抵消引起的问题。例如,当两个或更多个指针(或相位或向量)位于90°的角度区域之外时,坐标系的一个或甚至两个轴上都将发生抵消。这意味着,指针(或相位或向量)的实分量或虚分量(或两者)部分或甚至完全抵消。因此,可以说是相消干扰/叠加。因此,是否存在相消干扰或叠加的问题与和向量的长度无关,并且也与和向量的长度是否比两个向量中的一个更长的问题无关。
作为附加说明,应当注意的是,仅在时间平均方面考虑干扰,因为处理通常在频域中进行,并且通常分析特定长度的信号缓冲器。应当注意的是,可能发生的是,在信号缓冲器内(当考虑时间信号结构时)同时存在相长和相消干扰。然而,在频域中,人们只能看到缓冲器中哪种类型的干扰过大。因此,缓冲器被相应地分类。因此,应当注意的是,可以如本文所述那样判断是否存在相长干扰或相消干扰的问题。另外,例如,当发现由于干扰而导致相位值不可靠时,可以对幅度和/或相位进行适当的校正。
8.根据图9的方法
图9示出了根据本发明的实施例的用于基于多个输入信号来提供下混合信号的方法900的流程图。
方法900包括基于输入信号的响度信息来确定910下混合信号的频谱域值的幅度值,以及
方法900包括确定920下混合信号的频谱域值的相位值。方法900还包括应用930相位值,以便基于频谱域值的幅度值获得下混合信号的频谱域值的复数表示。
方法900可以可选地由本文公开的任何特征、功能和细节(单独地或组合地使用)补充。
另外,应当注意,如果需要的话,步骤910和920自然也可以并行执行。
9.根据图10的音频编码器
图10示出了根据本发明的实施例的音频编码器1000的示意框图。
音频编码器1000被配置为基于多个输入音频信号1010a至1010n提供编码的音频表示1012。
音频编码器包括下混合器1020,其可以对应于上述的任何下混合器。下混合器1020被配置为基于多个输入音频信号的(复数值)频谱域表示来提供下混合信号1022。此外,音频编码器被配置为对下混合信号1022进行编码,以获得编码的音频表示1012。
音频编码器可以使用任何已知的编码技术以便对下混合信号进行编码,例如,aac型编码或基于lpc的编码。此外,音频编码器可以可选地提供描述下混合的附加辅助信息(例如,下混合信号中的输入信号的加权)或音频编码领域中已知的任何其他辅助信息。
10.实现备选方案
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件设备(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、dvd、蓝光、cd、rom、prom、eprom、eeprom或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,能够与可编程计算机系统协作,使得执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另外的实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传送计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的装置或本文描述的装置的任何组件可以至少部分地在硬件和/或软件中实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或由软件执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
11.进一步的结论
进一步得出结论,当对n声道输入信号进行下混合时,为了获得m声道输出信号(n>m),可能会发生不良效果。这些效果可以以声音着色、环境操纵、语音清晰度降低和其他伪像的形式表现出来。
为了克服这些影响,可以并行地针对幅度处理响度保持下混合并且针对相位信息取得计算非自适应下混合。之后,幅度和相位合并在一起,以形成m声道输出信号。
这些考虑可以可选地引入本文公开的任何实施例中。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除