HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

使用噪声填充的音频编码器、解码器、编码及解码方法与流程

2021-01-28 14:01:25|229|起点商标网
使用噪声填充的音频编码器、解码器、编码及解码方法与流程

本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2014年7月18日、申请号为201480041813.3、发明名称为“使用噪声填充的音频编码器、解码器、编码及解码方法”的分案申请。

本发明关于一种用于多声道音频编码的噪声填充。



背景技术:

现代频域语音/音频编码系统,例如ietf[1]的opus/celt编解码器及mpeg-4he-aac[2],或者,特别是mpeg-dxhe-aac(usac)[3],用于编码音频帧,这些音频帧要么使用长变换-长区块,要么使用八个相继短变换-短区块,其取决于信号的瞬时稳定性。除此之外,对于低比特率编码,这些方案使用相同声道的伪随机噪声或低频系数并且提供工具以重建声道的频率系数。在xhe-aac,这些工具分别作为噪声填充及频谱带复制。

然而,对于非常音调的或瞬时立体声效的输入,单独的噪声填充及/或频谱带复制在非常低的比特率情况下限制可实现的编码质量,主要因为两个声道的过多的频谱系数需要被明确地传递。



技术实现要素:

因此,本发明的目的是提供用于执行多声道音频编码中的噪声填充的概念,该多声道音频编码提供更高效率的编码,特别是在非常低的比特率情况下。

本发明的目的由所附独立权利要求的主题实现。

本发明是基于如下发现:在多声道音频编码中,如果使用噪声填充源而不是人工产生的噪声或相同声道的频谱复制来执行声道的零量化比例因子频带的噪声填充,可实现编码效率的提升。尤其是,基于使用来自多声道音频信号的先前帧或当前帧的不同声道的频谱线产生的噪声,通过执行噪声填充,多声道音频编码的效率可以呈现更高的效率。

通过使用多声道音频信号的先前帧的频谱共置的频谱线,或使用多声道音频信号的其它声道的频谱时序共置的频谱线,这能够实现重建的多声道音频信号的更舒适的质量,特别在非常低的比特率时,编码器需要接近零量化的频谱线的情况,以作为整体的零量化比例因子带。由于噪声填充的提升,编码器的质量损失更少,则可以选择零量化更多的比例因子带,从而提高编码效率。

根据本发明实施例,用于执行噪声填充的源与用于执行复值立体声预测的源部分地重迭。尤其是,先前帧的降混可以被使用作为噪声填充的源以及共享为执行或至少增强虚拟部分估计以应用于执行复声道间预测的源。

根据实施例,现有的多声道音频编解码器以反向兼容的方式被延伸,以便以逐帧方式发出信号,应用于声道间噪声填充。依照下面所述的具体实施例,例如信号作用于反向兼容的方式延伸xhe-aac,并且利用有条件地编码的噪声填充参数的未使用状态,使信号开启及关闭声道间噪声填充。

附图说明

本发明的有利的实施是从属权利要求的主题。以下参考附图描述本发明的优选实施例,其中:

图1示出根据本发明实施例的参数化频域解码器的框图;

图2示出描述频谱序列的示意图,该频谱序列形成多声道音频信号的声道的频谱图,以容易理解图1的解码器的描述;

图3示出描述图2所示的频谱图之外的当前频谱的示意图,以容易理解图1的解码器的描述;

图4示出另一实施例的参数化频域音频解码器的框图,该参数化频域音频解码器的先前帧的降混被用作声道间噪声填充的基底,其中图4a涉及频谱所属于的第一声道的解码,图4b涉及其他声道的解码;以及

图5示出实施例的参数化频域音频编码器的框图。

具体实施方式

图1示出根据本发明实施例的频域音频解码器。该解码器通常使用标号10标示,并且该解码器包含比例因子频带识别器12、去量化器14、噪声填充器16及逆变换器18及频谱线提取器20,以及比例因子提取器22。解码器10可能包括的可选的进一步的元件包含复立体声预测器24、ms(mid-side,中间-两侧)解码器26及逆tns(temporalnoiseshaping,瞬时噪声整形)滤波工具,图1示出逆tns滤波工具的两个实例28a及28b。除此之外,使用标号31表示的降混供应器示出及详细介绍如下。

图1的频域音频解码器10是支持噪声填充的参数化解码器,根据该参数化解码器,使用比例因子带的比例因子对某个零量化比例因子带填充噪声,该参数化解码器作为工具以控制填充于该比例因子带的噪声的水平。除此之外,图1的解码器10代表多声道音频解码器,用于重建来自入站(inbound)数据流30的多声道音频信号。然而,图1聚焦于解码器10中涉及重建多声道音频信号之一的元件,多声道音频信号被编码于数据流30并输出位于输出端32的(输出)声道。标号34表示解码器10可包含进一步的元件或可以包含一些管线的操作控制,用于负责重建多声道音频信号的其它声道,其中以下描述指示位于输出端32的感兴趣声道的解码器10的重建如何与其它声道的解码交互作用。

数据流30表示的多声道音频信号可包含两个或多个声道。如下所述,本发明的实施例的描述专注于立体声案例,立体声案例是仅包含两个声道的多声道音频信号,但是原则上,下述提出的实施例可以容易的被变换成可选的实施例,即关于多声道音频信号及其包含两个以上声道的编码。

如下图1的描述中将更清楚的示出,图1的解码器10是变换解码器,亦即根据解码器10的编码方法,声道被编码于变换域,例如使用声道的重迭变换。此外,依据音频信号的创建器,存在时间相位,在这些时间相位期间,音频信号的声道大部分代表相同的音频内容,彼此之间仅存在它们之间的微量或确定性改变的不同之处,例如不同的振福及/或相位以代表音频场,其中声道之间的不同使音频场的音频源的虚拟位置能够相关于虚拟扬声器的位置,该虚拟扬声器位置与多声道音频信号的输出声道相关联。然而,在一些其它瞬时相位,音频信号的不同声道可以几乎彼此非相关,且甚至可代表完全不同的音频源。

为了说明音频信号的声道之间会随时间改变的可能的关系,图1的解码器10下方的编解码器允许随时间改变的不同测量的用法,以利用声道间冗余。例如,ms编码允许代表立体声音频信号的左声道及右声道之间的切换,或作为一对m(中间)声道及s(侧边)声道代表左声道及右声道的降混,并且分别减半它们之间的差异。即,在频谱时序的程度上,两个声道的频谱连续地被数据流30变换,但这些(传输的)声道的含义可以分别随时间及相对于输出声道而改变。

复立体声预测(另一个声道间冗余开发工具)在频谱域里通过使用另一声道的频谱共置线能够预测一个声道的频谱域系数或频谱线。关于这点的更多细节描述如下。

为了方便理解下面关于图1及其中示出的元件的描述,图2示出数据流30表示的立体声音频信号的示例性例子,对于两声道的频谱线如何取样数值,有一可能的方法是将两声道的频谱线编码于数据流30,以通过图1的编码器10来处理。尤其是,图2的上半部分显示立体声音频信号的第一信道的频谱图40,图2的下半部分显示立体声音频信号的其它声道的频谱图42。再者,值得注意的是,频谱图40及42的“含义”可能会随着时间而改变,例如由于在ms编码域及非ms编码域之间的随时间改变的切换。在第一实施例中,频谱图40及42分别地涉及m声道及s声道,其中在后面的例子中,频谱图40和42涉及左声道和右声道。ms编码域及非ms编码域之间的切换可以被信号化于数据流30。

图2示出在随时间改变的频谱时序分辨率上,频谱图40及42可以被编码于数据流30。举例来说,两个(传输)声道可以以时间同步的方式细分成帧序列,并且用大括号44标示,大括号44可以是相同长度并且彼此相连但没有重迭。如刚才所提到的,被表示于数据流30的频谱图40及42的频谱分辨率可以随时间而改变。起初,对频谱图40及42而言,假设频谱时序分辨率随时间的改变是相同的,但在下面的描述中将可明显的看到该简化的延伸也是可行的。频谱时序分辨率的改变,例如以帧44为单位被信号化于数据流30,亦即频谱时序分辨率以帧44为单位而改变。在频谱图40及42的频谱时序分辨率中的改变可通过切换变换长度及变换数量来实现,这被用于描述每个帧44内的频谱图40及42。在图2的示例中,以帧44a及帧44b为例,为了取样帧内音频信号的声道,通过使用长变换产生最高频谱分辨率,且对于每个声道的每个这种帧,每个频谱线具有一个频谱线取样值。在图2中,频谱线的取样值在格子内使用小叉来标示,反过来,格子被排列成行及列,并将代表频谱时序网格,每列频谱时序网格对应于一个频谱线及每行频谱时序网格对应于帧44的次时间间隔,帧44对应于参与形成频谱40及42的最短变换。尤其是,图2示出,例如对于帧44d,帧可能可选地使用较短长度的连续变换,从而导致如帧44d此类的帧产生降低的频谱分辨率的数个时序连续频谱。以八个短变换被用于帧44d为示例,所述之八个短变换在帧42d内产生之频谱图40及42之一频谱时序取样,并且在频谱线彼此间隔开,使得仅有第八个频谱线被填充,但是对于八个变换窗口或用于变换帧44d的较短长度的变换中的每一个均有取样值。为了说明目的,图2示出帧的其它数量的变换也是可行的,例如对于帧44c,变换长度的两个变换的使用,举例来说,对于帧44a及44b,长变换的半个变换长度产生时序频谱的网格或频谱图40及42的取样,其中每第二个频谱线获得两个频谱线取样值,上述两个频谱线取样值的其中一个为主变换,另一个为尾随变换。

帧被细分为变换的变换窗口示出在图2下方,其中每个频谱图使用交迭窗口状线。时序重迭用于例如时域混叠消除(time-domainaliasingcancellation,tdac)的目的。

尽管如此,但在下面进一步描述的实施例也可以以另一种方式来实现,图2示出在不同频谱时序分辨率之间切换的情况,执行单个帧44,使得对于每个帧44,相同数量的频谱线值(频谱线值由图2中的小叉标示)产生频谱图40及42,差异仅在线的频谱时序的取样方式,对应于各个帧44,线对各个频谱时序片频谱时序地取样,在时间上跨越各个帧44的时间,并且在频谱上从零频率跨越到最大频率fmax。

图2示出关于帧44d,通过合适地分配频谱线取样值,所有的帧44可获得相似的频谱,频谱线取样值属于相同的频谱线但不属于在一个声道的一个帧内的短变换窗口,在图2中使用箭头,箭头从在帧内未被占用的(空的)频谱线指向相同帧的下一个被占用的频谱线。这样得到的频谱在以下称为“交错频谱”。在交错中,一个声道的一个帧的n个变换,例如,在频谱上随后的频谱线的n个短变换的n个频谱共置频谱线值的集合跟随之前,该n个短变换的频谱共置频谱线值相互跟随。交错的中间形式也是可行的,以及:代替交错一个帧的所有频谱线系数,仅交错帧44d的短变换的适当的子集合的频谱线系数是可行的。在任何情况中,无论何时讨论对应于频谱图40及42的两个声道的帧的频谱,这些频谱可以参考交错的或非交错的频谱。

为了有效率地编码频谱线系数,对编码频谱线系数进行量化,此频谱线系数表示通过数据流30传输到解码器1的频谱图40及42。为了频谱时序地控制量化噪声,量化步骤的大小通过比例因子控制,比例因子被设定于一定的频谱时序网格。尤其是,在每个频谱图的每个频谱顺序中,频谱线被分组成频谱连续不重迭的比例因子组。图3在其上半部分示出频谱图40的频谱46以及在频谱图42之外的共时序频谱48。如图所示,频谱46及48沿着频谱轴f被细分为比例因子带,用于将频谱线分组成不重迭的组。比例因子带在图3中使用大括号50示出。为了简化起见,假设频谱46及48的比例因子带之间的边界互相重合,但此情况并不是必须的。

也就是说,通过在数据流30中编码的方式,频谱图40及42中的每个分别被细分为时序的频谱,并且这些频谱中的每个皆被频谱化细分成比例因子带,并且对于每个比例因子带,数据流30对对应于各个比例因子带的比例因子进行编码或传递信息。落入各个比例因子带50的频谱线系数可以使用各个比例因子而被量化,或是当考虑解码器10时,可以使用相对应的比例因子带的比例因子来去量化。

再次参阅图1及其描述之前,以下将假设特别处理过的声道为频谱图40的传输声道,亦即除了元件34以外,图1的解码器的特定元件都将参与解码,正如上面所述,频谱图40的传输声道可以表示为左声道和右声道、m声道或s声道中的一个,假设被编码成数据流30的多声道音频信号是立体声音频信号。

当频谱线提取器20用于提取频谱线数据,亦即来自数据流30的帧44的频谱线系数,比例因子提取器22用于为每个帧44提取对应的比例因子。为此,提取器20及22使用熵解码。根据实施例,比例因子提取器22用于使用上下文适应性熵解码连续地从数据流30提取比例因子,例如图3中的频谱46,亦即比例因子带50的比例因子。连续的解码的次序可依据频谱的次序,例如频谱次序被定义为比例因子带从低频率到高频率的次序。比例因子提取器22可以使用上下文适应性熵解码,并且根据在当前提取的比例因子的频谱邻区中的已经提取的比例因子(例如根据前一个比例因子带的比例因子)确定每个比例因子的上下文。或者,比例因子提取器22可以从数据流30预测解码比例因子,例如当基于任何先前已解码的比例因子(例如前一个比例因子)来预测当前解码的比例因子时,使用差分解码(differentialdecoding)。值得注意的是,比例因子提取的过程与比例因子带的比例因子无关,该比例因子带完全由零量化的频谱线所填充,或是由至少有一个被量化成非零值的频谱线所填充。属于由零量化的频谱线填充的比例因子带的比例因子,可做为后续解码比例因子的预测基础,此后续解码比例因子属于由含有一个非零值的频谱线填充的比例因子带;且根据先前解码比例因子而被预测,此先前解码比例因子可能属于由含有一个非零值的频谱线所填充的比例因子带。

仅仅为了完整性的目的,应该注意的是:频谱线提取器20提取频谱线系数,比例因子带50同样地使用例如熵编码且/或预测编码来进行频谱线系数填充,熵编码可以根据在当前解码的频谱线系数的频谱时序邻区中的频谱线系数使用上下文适应性。同样地,此预测可为频谱预测、时序预测或频谱时序预测,其基于在频谱线系数的频谱时序邻区中的先前解码的频谱线系数,来预测当前解码的频谱线系数。为了增加编码的效率的目的,频谱线提取器20可用于执行频谱线或元组中的线系数的解码,其沿着频率轴收集或分组频谱线。

因此,在频谱线提取器20的输出端,提供频谱线系数,例如频谱46以频谱为单位收集例如相应帧的所有频谱线系数,或可选地收集对应帧的特定短变换的所有频谱线系数。接着,在比例因子提取器22的输出端,输出各个频谱的对应比例因子。

比例因子频带识别器12以及去量化器14具有耦接至频谱线提取器20的输出端的频谱线输入端,且去量化器14及噪声填充器16具有耦接至比例因子提取器22的输出端的比例因子输入端。比例因子频带识别器12用于辨识当前的频谱46内所谓的零量化比例因子带,亦即其内的所有频谱线均被量化为零的比例因子带,例如图3的比例因子带50c,而频谱的剩余比例因子频带内至少一个频谱线被量化成非零。尤其是,在图3中,频谱线系数使用阴影区域来标示。从频谱46可见,除了比例因子带50b外,其它所有比例因子带(这里示例性地,比例因子带50a和50c至50f)具有至少一个频谱线,并且该至少一个频谱线的频谱线系数被量化成非零值。然后将清楚地看到零量化的比例因子带,例如50d,其形成声道间噪声填充,这在以下将进一步地描述。在接续描述之前,应该注意到的是比例因子频带识别器12的辨识可能限制于仅在比例因子带50的适当的子集合上的辨识,例如限制于在特定开始频率52以上的比例因子带。在图3中,这将限制在比例因子带50d、50e及50f上的辨识过程。

比例因子频带识别器12向噪声填充器16告知零量化的比例因子带。去量化器14使用与入站频谱46相关的比例因子,以达到根据相关的比例因子(亦即与比例因子带50相关的比例因子)对频谱46的频谱线的频谱线系数进行去量化或调整比例。特别的是,去量化器14对落入各个比例因子带的频谱线系数进行去量化以及调整比例,其中各个比例因子带具有与各个比例因子带相关的比例因子。图3将说明显示频谱线的去量化结果。

噪声填充器16获得零量化比例因子带的信息,其形成以下噪声填充的主题,量化的频谱,及至少那些被识别为零量化比例因子带的比例因子带的比例因子,以及从数据流30获得的当前帧的信号,用于揭露声道间噪声填充是否用于当前帧。

下面的示例描述的声道间噪声填充过程实际上包括两类噪声填充,即本底噪声54的插入,涉及已被量化为零的所有频谱线,不论它们潜在的归属关系是属于任何零量化的比例因子带;以及实际声道间噪声填充程序。虽然下文中描述该组合,但是应当强调根据另一实施例可省略本底噪声插入。此外,从数据流30获得的关于当前帧的噪声填充的开启及关闭的信号,可能仅相关于声道间噪声填充,或是可以同时控制两种噪声填充的组合。

就本底噪声插入而言,噪声填充器16可以操作如下。尤其是,噪声填充器16可以采用人工噪声产生方式,例如使用伪随机数字产生器或一些其它随机源来填充频谱线,该频谱线的频谱线系数系为零。插入于零量化的频谱线的本底噪声54的水平线可根据在数据流30内当前帧或当前频谱46的明确的信号来设定。例如,可使用均方根(rms)或能量测量器来确定本底噪声54的“水平”。

因此,本底噪声插入表示对于已经被识别为零量化的比例因子频带(例如图3中的比例因子频带50d)的一种预填充。它也会影响零量化的比例因子频带之外的其它比例因子频带,但是后者进一步使用下述声道间噪声填充。如下所述,声道间噪声填充过程是填满零量化的比例因子频带来达到填满水平,此填满水平通过各个零量化比例因子频带的比例因子来控制。由于各个零量化比例因子频带的所有频谱线被量化为零,为此可以直接使用后者。然而,对于普遍地应用于相对应的帧或频谱46的所有零量化比例因子频带的比例因子及结果的每个帧或每个频谱46,当在个别地应用于零量化比例因子频带的各个填满水平中,通过噪声填充器16应用至零量化的比例因子频带的比例因子时,数据流30可包含参数的额外信号化。也就是说,对于频谱46的每个零量化比例因子频带,噪声填充器16可以使用相同的修改功能,使用刚提到包含于数据流30的参数应用于当前帧的频谱46来修改各个比例因子频带的比例因子,以获得用于各个零量化比例因子频带测量的填满目标水平,根据能量或rms,举例来说,水平达到声道间噪声填充过程将用(可选地)额外噪声(除了本底噪声54)填满各个零量化比例因子频带。

尤其是,为了执行声道间噪声填充56,噪声填充器16获得其它声道的频谱48的已经大部分或完全被解码的状态下的频谱共置部分,并且将获得的频谱48的部分(该部分频谱共置至零量化比例因子频带)复制至零量化比例因子频带,该部份使用下列方法调整比例,此方法通过对各个比例因子频带的频谱线作积分,以得到零量化比例因子频带内的全部噪声水平,等同于前述从零量化比例因子频带的比例因子获得的填满目标水平。通过此方法,填充至各个零量化比例因子频带的噪声音调较之于人工产生的噪声(例如形成本底噪声54的基底的噪声)有改善,并且此方法也比从在相同频谱46内的极低频线处进行的无控制的频谱拷贝/复制更好。

为了更加精确,对于当前频带例如50d,噪声填充器16设置于其它声道的频谱48内的频谱共置部分,使用刚才描述的方法,按比例调整当前频带的频谱线,该频谱线取决于零量化比例因子频带50d的比例因子,选择性地,对于当前帧或频谱46,将一些额外的补偿或是噪声因子参数包含于数据流30,使其结果将各个零量化比例因子频带50d填满至理想水平,该理想水平是定义为零量化比例因子频带50d的比例因子。在本实施例中,这意味着该填充是相对于本底噪声54以另外的方式进行的。

根据简化的实施例,所得到的噪声填充频谱46将直接被输入至逆变换器18的输入端,从而对于频谱46的频谱线系数所属于的每个变换窗口,获得各个声道音频时间信号的时域部分,据此(图1中未示出)重迭附加过程可组合这些时域部分。也就是说,如果频谱46为非交错频谱,则频谱46的频谱线系数仅属于一个变换,然后由逆变换器18进行此变换以产生一个时域部分,此时域部分的前端及尾端使用重迭附加过程,通过逆变换先前和随后的逆变换以实现例如时域混叠消除而获得前端及尾端时域部分。然而,如果频谱46中有一个以上的连续变换的交错的频谱线系数,则逆变换器18将使用相同的分离逆变换,以在每个逆变换获得一个时域部分,并且根据由此定义的时序顺序,这些时域部分将使用其中的重迭附加过程,并且时域部分相关于其它频谱或帧的前端及尾端的时域部分。

然而,为了完整性的目的,应当注意的是可能对噪声填充频谱执行进一步处理。如图1所示,逆tns滤波器可能对噪声填充频谱进行逆tns滤波。也就是说,对于当前帧或频谱46,通过tns滤波器系数控制,到当前为止所获得的频谱使用沿着频谱方向的线性滤波。

无论有没有逆tns滤波,复立体声预测器24可把频谱当作声道间预测的预测残差。更具体地,声道间预测器24可以使用其它声道的频谱共置部分预测频谱46,或使用至少其比例因子频带50的子集合。复数预测过程在图3中用虚线框58示出,此复数预测过程相关于比例因子频带50b。也就是说,数据流30可能包含声道间预测参数控制,例如,比例因子频带50的声道间预测参数控制将被进行声道间预测,并且声道间预测参数控制将不使用这种方式进行预测。更进一步,数据流30中的声道间预测参数可能更包含由声道间预测器24所施加的多个声道间预测因子,用于获得声道间预测结果。对于每个比例因子频带或者可选地一个或多个比例因子频带中的每组,这些因子可能分别地包含于数据流30,在数据流30中为这些因子启动声道间预测或信号化启动声道间预测。

如图3所示,声道间预测的来源可能为其它声道的频谱48。更精确的来说,声道间预测的来源可以为频谱48的频谱共置部分,经比例因子频带50b的虚部估计的扩展,共置于待进行声道间预测的比例因子频带50b,虚部估计可基于频谱48自身的频谱共置部分60来进行,及/或可能使用先前帧的已经解码的声道的降混,即紧接于频谱46所属于的当前已解码的帧的帧。实际上,声道间预测器24加入至待被进行声道间预测的比例因子频带,如图3中的比例因子频带50b,即以刚才描述的方式来获得预测信号。

如在前面的描述中已经指出的,频谱46所属于的声道可能为ms编码声道,或可能为与声道相关的扬声器,例如立体声音频信号的左声道或右声道。因此,可选择地,ms解码器26控制可选择地声道间预测频谱46进行ms解码,每个频谱线或频谱46使用相同的方式进行,对应于频谱48的其它声道的相应的频谱线的频谱增加或减少。举例来说,尽管图1中未示出,但图3中示出的频谱48已经由解码器10的部分34使用相似于上面所描述的方式获得,关于频谱46所属于的声道及ms解码模块26,在执行ms解码时,使频谱46及48使用频谱类似线性地增加或频谱类似线性地减少,并且频谱46及48皆在处理线内相同阶段,意味着两个频谱刚经由声道间预测获得,例如,或者是两个频谱图刚经由噪声填充或经由逆tns滤波获得。

应当注意的是,可选择性地,ms解码可以使用下列方法进行,此方法系全局性地涉及整个频谱46,或是被数据流30例如以比例因子频带50为单位分别地启用。换句话说,可以在数据流30中使用各个信号作用,例如以帧或一些精密的频谱时序分辨率为单位,例如分别地对于频谱图40及/或42的频谱46及/或48的比例因子频带,来开启或关闭ms解码,其中假设定义了两声道的比例因子频带的相同边界。

如图1所示,在任何声道间处理(例如声道间预测58或使用ms解码器26进行的ms解码)之后,也可以执行逆tns滤波器28进行的逆tns滤波。在前面或下面的性能中,对于在数据流30的每一帧或在在间隔尺寸的其它水平,可以通过各个信号作用来固定或控制声道间处理。无论在何处进行逆tns滤波,对于当前的频谱46,出现于数据流的各个tns滤波系数系控制tns滤波器,即沿着频谱方向运行的线性预测滤波器,以将入站频谱线性地滤波至各个逆tns滤波模块28a及/或28b。

因此,在逆变换器18的输入端到达的频谱46可已经使用刚描述的进一步的处理。再次,以上描述不意味着以这样的方式来理解,所有这些可选工具并存或不并存。这些工具可部分地或全部地存在于解码器10中。

在任何情况中,在逆变换器的输入端产生的频谱代表声道的输出信号的最终重建,并且形成上述的用于当前帧的降混的基底,如所描述的复数预测58,该基底作为待解码的下一帧的虚部估计的基底。除了在图1中的元件34,它还可作为用于声道间预测另一声道的最终重建。

通过由降混供应器31将最终的频谱46与频谱48的各个最终版本组合形成各个降混。后者,即频谱48的各个最终版本系形成预测器24中的复声道间预测的基底。

先前帧的频谱共置频谱线的降混代表声道间噪声填充的基底,图4示出在这个范围内的相对于图1的另一种可选情况,使得在使用复数声道间预测的可选情况中,该复声道间预测的来源被使用两次,作为声道间噪声填充的来源,以及作为在复声道间预测中的虚部估计的来源。图4示出解码器10,解码器10包含部分70以及上述之其它部分34的内部结构,部分70涉及频谱46所属于的第一声道的解码,部分34涉及其它声道的解码,包括频谱48。一方面部分70及另一方面部分34的内部元件使用相同的标号。可以看到两部分的结构是相同的。在输出端32,立体声频信号的一个声道为输出,以及在第二解码部分34的逆变换18的输出端处,立体声频信号的另一个(输出)声道产生标号72指示的这个输出。此外,上述实施例可以容易地转换为使用两个以上声道的情况。

部分70及34共享降混供应器31,降混供应器31接收频谱图40及42的时序共置频谱48及46以形成降混,据此频谱线基底将这些频谱叠加于频谱线上,潜在地通过在每个频谱线的总值除以降混声道的数量以形成此平均值,即图4的情况中的两种。在降混供应器31的输出端,先前帧的降混经由此方法产生。值得注意的是,如果先前帧包含频谱图40及42中之一的一个以上的频谱,则关于降混供应器31如何在那种情况下操作存在不同的可能性。举例来说,在那种情况下,降混供应器31可以使用当前帧的尾部变换的频谱,或是可以使用频谱图40及42的当前帧的交错所有频谱线系数的交错结果。图4中示出的连接至降混供应器31的输出端的延迟元件74示出,因此在降混供应器31的输出端提供的降混形成先前帧76的降混(分别参照图3关于声道间噪声填充56及复数预测58)。因此,延迟元件74的输出端一方面连接至解码器部分34及70的声道间预测器24的输入端,另一方面连接至解码器部分34及70的噪声填充器16的输入端。

也就是说,在图1中,噪声填充器16接收同一个当前帧的其它声道的最终重建的时序共置频谱48,以作为声道间噪声填充的基底,在图4中,取代基于由降混供应器31提供的先前帧的降混,而是进行声道间噪声填充。也就是说,在图1的情况中,从当前帧的其它声道的频谱的各个频谱中攫取频谱共置部分,从先前帧中获得的大部分或完全解码的最终频谱代表先前帧的降混,在图4的情况中,将相同“源”部分加入至待噪声填充的比例因子频带内的频谱线(例如图3的50d),频谱线根据各个比例因子频带的比例因子确定的目标噪声水平而被按比例调整。

从描述在音频解码器中的声道间噪声填充的实施例的上述描述可用得出,对本领域技术人员而言是明显的,在将“源”频谱的攫取出的频谱或时序共置部分加入至“目标”比例因子频带的频谱线之前,可以在不脱离声道间填充的一般概念下将一定的预处理应用至“源”频谱线。尤其是,将滤波操作(例如频谱平坦化或倾斜去除)施加至待添加至“源”比例因子频带的“源”区域的频谱线,如图3中的50d,以改进声道间噪声填充过程的音频质量。同样地,作为大部分地(而非全部地)已解码的频谱的示例,前述“源”部分可以从尚未经过逆tns(即合成)滤波器过滤的频谱获得。

因此,上述实施例是关于声道间噪声填充的概念。在下文中,描述了上述声道间噪声填充的概念如何以半向后兼容的方式内置于现有的编解码器(即xhe-aac)的可能性。尤其是,下文描述上述实施例的较佳的实施方式,据此,立体声填充工具被以半向后兼容的信号化方式内置至基于xhe-aac的音频编解码器。通过运用以下进一步描述的实施方式,对于一定的立体声信号,基于mpeg-dxhe-aac(usac)的音频编解码器中的两个声道中的任何一个中的变换系数的立体声填充是可行的,从而改善一定的音频信号的编码质量,尤其是低比特率的音频信号。立体声填充工具被半向后兼容地信号化,以使传统的xhe-aac解码器能够解析及解码比特流而没有明显的音频错误或压降。如上面已经描述的,如果音频编码器能够使用两个音频声道的先前已解码/量化的系数的组合来重建任一个当前已解码的声道的零量化(非变换)系数,则能够实现较佳的整体质量。因此,除了音频编码器中的频带复制(从低频率到高频率的声道系数)以及噪声填充(从不相关的伪随机源),也希望允许这样的立体声填充(从先前的声道系数到当前的声道系数),尤其是xhe-aac或基于xhe-aac的编码器。

为了允许已编码的比特流具有被传统的xhe-aac解码器读取及解析的立体声填充,所期望的立体填充工具应以半向后兼容的方式被使用:它的存在不应该引起传统的解码器停止或者甚至无法启动解码。通过xhe-aac基础结构来读取比特流亦也可以增进市场的采用。

为达到上述xhe-aac的上下文中或其潜在推导中的立体声填充工具的半向后兼容性的期望,下述实施方式涉及立体声填充的功能,以及在实际上关于噪声填充的数据流中通过语法对立体声填充进行信号化的能力。噪声填充工具将符合上述描述。在具有共有窗口配置的声道对中,当立体声填充工具被启用时,零量化比例因子频带的系数是噪声填充的替代(或者是如上所述除了噪声填充的可选择项),此系数通过两声道中的任一个声道(优选地为右声道)中的先前帧的系数的和或差值来重建。立体声填充类似于噪声填充。将通过xhe-aac的噪声填充信号化来完成信号化。立体声填充通过8-比特噪声填充侧信息来进行。即使所施加的噪声填充级为零,但由于mpeg-dusac标准[4]指出所有8-比特被传输,故此方式为可实行的。而在这种情况下,噪声填充比特可以重新被用于立体声填充工具。

以下可以确保关于通过传统xhe-aac解码器的比特流解析及重放的半向后兼容性。立体声填充通过零噪声水平(即均具有零值的前三个噪声填充比特)来发出信号,该零噪声水平之后是包含用于立体声填充工具和丢失的噪声水平的侧信息的五个非零比特(其传统地表示噪声补偿)。由于当3-比特噪声水平为零时,传统xhe-aac解码器忽视5比特噪声补偿的值,故立体声填充工具信号化的存在对于传统解码器中的噪声填充仅有一个影响:由于前三个比特值为零,故噪声填充被关闭,剩余的解码操作仍如预期的进行。尤其是,由于立体声填充用类似于被退激活的噪声填充过程来操作,故不进行这样的立体声填充。因此,传统解码器仍提供增强比特流30的“完美”解码,因为当到达具有开启的立体填充的帧时,这不需要消除输出信号或甚至中止解码。当然,传统解码器不能提供立体声填充线系数的校正的预期重建,与通过能够合适地处理新立体声填充工具的合适的解码器进行的解码相比,导致受影响的帧的质量恶化。尽管如此,假设打算使用立体声填充工具,即,仅在低比特率的立体声输入端,如果受影响的帧将因为静音而退出或导致其它明显的重放错误,通过xhe-aac解码器的质量应当比这更好。

在下文中详细描述了立体声填充工具如何可以作为扩展内置于xhe-aac编解码器。

当被内置于标准时,立体声填充工具可描述如下。尤其是,该立体声填充(sf)工具将代表mpeg-h3d音频的频域(fd)部分的新工具。根据上述讨论,这种立体声填充工具的目的在于低比特率的mdct频谱系数的参数化重建,类似于利用根据在文献[4]描述的标准的7.2节中的噪声填充已经能够实现的参数化重建。然而,不同于使用伪随机噪声源用于生成任何fd声道的mdct频谱的噪声填充,使用先前帧的左mdct频谱及右mdct频谱的降混,sf也将可用于重建联合编码立体声对声道的右声道的mdct值。根据下面列出的实施例,sf通过噪声填充侧信息的方式被半向后兼容地发出信号,其中噪声填充侧信息能够被传统的mpeg-dusac解码器正确地解析。

该工具的描述如下。当sf启用在联合立体声fd帧中时,右(第二个)声道(例如50d)的空(即完全零量化)比例因子频带的mdct系数被先前帧(假设fd)的相应的已解码的左声道及右声道的mdct系数的和或差值所取代。如果传统的噪声填充启用于第二声道,则伪随机值也被添加至每个系数。每个比例因子频带产生的系数接着被按比例调整,使得每个频带的rms(平均系数的均方根)匹配经由频带的比例因子传输的值。请参阅在文献[4]的标准的第7.3节。

对于在mpeg-dusac标准中的新sf工具的使用,可以提供一些操作上的限制。举例来说,sf工具只可以用于在共同的fd声道对的右fd声道中的用途,也就是说,声道对元件对common_window==1传输stereocoretoolinfo()。除此之外,由于半向后兼容信号化,sf工具只可以当在语法容器usaccoreconfig()中noisefilling==1时使用。如果声道对中任一个声道为lpdcore_mode,即使右声道为fd模式,sf工具亦不可使用。

下文使用下列术语和定义以更清楚地描述如文献[4]中所描述的标准的扩展。

尤其是,就数据元素而言,新引入以下数据元素:

标准的解码过程将以下面的方式进行扩展。尤其是,使用sf工具的联合立体声编码的fd声道的解码被启用执行下面三个连续步骤:

首先,将进行stereo_fillingflag的解码。

stereo_filling不代表独立的比特流元件,但是可由在usacchannelpairelement()中的噪声填充元件,noise_offset及noise_level以及在stereocoretoolinfo()中的common_windowflag导出。如果noisefilling==0或common_window==0或是当前声道为元件中的左(第一)声道,则stereo_filling为零,并且立体声填充过程结束。否则,

换句话说,如果noise_level==0,则noise_offse包含其后紧跟4比特噪声填充数据的stereo_fillingflag,4比特噪声填充数据接着被重新排序。由于此操作会改变noise_level及noise_offset的值,所以需要在7.2节的噪声填充过程之前进行。此外,上述伪代码将不在usacchannelpairelement()或任何其它元件的左(第一)声道中执行。

然后,将进行downmix_prev的计算。

用于立体声填充的频谱降混downmix_prev[]与用于复立体声预测中的mdst频谱估计(第7.7.2.3节)的dmx_re_prev[]相同。这意味着:

·如果帧及组件中的任何声道进行降混,则downmix_prev[]的所有系数必须为零,也就是说,在当前解码帧之前的帧,使用core_mode==1(lpd)或是声道使用不相等的变换长度(split_transform==1或区段切换至仅一个声道中的window_sequence==eight_short_sequence)或是usacindependencyflag==1。

·如果声道的变换长度从最后改变到当前元件中的当前帧(即split_transform==1在split_transform==0之前,或window_sequence==1eight_short_sequence在window_sequence!=eight_short_sequence之前,或是分别反之亦然),则在立体声填充过程中downmix_prev[]的所有系数必须为零。

·如果变换分割被施加于先前帧或当前帧的声道中,downmix_prev[]代表逐线交错的频谱降混。详见变换分割工具。

·如果复立体声预测不用于当前帧及元件中,则pred_dir等于零。

因此,为了简化复杂度,先前降混对于两个工具仅计算一次。当复立体声预测当前没有被使用时,或是当复立体声预测被使用但是use_prev_frame==0时,在7.7.2部分中的downmix_prev[]及dmx_re_prev[]之间唯一的不同的是两者的计算方法。在这种情况下,即使复立体声预测的解码不需dmx_re_prev[]以及dmx_re_prev[]因此未定义/零,依据7.7.2.3节,downmix_prev[]仍被计算用于立体声填充解码。

在下文,将进行空比例因子频带的立体声填充。

如果stereo_filling==1,在max_sfb_ste之下的所有初始空比例因子频带sfb[]中的噪声填充过程(即所有mdct线在所有频带被量化为零)之后,执行下面的程序。首先,通过线平方和计算给定sfb[]的能量及downmix_prev[]中的相应的线,然后,给定包含每个sfb[]的线的数量的sfbwidth,

if(energy[sfb]<sfbwidth[sfb]){

facdmx=sqrt((sfbwidth[sfb]–energy[sfb])/energy_dmx[sfb]);

factor=0.0;

for(index=swb_offset[sfb];index<swb_offset[sfb+1];index++){spectrum[window][index]+=downmix_prev[window][index]*facdmx;

factor+=spectrum[window][index]*spectrum[window][index];

}

if((factor!=sfbwidth[sfb])&&(factor>0)){

factor=sqrt(sfbwidth[sfb]/(factor+1e-8));

for(index=swb_offset[sfb];index<swb_offset[sfb+1];index++){spectrum[window][index]*=factor;

}

}

}

对于每组窗口的频谱。接着,当空频带的比例因子被处理为像常规比例因子一样后,如第7.3节所描述的,将比例因子施加于产生的频谱上。

xhe-aac标准的上述扩展的替代将使用隐含的半向后兼容信号化方法。

上述xhe-aac编码架构中的实施方式描述这样的方法,此方法采用比特流中的一比特以向根据图1的解码器发射包含在stereo_filling中的新立体声填充工具的使用的信号。更确切地说,这种信号化(我们称之为明确的半向后兼容信号化)允许下列传统比特流数据(在此为噪声填充侧信息)被独立使用于sf信号:在当前的实施例中,噪声填充数据取决于立体声填充信息,并且反之亦然。举例来说,当stereo_filling可以信号化任何可能的值(二进制旗标,0或1)时,由全0(noise_level=noise_offset=0)组成的噪声填充数据可以被传输。

不要求传统的比特流数据和交错的比特流数据之间的严格的独立性以及交错的信号为二进制决策的情况下,可以避免信号比特的明确的传输,且所述二进制决策可以通过可被称为隐含的半向后兼容信号化的存在或不存在而被信号化。再次以上面实施例作为一个示例,可以通过简单采用新信号化而传输立体声填充的使用:如果noise_level为零,并且在相同的时间下,noise_offset不为零,则设定stereo_fillingflag等于1。如果noise_level及noise_offset两者皆不为零,则stereo_filling等于0。当noise_level及noise_offset皆为零时,隐含信号对于传统的噪声填充信号的依赖发生了。在这种情况下,不清楚是否正在使用传统的还是新的sf隐含信号化。为了避免这种含糊,stereo_filling的值必须事先被定义。在本示例中,如果噪声填充数据由全0组成,则定义stereo_filling=0是适当的,因为当噪声填充没有被施加于帧时,这就是没有立体声填充功能信号的传统的编码器。

在隐含的半向后兼容信号化的情况下,仍然需要解决如何信号化stereo_filling==1,并且在同一时间无噪声填充的问题。如所说明的,噪声填充数据一定不能为全0,且如果要求零噪声级别,则noise_level(上述提及的(noise_offset&14)/2)必须等于零。这使得只有noise_offset(上述提及的(noise_offset&1)*16)大于0作为解决方案。然而,当施加比例因子时,在此立体声填充的情况中考虑noise_offset,即使noise_level为零。幸运的是,编码器能够补偿零的noise_offset通过改变受影响的比例因子而不被传输的事实,使得当比特流写入时,它们包含在解码器中通过noise_offset未做的补偿。这允许上述实施例中的所述隐含的信号化以比例因子数据速率的潜在增加为代价。因此,使用保存的sf信号化比特流并利用2比特(4值)取代1比特来传输noise_offset,在上述描述的伪代码中的立体声填充的信号化可以被改变如下:

if((noisefilling)&&(common_window)&&(noise_level==0)&&(noise_offset>0)){

stereo_filling=1;

noise_level=(noise_offset&28)/4;

noise_offset=(noise_offset&3)*8;

}

else{

stereo_filling=0;

}

为了完整性的目的,图5示出根据本发明实施例的参数化音频编码器。首先,图5的编码器通常使用的标号100指示,此编码器包含变换器102,用于进行初次的变换,在图1的输出端32处重建的音频信号的非失真的版本。如图2所描述的,以帧44为单位的相应的变换窗口的不同变换长度间,可以切换使用重迭变换。以标号104标记的不同的变换长度及相应的变换窗口在图2中示出。在与图1类似的方式,图5专注于解码器100的部分,此部分负责编码多声道音频的其中一个声道,而解码器100的另一声道域部分在图5中通常使用标号106指示。

在变换器102的输出端,频谱线及比例因子皆为非量化并且基本上未发生编码丢失。由变换器102输出的频谱图进入量化器108,量化器108用于量化变换器102输出的频谱的频谱线,逐光谱地设定及使用比例因子频带的初始比例因子。也就是说,在量化器108的输出端、初始比例因子及相应的频谱线系数结果、以及噪声填充器16’的序列、选择性逆tns滤波器28a’、声道间预测器24’、ms解码器26’以及tns滤波器28b’被相继地连接,以提供图5的编码器100,如在解码器侧、在降混供应器的输入端(参考图1)可获得的,编码器100具有获得当前频谱的重建的最终版本的能力。使用声道间预测24’及/或使用声道间噪声来填充在使用先前帧的降混而形成声道间噪声的版本,在这种情况下,,编码器100还包含降混供应器31’以形成多声道音频信号的声道的频谱的重建的最终版本。当然,为了节省计算的目的,在降混的形成中,取代声道的所述频谱的最终版本,声道的所述频谱的初始的、未量化的版本可以被降混供应器31’使用。

为了进行帧间频谱预测(例如使用虚部估计进行声道间频谱预测的上述可能的版本)及/或为了进行比率控制(即在比率控制循环内,为了确定最终被编码器100编码至数据流30中的可能的参数是以比率/失真的优化感测方式设置的),编码器100可以使用频谱的可获得的重建的最终版本的信息。

举例来说,对于被识别器12’所辨识的各个零量化的比例因子频带,设置于编码器100的预测循环及/或比率控制循环的参数集合是仅仅被量化器108初始设置的比例因子频带的比例因子。在编码器100的预测及/或比率控制循环中,零量化比例因子频带的比例因子以某个心理声学上或比率/失真优化感测方式设置的,以确定上述目标噪声水平以及以上描述的也通过数据流传输至解码器侧并且应用于相应的帧的可选的修正参数。应当注意的是,比例因子只可以使用此比例因子所属(即如前面所述的“目标”频谱)的频谱及声道的频谱线来计算,或者可选地,使用“目标”声道频谱的频谱线,除此之外,其它声道频谱的频谱线或来自从降混供应器31’获得的先前帧(即如前面所介绍的“源”频谱)的降混频谱的频谱线来计算。尤其是,为了稳定目标噪声水平及减少在施加有声道间噪声填充的已解码的音频声道内的时序水平波动,目标比例因子可以使用在“目标”比例因子频带的频谱线的能量量测及在相对应的“源”区域的共置频谱线的能量量测之间的关系来计算。最后,如上面所指出,这个“源”区域可以源自于另一声道的重建的最终版本或先前帧的降混的重建的最终版本,或如果编码器复杂度降低,这个“源”区域可以源自于先前帧的频谱的相同的另一声道的初始未量化版本或者先前帧的频谱的相同的另一声道的初始未量化版本的降混。

依据特定实施例要求,本发明的实施例可以以硬件或软件的方式实施。本实施方式可以使用数字储存媒体来执行,例如软盘驱动器、dvd、blu-ray、cd、prom、eprom或是flash存储器,此数字储存媒体具有存储于其上的电子可读控制信号,该电子可读控制信号与可编程计算机系统配合(或能够配合),以使执行各个方法。因此,数字储存媒体可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统配合,以使执行本文描述的任一方法。

一般情况下,本发明的实施例能够作为具有程序代码的计算机程序产品而实施,当计算机程序产品在计算机上运行时,程序代码可操作用于任一方法。程序代码例如可被储存于机器可读载体上。

另一实施例包括计算机程序,该计算机程序储存于机器可读载体上,用于执行本文描述的任一方法。

换句话说,因此,本发明方法的实施例是计算机程序,当在计算机上执行时,计算机程序具有用于执行本文描述的任一方法的程序代码。

本发明方法的进一步的实施例是数据载体(或数字储存介质,或是计算机可读介质)其包括计算机程序,此计算机程序被记录在数据载体上并且用于执行本文描述的任一方法。数据载体、数字储存媒体或记录媒体典型地为有形体及/或非过渡体。

因此,本发明方法的进一步的实施例是数据流或信号序列,其代表用于执行本文描述的任一方法的程序代码。数据流或信号序列可以例如用于为经由数据通讯连接(例如经由因特网)而被传输。

进一步的实施例包括处理装置,例如计算机或可编程逻辑器件,处理装置用于或适用于执行本文描述的任一方法。

进一步的实施例包括计算机,计算机具有安装于其内的计算机程序,用于执行本文描述的任一方法。

根据本发明的进一步的实施例,包括装置或系统,用于传输(例如电子或光学方式传输)计算机程序至接收器,以执行本文描述的任一方法。接收器可以为例如计算机、移动装置、存储装置或类似的。装置或系统可以例如包括用于将计算机程序传输至接收器的文件服务器。

在一些实施例中,可编程逻辑器件(例如场可编程门阵列)可以用于执行本文所描述的方法的一些或全部的功能。在一些实施例中,场可编程门阵列可以与微处理器配合,以执行本文描述的任一方法。一般而言,这些方法优选地通过任何硬件装置来执行。

以上描述的实施例仅仅用于说明本发明的原理。可以理解的是,本文所描述的布置的修正及变化以及细节对于本领域技术人员将是显而易见的。因此,本发明意欲应当仅由所附的专利权利要求的范围所限定,而不是由本文实施例的描述及说明的具体细节所限定。

参考文献

[1]internetengineeringtaskforce(ietf),rfc6716,“definitionoftheopusaudiocodec,”int.standard,sep.2012.availableonlineathttp://tools.ietf.org/html/rfc6716.

[2]internationalorganizationforstandardization,iso/iec14496-3:2009,“informationtechnology–codingofaudio-visualobjects–part3:audio,”geneva,switzerland,aug.2009.

[3]m.neuendorfetal.,“mpegunifiedspeechandaudiocoding–theiso/mpegstandardforhigh-efficiencyaudiocodingofallcontenttypes,”inproc.132ndaescon-vention,budapest,hungary,apr.2012.alsotoappearinthejournaloftheaes,2013.

[4]internationalorganizationforstandardization,iso/iec23003-3:2012,“informationtechnology–mpegaudio–part3:unifiedspeechandaudiocoding,”geneva,jan.2012.

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips