用于对沉浸式音频信号进行编码及/或解码的方法及装置与流程
相关申请案的交叉参考
本申请案主张2018年7月2日提出申请的美国临时专利申请案第62/693,246号的优先权权益,所述美国临时专利申请案特此并入供参考。
本文件涉及可包括声场表示信号的沉浸式音频信号,确切来说涉及高保真度体声立复制信号。确切来说,本文件涉及提供使得能够位速率高效方式及/或以高感知质量传输及/或存储沉浸式音频信号的编码器及对应解码器。
背景技术:
可使用高保真度立体声响复制信号描述处于收听位置的收听者的收听环境内的声音或声场。高保真度立体声响复制信号可被视为多声道音频信号,其中每一声道对应于收听者的收听位置处的声场的特定方向性图案。可使用三维(3d)笛卡儿坐标系描述高保真度立体声响复制信号,其中坐标系的原点对应于收听位置,x轴指向前,y轴指向左且z轴指向上。
通过增加音频信号或声道的数目且通过增加对应方向性图案(及对应平移函数)的数目,可增大描述声场的精确性。举例来说,一阶高保真度立体声响复制信号包括4个声道或波形,即:w声道,其指示声场的全向分量;x声道,其描述具有与x轴对应的偶极方向性图案的声场;y声道,其描述具有与y轴对应的偶极方向性图案的声场;及z声道,其描述具有与z轴对应的偶极方向性图案的声场。二阶高保真度立体声响复制信号包括9个声道,所述9个声道包含一阶高保真度立体声响复制信号(也被称为b格式)的4个声道加上不同方向性图案的5个额外声道。一般来说,l阶高保真度立体声响复制信号包括(l+1)2个声道,所述(l+1)2个声道包含(l-1)阶高保真度立体声响复制信号的l2个声道加上额外方向性图案的[(l+1)2-l2]个额外声道(当使用3d高保真度立体声响复制格式时)。在l>1情况下的l阶高保真度立体声响复制信号可被称为高阶高保真度立体声响复制(hoa)信号。
hoa信号可用于独立于用于呈现hoa信号的扬声器的布置而描述3d声场。扬声器的实例性布置包括耳机或扩音器一或多种布置或者虚拟现实呈现环境。因此,将hoa信号提供到音频呈现器以允许音频呈现器灵活地适应扬声器的不同布置可以是有益的。
声场表示(sr)信号(例如高保真度立体声响复制信号)可与音频对象及/或多声道(试验台)信号互补以提供沉浸式音频(ia)信号。本文件解决以带宽高效方式在高感知质量下传输及/或存储ia信号的技术问题。通过独立技术方案解决技术问题。所附权利要求书中描述优选实例。
技术实现要素:
根据一方面,描述一种对多声道输入信号进行编码的方法。所述多声道输入信号可以是沉浸式音频(ia)信号的一部分。所述多声道输入信号可包括声场表示(sr)信号,确切来说一阶或高阶高保真度立体声响复制信号。所述方法包括从所述多声道输入信号确定多个降混声道信号。此外,所述方法包括对所述多个降混声道信号实行能量压缩以提供多个经压缩声道信号。另外,所述方法包括基于所述多个经压缩声道信号且基于多声道输入信号确定联合译码元数据(确切来说,空间音频分辨率重构spar元数据),其中联合译码元数据使得其允许将所述多个经压缩声道信号升混成多声道输入信号的近似值。所述方法进一步包括对所述多个经压缩声道信号及所述联合译码元数据进行编码。
根据另一方面,描述一种从指示多个经重构声道信号的经译码音频数据且从指示联合译码元数据的经译码元数据确定经重构多声道信号的方法。所述方法包括对所述经译码音频数据进行解码以提供所述多个经重构声道信号且对所述经译码元数据进行解码以提供所述联合译码元数据。此外,所述方法包括使用所述联合译码元数据从所述多个经重构声道信号确定所述经重构多声道信号。
根据另一方面,描述一种软件程序。所述软件程序可适于在处理器上执行且当在处理器上施行时实行本文件中所概述的方法步骤。
根据另一方面,描述一种存储媒体。所述存储媒体可包括适于在处理器上执行的软件程序及当在所述处理器上施行时实行本文件中所概述的方法步骤。
根据另一方面,描述一种计算机程序产品。所述计算机程序可包括当在计算机上执行时实行本文件中所概述的方法步骤的可执行指令。
根据另一方面,描述一种用于对多声道输入信号及/或沉浸式音频(ia)信号进行编码的编码单元或编码装置。所述编码单元经配置以从多声道输入信号确定多个降混声道信号。此外,所述编码单元经配置以对所述多个降混声道信号实行能量压缩以提供多个经压缩声道信号。另外,所述编码单元经配置以基于所述多个经压缩声道信号且基于多声道输入信号确定联合译码元数据,其中所述联合译码元数据使得允许将所述多个经压缩声道信号升混成多声道输入信号的近似值。所述编码单元进一步经配置以对所述多个经压缩声道信号及所述联合译码元数据进行编码。
根据另一方面,描述一种用于从指示多个经重构声道信号的经译码音频数据且从指示联合译码元数据的经译码元数据确定重构多声道信号的解码单元或解码装置。所述解码单元经配置以对经译码音频数据进行解码以提供所述多个经重构声道信号且对所述经译码元数据进行解码以提供所述联合译码元数据。此外,所述解码单元经配置以使用所述联合译码元数据从所述多个经重构声道信号确定所述经重构多声道信号。
应注意,本专利申请案中所概述的方法、装置及系统(包含其优选实施例)可单独使用,或者与本文件中所揭示的其它方法、装置及系统组合使用。此外,可任意地组合本专利申请案中所概述的方法、装置及系统的所有方面。确切来说,技术方案的特征可彼此任意地组合。
附图说明
下文参考附图示范性地阐释本发明,其中
图1展示实例性译码系统;
图2展示用于对沉浸式音频信号进行编码的实例性编码单元;
图3展示用于对沉浸式音频信号进行解码的另一实例性解码单元;
图4展示用于对沉浸式音频信号进行编码及解码的实例性编码单元及解码单元;
图5展示具有模式切换的实例性编码单元及解码单元;
图6展示实例性重构模块;
图7展示用于对沉浸式音频信号进行编码的实例性方法的流程图;且
图8展示用于对指示沉浸式音频信号的数据进行解码的实例性方法的流程图。
具体实施方式
如上文所概述,本文件涉及对沉浸式音频(ia)信号(例如,一阶高保真度立体声响复制(foa)或hoa信号、多声道及/或对象音频信号)进行高效译码,其中尤其地foa或hoa信号在本文中更常被称为声场表示(sr)信号。
如介绍性章节中所概述,sr信号可包括相对高数目个声道或波形,其中不同的声道与不同的平移函数及/或不同的方向性图案有关。举例来说,l阶3dfoa或hoa信号包括(l+1)2个声道。sr信号可以各种不同的格式表示。
声场可被视为由从收听位置周围的任意方向发出的一或多个声波事件组成。因此,一或多个声波事件的位点可界定在球体的表面上(其中收听位置或参考位置在球体的中心处)。
声场格式(例如,foa或高阶高保真度立体声响复制(hoa))经定义以允许经由任意扬声器布置(即任意呈现系统)呈现所述声场。然而,呈现系统(例如,杜比全景声系统)通常在扬声器的可能海拔高度固定到经界定平面数目(例如耳朵高度(水平)平面、天花板平面或上平面及/或地板平面或下平面)方面受到局限。因此,可将理想球形声场的概念修改成在球体表面上位于各种高度处的不同环(类似于构成蜂巢的堆叠环)中的声波对象组成的声场。
如图1中所展示,音频译码系统100包括编码单元110及解码单元120。编码单元110可经配置以基于输入信号111产生供传输到解码单元120的位流101,其中输入信号111可包括沉浸式音频信号(例如用于虚拟现实(vr)应用)。沉浸式音频信号可包括sr信号、多声道(试验台)信号及/或多个对象(每一对象包括对象信号及对象元数据)。解码单元120可经配置以基于位流101提供输出信号121,其中输出信号121可包括经重构沉浸式音频信号。
图2图解说明实例性编码单元110、200。编码单元200可经配置以对输入信号111进行编码,其中输入信号111可以是沉浸式音频(ia)输入信号111。ia输入信号111可包括多声道输入信号201。多声道输入信号201可包括sr信号以及一或多个对象信号。此外,可提供所述多个对象信号的对象元数据202作为ia输入信号111的一部分。可通过内容撷取引擎提供ia输入信号111,其中所述内容撷取引擎可经配置以从(复杂)vr内容导出对象及/或sr信号。
编码单元200包括经配置以将多声道输入信号201降混到多个降混声道信号203的降混模块210。所述多个降混声道信号203可对应于sr信号,尤其对应于一阶高保真度立体声响复制(foa)信号。可在子带域或qmf域(例如,使用10个或多于10个子带)中实行降混。
编码单元200进一步包括联合译码模块230(尤其地spar模块),联合译码模块230经配置以确定联合译码元数据205(尤其地spar空间音频分辨率重构元数据),联合译码元数据205经配置以从所述多个降混声道信号203重构多声道输入信号201。联合译码模块230可经配置以在子带域中确定联合译码元数据205。
为确定联合译码元数据205,可将所述多个降混声道信号203变换成子带域及/或可在子带域中处理所述多个降混声道信号203。此外,可将多声道输入信号201变换成子带域。随后,可针对子带确定联合译码元数据205,尤其使得通过使用联合译码元数据205对所述多个降混声道信号203的子带信号进行升混来获得多声道输入信号201的子带信号的近似值。可将不同子带的联合译码元数据205插入到位流101中以传输到对应解码单元120。
另外,编码单元200可包括译码模块240,译码模块240经配置以对所述多个降混声道信号203实行波形编码,从而提供经译码音频数据206。可使用单声道波形编码器(例如3gppevs编码)对降混声道信号203中的每一者进行编码,从而达成高效编码。对所述多个降混声道信号203进行编码的其它实例是mpegaac、mpeghe-aac及其它mpeg音频编解码器、3gpp编解码器、杜比数字/杜比数字+(ac-3、eac-3)、opus、lc-3及类似编解码器。举另一实例,ac-4编解码器中所包括的译码工具还可经配置以实行编码单元200的操作。
此外,译码模块240可经配置以对联合译码元数据(即spar元数据)205及对象元数据202实行熵编码,从而提供经译码元数据207。可将经译码音频数据206及经译码元数据207插入到位流101中。
图3展示实例性解码单元120、350。解码单元120、350可包含接收可包含经译码音频数据206及经译码元数据207的位流101的接收器。解码单元120、350可包含将来自位流101的经译码音频数据206及经译码元数据207解多路复用的处理器及/或解多路复用器。解码单元350包括经配置以从经译码音频数据206导出多个经重构声道信号314的解码模块360。解码模块360可进一步经配置以从经译码元数据207导出联合译码元数据205及对象元数据202。
另外,解码单元350包括重构模块370,重构模块370经配置以从联合译码元数据205且从所述多个经重构声道信号314导出经重构多声道信号311。联合译码元数据205可传达允许从所述多个经重构声道信号314经重构多声道信号311的升混矩阵的时变元素及/或变频元素。升混过程可在qmf(正交镜像滤波器)子带域中施行。另一选择为,可使用另一时间/频率变换(尤其地,基于fft(快速傅里叶变换)的变换)来实行升混过程。一般来说,可应用达成频率选择性分析及(升混)处理的变换。所述升混过程还可包含能够改善经重构多声道信号311的协方差的重构的解相关器,其中解相关器可由额外联合译码元数据205控制。
经重构多声道信号311可包括被称为重构sr信号的信号且包括一或多个经重构对象信号。经重构多声道信号311与对象元数据可形成经重构ia信号121。经重构ia信号121可用于扬声器呈现330、用于耳机呈现331及/或用于sr呈现332。
图4图解说明编码单元200及解码单元350。编码单元200包括在图2的上下文中所描述的组件。此外,编码单元200包括经配置以将所述多个降混声道信号203的能量集中到一或多个降混声道信号203的能量压缩模块420。能量压缩模块420可变换降混声道信号203以提供多个经压缩声道信号404。可实行变换使得经压缩声道信号404中的一或多者具有比对应一或多个降混声道信号203少的能量。
举例来说,所述多个降混声道信号203可包括w声道信号、x声道信号、y声道信号及z声道信号。所述多个经压缩声道信号404可包括w声道信号、x’声道信号、y’声道信号及z’声道信号。x’声道信号、y’声道信号及z’声道信号可经确定使得x’声道信号具有比x声道信号少的能量,使得y’声道信号具有比y声道信号少的能量及/或使得z’声道信号具有比z声道信号少的能量。
能量压缩模块420可经配置以使用预测操作实行能量压缩。确切来说,可从所述多个降混声道信号203的第二子集(例如,w声道信号)预测所述多个降混声道信号203(例如,x声道信号、y声道信号及z声道信号)的第一子集。能量压缩可包括从其它降混声道信号203(例如,x声道信号、y声道信号及/或z声道信号)减去降混声道信号203中的一者(例如,w声道信号)的缩减版本。缩放因数可经确定使得其它降混声道信号203的能量被减小,尤其被最小化。
通过实行能量压缩,与对所述多个降混声道信号203进行编码相比可提高对所述多个经压缩声道信号404进行编码的效率。编码单元200经配置以将用于实行能量压缩操作的反演的元数据隐性地插入到联合译码元数据205中。因此,达成对ia输入信号111的高效编码。
如上文所概述,解码单元包括重构模块370。图6图解说明实例性重构模块370。重构模块370将所述多个经重构声道信号314作为输入(例如其可形成一阶高保真度立体声响复制信号)。第一混合器611可经配置以将所述多个经重构声道信号314(例如,四个声道信号)升混成增大数目个信号(例如11个信号,其表示二阶高保真度立体声响复制信号及两个对象信号)。第一混合器611取决于联合译码元数据205。
重构模块370可包括经配置以从w声道信号生成两个信号的解相关器601、602,在第二混合器612中处理所述两个信号以生成增大数目个信号(例如,11个信号)。第二混合器612取决于联合译码元数据205。将第一混合器611的输出与第二混合器612的输出相加以提供经重构多声道信号311。
如上文所指示,联合译码或spar元数据205可由表示由第一混合器611及由第二混合器612使用的升混矩阵的系数的数据组成。混合器611、612可在子带域中(尤其地,在qmf域中)操作。在此种情形中,联合译码或spar元数据205包括表示由第一混合器611及由第二混合器612针对多个不同子带(例如,10或多于10个子带)所使用的升混矩阵的系数的数据。
图5展示编码单元200,所述编码单元200包括用于编码对多声道输入信号201进行及用于对对象元数据202进行编码的两个分支(多声道输入信号201及对象元数据202形成ia输入信号111)。上分支对应于在图4的上下文中所描述的编码方案。在下分支中,联合译码单元230经修改以确定允许从所述多个经压缩声道信号404重构所述多个降混声道信号203的元数据205。因此,元数据205指示已用于从所述多个降混声道信号203产生所述多个经压缩声道信号404的预测因数(尤其地一或多个缩放因数)。在变体中,可直接从能量压缩模块220(无需使用联合译码模块230)提供元数据205。
图5的编码单元200包括经配置以在第一模式(对应于上分支)与第二模式(对应于下分支)之间进行切换的模式切换模块500。第一模式可用于在提高的位速率下提供高感知质量,且第二模式可用于在降低的位速率下提供降低的感知质量。模式切换模块500可经配置以依据传输网络的状态在第一模式与第二模式之间切换。
此外,图5展示经配置以根据第一模式(上分支)且根据第二模式(下分支)实行解码的对应解码单元350。模式切换模块550可配置以确定编码单元200已使用哪种模式(例如逐帧地)。如果已使用第一模式,那么可确定经重构多声道信号311及对象元数据202(如图4的上下文中所概述)。另一方面,如果已使用第二模式,那么解码单元350可确定多个经重构降混声道信号513(对应于所述多个降混声道信号203)。
因此,描述包括降混模块210的编码单元200,降混模块210经配置以处理对象及hoa输入信号111以生成具有减小的声道数目的输出信号203,例如一阶高保真度立体声响复制(foa)信号。spar编码模块230产生指示如何可从foa信号203再生原始输入111、201(例如,对象信号加上hoa)的元数据(即spar元数据)205。一组evs编码器240可获取4声道foa信号203且可形成经编码音频数据206以插入到位流101中,然后由一组evs解码器360对位流101进行解码以形成四声道foa信号314。可提供spar元数据205作为去往解码器360的位流101内的(熵)经编码元数据207。随后,重构模块370再生由音频对象及hoa信号组成的输出121。
wxyz能量压缩变换(在模块420中)可修改由降混模块210产生的低分辨率信号203,这会生成与降混模块210的输出相比具有减小的声道间相关性的输出信号404。能量压缩滤波420的目的是减小xyz声道中的能量,使得可以较高的位速率对w声道进行编码且可以较低的位速率对低能量x’y’z’声道进行编码。借此更高效地掩蔽译码伪影,因此提高音频质量。
另外或替代实行预测,能量压缩可利用卡洛变换(karhonenloevetransform,klt)、主成分分析(pca)变换及/或奇异值分解(svd)变换。确切来说,可使用能量压缩滤波420,能量压缩滤波420包括白化滤波、klt、pca变换及/或svd变换。可使用上述预测方案实施白化滤波。确切来说,能量压缩滤波420可包括白化滤波与klt变换、pca变换及/或svd变换的组合,其中后者被布置成与白化滤波串联。可将klt变换、pca变换及/或svd变换应用于x声道、y声道、z声道,尤其应用于预测残差。
图7展示用于对多声道输入信号201进行编码的实例性方法700的流程图。确切来说,所述方法700旨在对包括多声道输入信号201的ia信号进行编码。多声道输入信号201可包括声场表示(sr)信号。确切来说,多声道输入信号201可包括sr信号(例如hoa信号,尤其地二阶高保真度立体声响复制信号)与一或多个音频对象303的一或多个(尤其地两个)对象信号的组合。
所述方法700包括从多声道输入信号201确定701多个降混声道信号203。与多声道输入信号201相比,所述多个降混声道信号203可包括减小的声道数目。如上文所指示,多声道输入信号201可包括:sr信号,尤其地l阶高保真度立体声响复制信号,其中l≥1,;以及一或多个音频对象303的一或多个对象信号。可通过将多声道输入信号201降混到sr信号确定所述多个降混声道信号203,尤其地k阶高保真度立体声响复制信号,其中l≥k。因此,所述多个降混声道信号203可以是sr信号,尤其是k阶高保真度立体声响复制信号。
确切来说,确定701所述多个降混声道信号203可包括将一或多个音频对象303(多声道输入信号201)的一或多个对象信号混合到多声道输入信号201的sr信号(或sr信号的经降混版本)。可依据一或多个音频对象303的对象元数据202实行混合(尤其地平移),其中音频对象303的对象元数据202指示音频对象303的空间位置。降混sr信号可包括从l阶sr信号移除[(l+1)2-l2]个额外声道,从而提供(l-1)阶sr信号。
在优选实例中,所述多个降混声道信号203形成一阶高保真度立体声响复制信号,尤其呈b格式或呈a格式。多声道输入信号201的sr信号可以是二阶(或更高阶)高保真度立体声响复制信号。
此外,所述方法700包括对所述多个降混声道信号203实行702能量压缩以提供多个经压缩声道信号404。所述多个降混声道信号203的声道数目与所述多个经压缩声道信号404的声道数目可相同。确切来说,所述多个经压缩声道信号404可形成或可呈一阶高保真度立体声响复制信号格式,尤其呈b格式或呈a格式。
可实行能量压缩使得减小不同声道信号203之间的声道间相关性。确切来说,所述多个经压缩声道信号404可展现出比所述多个降混声道信号203小的声道间相关性。另一选择为或另外,可实行能量压缩使得经压缩声道信号的能量低于或等于对应降混声道信号的能量。每一声道皆可满足此条件。
实行702能量压缩可包括从第二降混声道信号(例如w声道)预测第一降混声道信号203(例如x声道、y声道或z声道),以提供第一经预测声道信号。可从第一降混声道信号203减去第一经预测声道信号(或相反)以提供第一经压缩声道信号404。
从第二降混声道信号203预测第一降混声道信号203可包括确定用于缩放第二降混声道信号203的缩放因数。可确定缩放因数使得与第一降混声道信号203的能量相比第一经压缩声道信号404的能量被减小及/或使得第一经压缩声道信号404的能量被最小化。然后,第一经预测声道信号可对应于根据缩放因数缩放的第二降混声道信号203。可针对不同声道确定不同缩放因数。
确切来说(在一阶高保真度立体声响复制信号的情形中),实行702能量压缩可包括从所述多个降混声道信号203的w声道信号预测x声道信号、y声道信号及z声道信号,以分别提供经预测x声道信号、经预测y声道信号及经预测z声道信号。可从x声道信号减去经预测x声道信号(或相反)以确定所述多个经压缩声道信号404的x’声道信号。可从y声道信号减去经预测y声道信号(或相反)以确定所述多个经压缩声道信号404的y’声道信号。可从z声道信号减去经预测z声道信号(或相反)以确定所述多个经压缩声道信号404的z’声道信号。此外,可使用所述多个降混声道信号203的w声道信号作为所述多个经压缩声道信号404的w声道信号。
因此,可减小所有声道(其中一者除外,即w声道)的能量,从而使得能够对所述多个经压缩声道信号404进行高效编码。
所述方法700可进一步包括基于所述多个经压缩声道信号404且基于多声道输入信号201确定703联合译码元数据(本文中也被称为spar元数据)205。可确定联合译码元数据205使得联合译码元数据205允许将所述多个经压缩声道信号404升混成多声道输入信号201的近似值。通过利用所述多个经压缩声道信号404来确定联合译码元数据,将反演能量压缩的过程自动地包含到联合译码元数据205中(无需提供用于反演能量压缩操作的额外元数据)。
联合译码元数据205可包括使得能够将所述多个经压缩声道信号404升混成多声道输入信号201的近似值的升混数据,尤其包括一或多个升混矩阵。多声道输入信号201的近似值包括与多声道输入信号201相同的声道数目。此外,联合译码元数据205可包括使得能够重构多声道输入信号201的协方差的解相关数据。
可针对多声道输入信号201的多个不同子带确定联合译码元数据205(例如针对10个或多于10个子带,尤其在qmf域内)。通过针对不同子带(即在不同频带内)提供联合译码元数据205,可实行精确的升混操作。
另外,所述方法700包括对所述多个经压缩声道信号404及联合译码元数据205(也被称为spar元数据)进行编码704。对所述多个经压缩声道信号404进行编码704可包括对所述多个经压缩声道信号404中的每一者实行波形编码(尤其地,实行evs编码),尤其使用单声道编码器对每一经压缩声道信号404实行波形编码。另一选择为或另外,可使用熵编码器对联合译码元数据205进行编码。如上文所指示,多声道输入信号201可包括一或多个音频对象303的一或多个对象信号。在这些情形中,所述方法700可包括尤其使用熵编码器对所述一或多个音频对象303的对象元数据202进行编码。
所述方法700允许以位速率高效方式对可指示sr信号及/或一或多个音频对象信号的多声道输入信号201进行编码,而使得解码器能够以高感知质量重构多声道输入信号201。
基于所述多个经压缩声道信号404且基于多声道输入信号201确定联合译码元数据205可对应于对多声道输入信号201进行编码的第一模式。
另一选择为或除使用预测之外,实行702能量压缩可包括对所述多个降混声道信号203中的至少一些降混声道信号应用卡洛变换、主成分分析变换及/或奇异值分解变换。借此,可进一步增大所述多个经压缩声道信号404的译码效率。
确切来说,可对与已基于第二降混声道信号203(尤其基于w声道信号)导出的预测残差对应的经压缩声道信号404应用卡洛变换、主成分分析变换及/或奇异值分解变换。换句话说,可对预测残差应用卡洛变换、主成分分析变换及/或奇异值分解变换。
如上文所指示,在预测的上下文中,可基于多个降混声道信号203的w声道信号导出x’声道信号、y’声道信号及z’声道信号,从而形成高保真度立体声响复制信号。确切来说,x’声道信号可对应于x声道信号减去x声道信号的预测,x’声道信号是基于w声道信号。同样地,y’声道信号可对应于y声道信号减去y声道信号的预测,y’声道信号基于w声道信号。同样地,z’声道信号可对应于z声道信号减去z声道信号的预测,z’声道信号基于w声道信号。所述多个经压缩声道信号404可基于w声道信号、x’声道信号、y’声道信号及z’声道信号来确定,或可对应于w声道信号、x’声道信号、y’声道信号及z’声道信号。
为进一步提高所述多个经压缩声道信号404的译码效率,可对x’声道信号、y’声道信号及z’声道信号应用卡洛变换、主成分分析变换及/或奇异值分解变换以提供x”声道信号、y”声道信号及z”声道信号。然后,可基于w声道信号、x”声道信号、y”声道信号及z”声道信号确定所述多个经压缩声道信号404。
在第二模式中,可基于所述多个经压缩声道信号404且基于所述多个降混声道信号203确定联合译码元数据205。可确定联合译码元数据205使得联合译码元数据205允许从所述多个经压缩声道信号404重构所述多个降混声道信号203。确切来说,可确定联合译码元数据205使得联合译码元数据205(仅)反转或反演能量压缩操作(而不实行升混操作)。可使用第二模式减小位速率(以降低的感知质量)。
如上文所指示,多声道输入信号201可包括sr信号以及一或多个对象信号。第一模式及第二模式可允许重构sr信号(基于所述多个经压缩声道信号404)。因此,可维持收听者的总体收听体验(甚至当使用第二模式时)。
多声道输入信号201可包括帧序列。可针对所述帧序列中的每一帧逐帧地实行本文件中所描述的处理。确切来说,所述方法700可包括针对所述帧序列中的每一帧确定是使用第一模式还是第二模式。借此,编码可适于迅速地改变传输网络的条件。
所述方法700可包括基于通过对所述多个经压缩声道信号404进行编码704导出的经译码音频数据206且基于通过对联合译码元数据205进行编码704导出的经译码元数据207产生位流101。此外,所述方法700可包括将指示已使用第二模式还是第一模式的指示插入到位流101中。可逐帧地插入所述指示。因此,使得对应解码单元350能够以可靠方式适应解码。
图8展示用于从指示多个经重构声道信号314的经译码音频数据206且从指示联合译码元数据205的经译码元数据207确定经重构多声道信号311的实例性方法800的流程图。所述方法800可包括从位流101提取经译码音频数据206及经译码元数据207。
此外,所述方法800可包括对经译码音频数据206进行解码801以提供所述多个经重构声道信号314且对经译码元数据207进行解码以提供联合译码元数据205。在优选实例中,所述多个经重构声道信号203形成一阶高保真度立体声响复制信号,尤其呈b格式或呈a格式。
对经译码音频数据206进行解码801可包括对所述多个经重构声道信号314中的每一者进行波形解码,尤其使用单声道解码器(例如evs解码器)对每一重构声道信号314进行波形解码。可使用熵解码器对经译码元数据207进行解码。
此外,所述方法800包括使用联合译码元数据205从所述多个经重构声道信号314确定802经重构多声道信号311,其中经重构多声道信号311可包括经重构声场表示(sr)信号。确切来说,经重构多声道信号311对应于多声道输入信号201的近似值或重构。经重构多声道信号311与对象元数据202可一起形成经重构沉浸式音频(ia)信号121。
另外,所述方法800可包括呈现经重构多声道信号311(通常与对象元数据202相结合)。可使用耳机呈现、扬声器呈现及/或声场呈现实行呈现。因此,能够灵活地呈现空间音频内容(尤其用于vr应用)。
如上文所指示,联合译码元数据205可包括使得能够将所述多个经重构声道信号404升混成经重构多声道信号311的升混数据,尤其是一或多个升混矩阵。此外,联合译码元数据205可包括使得能够产生具有预定协方差的经重构多声道信号311的解相关数据。联合译码元数据205可包括经重构多声道信号311的不同子带的不同元数据。因此,可达成对多声道输入信号201的精确重构。
在对应编码器200处,可已对所述多个降混声道信号304应用能量压缩。可已使用预测及/或使用卡洛变换、主成分分析变换及/或奇异值分解变换实行能量压缩。联合译码元数据205可使得除升混之外其隐性地实行能量压缩操作的反演。确切来说,联合译码元数据205可使得另外其隐性地实行预测操作的反演及/或卡洛变换、主成分分析变换及/或奇异值分解变换的反演。
换句话说,联合译码元数据205可经配置以使得能够将所述多个经重构声道信号404升混成经重构多声道信号311且对所述多个经重构声道信号314(隐性地)实行反演能量压缩操作。确切来说,联合译码元数据205可经配置以对所述多个经重构声道信号314中的至少一些经重构声道信号(隐性地)实行反演预测操作(由编码器200实行的预测操作的反演)。另一选择为或另外,联合译码元数据205可经配置以对所述多个经重构声道信号314中的至少一些经重构声道信号实行卡洛变换、主成分分析变换及/或奇异值分解变换的反演(由编码器200实行的变换的反演)。因此,可提供特别高效译码方案。
经重构多声道信号311可包括一或多个音频对象303的一或多个经重构对象信号(除例如foa或hoa信号等sr信号之外)。所述方法800可包括尤其使用熵解码器从经译码元数据207解码出一或多个音频对象303的对象元数据202。因此,可精确地呈现所述一或多个对象303。
如上文所指示,所述多个经重构声道信号314可形成sr信号,尤其形成k阶高保真度立体声响复制信号,其中k≥1(尤其地k=1)。另一方面,经重构多声道信号311可包括:经重构sr信号,尤其地l阶高保真度立体声响复制信号,其中l≥k(尤其地l=k或l=k+1);以及一或多个音频对象303的一或多个(例如n=2)经重构对象信号。可通过使用联合译码元数据205将所述多个经重构声道信号314升混来确定经重构多声道信号311,从而提供具有大量空间声学事件的经重构多声道信号311。
如上文所指示,使用升混可对应于第一模式(达成高感知质量)。在第一模式中,联合对象元数据205包括用于达成升混操作的升混数据。在第二模式中,经重构多声道信号311可包括与所述多个经重构声道信号314相同的声道数目(使得无需升混操作)。
在第二模式中,联合译码元数据205可包括经配置以在不同重构声道信号314之中重新分配能量的预测数据(例如,一或多个缩放因数)。此外,在第二模式中,确定802经重构多声道信号311可包括使用预测数据在不同重构声道信号314之中重新分配能量。确切来说,可使用联合译码元数据205实行上述能量压缩操作的反演。因此,可高效且精确地重构所述多个降混声道信号203。
如上文所概述,在编码期间实行的能量压缩操作可包括对所述多个降混声道信号203中的至少一些降混声道信号应用卡洛变换、主成分分析变换及/或奇异值分解变换。联合译码元数据205可包括使得解码器350能够实行卡洛变换、主成分分析变换及/或奇异值分解变换的反演的变换数据。换句话说,变换数据指示对用于确定经重构多声道信号311的所述多个经重构声道信号314中的至少一些经重构声道信号应用的卡洛变换、主成分分析变换及/或奇异值分解变换的反演。因此,可高效且精确地重构所述多个降混声道信号203。
如上文所指示,重构多声道输入信号311可包括帧序列。所述方法800可包括针对所述帧序列中的每一帧确定是否将使用第二模式。为达到此目的,可从位流101提取指示是否将使用第二模式的指示。
可以硬件或特殊用途电路、软件、逻辑或其任何组合来实施各种实例性实施例。可以硬件实施一些方面,而可以可由控制器、微处理器或其它计算装置执行的固件或软件来实施其它方面。一般来说,应理解本发明还囊括适合于实行上文所描述的方法的设备,例如具有存储器及耦合到所述存储器的处理器的设备(空间呈现器),其中所述处理器经配置以执行指令且实行根据本发明实施例的方法。
虽然可以框图、流程图形式或使用某一其它图示表示图解说明且描述本发明的实例性实施例的各个方面,但应了解,可以(举非限制性实例)硬件、软件、固件、特殊用途电路或逻辑、一般用途硬件或控制器或者其它计算装置或其某一组合来实施本文中所描述的块、设备、系统、技术或方法。
另外,流程图中所展示的各种方框可被视为从计算机程序代码的操作得出的方法步骤及/或操作,及/或被视为经构造以施行相关联功能的多个经耦合逻辑电路元件。举例来说,本发明的实施例包含计算机程序产品,所述计算机程序产品包括有形地包含在机器可读媒体上的计算机程序,其中所述计算机程序含有经配置以施行上文所描述的方法的程序代码。
在本发明的上下文中,机器可读媒体可以是任何有形媒体,所述有形媒体可含有或存储由指令执行系统、设备或装置使用或与指令执行系统、设备或装置结合使用的程序。机器可读媒体可以是机器可读信号媒体或机器可读存储媒体。机器可读媒体可包含但不限于电子、磁性、光学、电磁、红外线或半导体的系统、设备或装置或者前述各项的任何适合组合。机器可读存储媒体的更具体实例将包含具有一或多个配线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便携式光盘只读存储器(cd-rom)、光学存储装置、磁性存储装置或前述各项的任何适合组合。
可以一或多种编程语言的任何组合撰写用于施行本发明的方法的计算机程序代码。可将这些计算机程序代码提供到一般用途计算机、特殊用途计算机或其它可编程数据处理设备的处理器,使得程序代码在由计算机或其它可编程数据处理设备的处理器执行时致使实施流程图及/或框图中所规定的功能/操作。所述程序代码可作为独立的软件包部分完全在计算机上、部分地在计算机上执行、部分地在计算机上且部分地在远程计算机上执行或者完全在远程计算机或服务器上执行。
此外,虽然按照特定的次序绘示操作,但不应将此理解为要求按照所展示的特定次序或以顺序次序执行这些操作或执行全部所图解说明的操作以达成期望结果。在某些情形下,多任务及并行处理可为有利的。同样到,虽然以上论述中含有数个具体实施细节,但这些不应被视为限制任何发明的范围或可主张的内容,而是说明可为特定发明的特定实施例所特有的特征。在单独实施例的上下文中在本说明书所描述的某些特征也可以组合方式实施在单个实施例中。反之,在单个实施例的上下文中所描述的各种特征也可单独地或以任何适合子组合形式实施在多个实施例中。
应注意,说明及图式仅图解说明所提出的方法及设备的原理。因此应了解,所属领域的技术人员将能够设想各种布置,尽管本文中未明确描述或展示所述各种布置,但其体现本发明的原理且包含在本发明的精神及范围内。此外,本文中所叙述的所有实例在原则上明确旨在仅达到教示目的以帮助读者理解所提出的方法及设备的原理及发明人贡献于推进此项技术的概念,且应被视为不限于此类具体叙述的实例及条件。此外,本文中叙述本发明的原理、方面及实施例的所有陈述以及本发明的具体实例旨在囊括其等效形式。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除