用于产生或解码包括沉浸式音频信号的位流的方法及装置与流程

2021-01-28 16:01:31|

337|

起点商标网

相关申请案的交叉参考本申请案主张2018年7月2日申请的第62/693,246号美国临时专利申请案的优先权权益，所述专利申请案以引用方式并入本文中。本文档涉及可包括声场表示信号，尤其是环绕立体声信号的沉浸式音频信号。特定来说，本文档涉及产生及解码包括沉浸式音频信号的位流。
背景技术：
：可使用环绕立体声信号来描述位于收听位置处的收听者的收听环境内的声音或声场。环绕立体声信号可被视为多声道音频信号，其中每一声道对应于收听者的收听位置处的声场的特定方向性图案。可使用三维(3d)笛卡尔坐标系来描述环绕立体声信号，其中所述坐标系的原点对应于收听位置，x轴指向前方，y轴指向左侧且z轴指向上方。通过增加音频信号或声道的数目且通过增加对应方向性图案(及对应平移函数)的数目，可增加描述声场的精度。举例来说，一阶环绕立体声信号包括4个声道或波形，即指示声场的全向分量的w声道、描述具有对应于x轴的偶极子方向性图案的声场的x声道、描述具有对应于y轴的偶极子方向性图案的声场的y声道及描述具有对应于z轴的偶极子方向性图案的声场的z声道。二阶环绕立体声信号包括9个声道，其包含一阶环绕立体声信号的4个声道(也被称为b格式)加上不同方向性图案的5个额外声道。一般来说，l阶环绕立体声信号包括(l+1)2个声道，包含(l-1)阶环绕立体声信号的l2个声道加上额外方向性图案的[(l+1)2-l2]个额外声道(当使用3d环绕立体声格式时)。l>1的l阶环绕立体声信号可被称为高阶环绕立体声(hoa)信号。hoa信号可用于独立于扬声器的布置来描述3d声场，所述布置用于渲染hoa信号。扬声器的实例布置包括耳机或扬声器的一或多个布置或虚拟现实渲染环境。因此，可能有益的是，将hoa信号提供给音频渲染器，以便允许音频渲染器灵活地适应扬声器的不同布置。声场表示(sr)信号，例如环绕立体声信号，可用音频对象及/或多声道信号来补充，以提供沉浸式音频(ia)信号。本文档解决按带宽有效方式以高感知质量传输及/或存储ia信号的技术问题。特定来说，本文档解决提供指示ia信号的有效位流的技术问题。所述技术问题通过独立权利要求来解决。在从属权利要求中描述优选实例。技术实现要素：根据一个方面，描述一种用于产生位流的方法，其中所述位流包括用于沉浸式音频信号的帧序列的超帧序列。所述方法包括针对所述超帧序列重复地，将从所述沉浸式音频信号导出的一或多个降混声道信号的一或多个帧的经编码音频数据插入到超帧的数据字段中。此外，所述方法包括将用于从所述经编码音频数据重构所述沉浸式音频信号的一或多个帧的元数据，尤其是经编码元数据插入到所述超帧的元数据字段中。根据另一方面，描述一种用于从位流导出有关沉浸式音频信号的数据的方法，其中所述位流包括用于所述沉浸式音频信号的帧序列的超帧序列。所述方法包括针对所述超帧序列重复地，从超帧的数据字段提取从所述沉浸式音频信号导出的一或多个降混声道信号的一或多个帧的经编码音频数据。此外，所述方法包括从所述超帧的元数据字段提取用于从所述经编码音频数据重构所述沉浸式音频信号的一或多个帧的元数据。根据进一步方面，描述一种软件程序。所述软件程序可经调适以在处理器上执行且当在所述处理器上实行时执行本文档中所概述的方法步骤。根据另一方面，描述一种存储媒体。所述存储媒体可包括经调适以在处理器上执行且当在所述处理器上实行时执行本文档中所概述的方法步骤的软件程序。根据进一步方面，描述一种计算机程序产品。所述计算机程序可包括用于当在计算机上执行时执行本文档中所概述的方法步骤的可执行指令。根据进一步方面，描述一种位流的超帧，其中所述位流包括用于沉浸式音频信号的帧序列的超帧序列。所述超帧包括用于从所述沉浸式音频信号导出的一或多个降混声道信号的一或多个(尤其是多个)帧的经编码音频数据的数据字段。此外，所述超帧包括用于元数据的(单个)元数据字段，所述元数据经调适以从所述经编码音频数据重构所述沉浸式音频信号的一或多个(尤其是多个)帧。根据另一方面，描述一种编码装置，其经配置以产生位流。所述位流包括用于沉浸式音频信号的帧序列的超帧序列。所述编码装置经配置以针对所述超帧序列重复地，将从所述沉浸式音频信号导出的一或多个降混声道信号的一或多个(尤其是多个)帧的经编码音频数据插入到超帧的数据字段中；及将用于从所述经编码音频数据重构所述沉浸式音频信号的一或多个(尤其是多个)帧的元数据插入到所述超帧的元数据字段中。根据进一步方面，一种解码装置经配置以从位流导出有关沉浸式音频信号的数据，其中所述位流包括用于所述沉浸式音频信号的帧序列的超帧序列。所述解码装置经配置以针对所述超帧序列重复地，从超帧的数据字段提取从所述沉浸式音频信号导出的一或多个降混声道信号的一或多个(尤其是多个)帧的经编码音频数据；及从所述超帧的元数据字段提取用于从所述经编码音频数据重构所述沉浸式音频信号的一或多个(尤其是多个)帧的元数据。应注意，所述方法、装置及系统(包含如本专利申请案中所概述的其优选实施例)可独立地使用或组合本文档中所揭示的其它方法、装置及系统使用。此外，本专利申请案中所概述的方法、装置及系统的所有方面可任意地组合。特定来说，权利要求书的特征可以任意方式彼此组合。附图说明下文参考附图以实例性方式解释本发明，其中图1展示实例编码系统；图2展示用于对沉浸式音频信号进行编码的实例编码单元；图3展示用于对沉浸式音频信号进行解码的另一实例解码单元；图4展示用于沉浸式音频信号，尤其是用于指示沉浸式音频信号的经编码数据的实例超帧结构；图5展示用于产生包括指示沉浸式音频信号的超帧序列的位流的实例方法的流程图；及图6展示用于从包括指示沉浸式信号的超帧序列的位流提取信息的实例方法的流程图。具体实施方式如上文所概述，本文档涉及对例如hoa信号、多声道及/或对象音频信号的沉浸式音频信号的高效编码，其中尤其是hoa信号在本文中更一般地被称为声场表示(sr)信号。此外，本文档涉及在位流内通过传输网络存储或传输沉浸式音频(ia)信号。如引言部分中所概述，sr信号可包括相对大量的声道或波形，其中不同声道涉及不同平移函数及/或不同方向性图案。举例来说，l阶3d一阶环绕立体声(foa)或hoa信号包括(l+1)2个声道。一阶环绕立体声(foa)信号是包括4个声道的l＝1阶的环绕立体声信号。sr信号可以各种不同格式来表示。声场可被视为由从收听位置周围的任意方向发出的一或多个声波事件组成。因此，可在球体的表面上界定一或多个声波事件的位置(其中收听或参考位置在球体的中心处)。例如foa或高阶环绕立体声(hoa)的声场格式以允许在任意扬声器布置(即任意渲染系统)上渲染声场的方式来定义。然而，渲染系统(例如杜比全景声系统)通常限于以下含义：扬声器的可能高度被固定到经定义数目个平面(例如，耳高(水平)平面、天花板或上平面及/或地板或下平面)。因此，可将理想球形声场的概念修改为由位于球体表面上不同高度处的不同环(与构成蜂巢的堆叠环类似)中的声波对象组成的声场。如图1中所展示，音频编码系统100包括编码单元110及解码单元120。编码单元110可经配置以基于输入信号111来产生传输到解码单元120的位流101，其中输入信号111可包括或可为沉浸式音频信号(用于例如虚拟现实(vr)应用)。沉浸式音频信号111可包括sr信号、多声道信号及/或多个对象(每一对象包括对象信号及对象元数据)。解码单元120可经配置以基于位流101来提供输出信号121，其中输出信号121可包括或可为经重构的沉浸式音频信号。图2说明实例编码单元110、200。编码单元200可经配置以对输入信号111进行编码，其中输入信号111可为沉浸式音频(ia)信号111。ia信号111可包括多声道输入信号201。多声道输入信号201可包括sr信号及一或多个对象信号。此外，可提供多个对象信号的对象元数据202作为ia信号111的部分。ia信号111可由内容摄取引擎提供，其中内容摄取引擎可经配置以从(复杂)ia内容(例如可包括sr信号、一或多个多声道信号及/或一或多个对象的vr内容)导出对象及/或sr信号。编码单元200包括降混模块210，所述降混模块210经配置以将多声道输入信号201降混为多个降混声道信号203。多个降混声道信号203可对应于sr信号，尤其是对应于一阶环绕立体声(foa)信号。可在子带域或qmf域中执行降混(例如，使用10个或更多个子带)。编码单元200进一步包括联合编码模块230(尤其是spar模块)，所述联合编码模块230经配置以确定联合编码元数据205(尤其是spar，空间音频分辨率重构，元数据)，所述联合编码元数据205经配置以从多个降混声道信号203重构多声道输入信号201。联合编码模块230可经配置以在子带域中确定联合编码元数据205。在一个实例中，空间音频重构(spar)工具是用于改进相对大量的音频声道及对象的编码的编码工具。为了提高编码效率，这个工具支持从较少量的联合输入音频声道及低开销边信息重构音频声道及对象。为了确定联合编码或spar元数据205，可将多个降混声道信号203变换到子带域中及/或可在子带域中进行处理。此外，可将多声道输入信号201变换到子带域中。随后，可在每子带基础上确定联合编码或spar元数据205，尤其使得通过使用联合编码或spar元数据205来升混多个降混声道信号203的子带信号，获得多声道输入信号201的子带信号的近似值。可将用于不同子带的联合编码或spar元数据205插入到位流101中以传输到对应解码单元120。另外，编码单元200可包括编码模块240，所述编码模块240经配置以对多个降混声道信号203执行波形编码，由此提供经编码音频数据206。可使用单声道波形编码器(例如3gppevs编码)来对降混声道信号203中的每一者进行编码，由此实现高效编码。用于对多个降混声道信号203进行编码的进一步实例是mpegaac、mpeghe-aac及其它mpeg音频编解码器、3gpp编解码器、杜比数字/杜比数字+(ac-3、eac-3)、opus、lc-3及其它类似编解码器。作为进一步实例，ac-4编解码器中包括的编码工具可经配置以执行编码单元200的操作。此外，编码模块240可经配置以对联合编码元数据(即spar元数据)205及对象元数据202执行熵编码，由此提供经编码元数据207。可将经编码音频数据206及经编码元数据207插入到位流101中。位流101可展现本文档中所描述的超帧结构。本文档中所描述的方法500可由编码模块240来执行。图3展示实例解码单元120、350。解码单元120、350可包含接收位流101的接收器，所述位流101可包含经编码音频数据206及经编码元数据207。解码单元120、350可包含多路分用来自位流101的经编码音频数据206及经编码元数据207的处理器及/或多路分用器。解码单元350包括解码模块360，所述解码模块360经配置以从经编码音频数据206导出多个经重构声道信号314。解码模块360可进一步经配置以从经编码元数据207导出联合编码或spar元数据205及/或对象元数据202。本文档中所描述的方法600可由解码模块360来执行。另外，解码单元350包括重构模块370，所述重构模块370经配置以从联合编码或spar元数据205及从多个经重构声道信号314导出经重构多声道信号311。联合编码或spar元数据205可输送升混矩阵的时变及/或频变元素，所述升混矩阵允许从多个经重构声道信号314重构多声道信号311。升混过程可在qmf(正交镜像滤波器)子带域中实行。替代地，可使用另一时间/频率变换，尤其是基于fft(快速傅立叶变换)的变换来执行升混过程。一般来说，可应用变换，所述变换实现频率选择性分析及(升混)处理。升混过程还可包含实现改进经重构多声道信号311的协方差的重构的解相关器，其中解相关器可通过额外联合编码或spar元数据205来控制。经重构多声道信号311可包括经重构sr信号及一或多个经重构对象信号。经重构多声道信号311及对象元数据可形成输出信号121(也被称为经重构ia信号121)。经重构ia信号121可用于扬声器渲染331、耳机渲染332及/或例如依赖于sr表示333的vr内容的渲染。因此，描述编码单元110、200，其经配置以将ia输入信号111编码成·降混信号，其包括多个降混声道信号203，其中降混信号203可为声场表示(sr)信号；及·元数据202、205，其包含spar或联合编码元数据205及/或一或多个对象的对象元数据202。元数据202、205，尤其是spar元数据205，可展现与降混信号不同的时间分辨率。特定来说，元数据202、205可用于降混信号的多个帧(例如，用于两个帧)。鉴于这种情况，可为位流101定义超帧，其中超帧包括降混信号的多个帧加上sr降混信号的多个帧的元数据202、205。图4展示实例超帧400。超帧400可包括可包含对于整个超帧400有效的数据的基本标头(bh)字段401及/或配置信息(ci)字段402。此外，超帧400包括用于降混信号的一或多个(尤其是多个)帧的经编码音频数据206的信号数据字段411、412、421、422。特定来说，对于每一降混声道信号203，可提供一或多个(尤其是多个)信号数据字段411、412、421、422，例如用于第一降混声道信号203的两个帧的信号数据字段411、421及用于第n降混声道信号203的两个帧的信号数据字段412、422。信号数据字段411、412、421、422在本文中也被称为evs位字段(针对将evs编码器用于对降混声道信号203进行编码的实例)。此外，超帧400包括元数据(mdf)字段403。元数据字段403可经配置以提供spar或联合编码元数据205及/或预测系数(pc)。因此，元数据字段403可为spar位字段或pc位字段(取决于正在使用的编码模式)。另外，超帧400可包括帧扩展器(fe)字段404。因此，超帧400可包括信令元素，所述信令元素经配置以·指示已用于n个降混声道信号的(evs)编码的一或多种(evs)编解码器模式；默认值可为n＝4个声道，这意味着存在4个(evs)编解码器降混声道信号w、x’、y’、z’。·指示元数据辅助(evs)编解码器的选定操作模式。·指示元数据位率。·提供信号的潜在未来扩展的可能性。可仅在超帧400内有条件地带内提供一或多个信令元素(例如ci字段402)。如果提供任选或有条件的信令元素，那么这个信令元素可经动态地调适及/或包含在超帧400内。一或多个信令元素可保持静态及/或可仅被提供一次，例如作为带外消息。一或多个信令元素可为半动态的，在所述情况下仅在选定超帧400中带内提供一或多个信令元素。超帧400可被设计为实现以下特征中的一或多者：·元数据辅助evs编码的超帧的完全解码及渲染。·元数据辅助evs编码的超帧的部分单声道解码。·超帧大小信息从级联超帧序列的低复杂度提取，而无需对超帧进行解码，例如以将超帧大小信息放入提供或需要这个超帧大小信息的辅助格式(例如isobmff、iso基本媒体文件格式)中。·低复杂度位率确定而无需对超帧数据进行解码。·超帧的低复杂度前馈及跳过而无需对超帧数据进行解码。·低复杂度后馈而无需对超帧数据进行解码(尤其是在恒定位率操作的情况下)。·在算术及/或熵编码的evs及/或元数据位流部分有位错误的情况下的简单重新同步及超帧跳过。·可编辑的超帧，其允许替换元数据或evs数据帧。元数据辅助evs编解码器的经编码位超帧400可对应于40ms的编码步幅(例如，包括两个20ms的帧)。其可由以下基本位字段组成：·基本标头字段(bh)401：这个字段可携载配置字段存在指示符(cpi)、元数据字段大小调整指示符(mda)及扩展指示符(ei)。cpi可指示在目前超帧400中是否供应配置信息(ci)字段。mda可标示所标示的最大元数据帧大小与实际元数据帧大小之间的差。ei可标示超帧400是否被帧扩展器(fe)404扩展。·配置信息字段(ci)402：这个字段可携载与已使用的evs、spar及预测系数编码工具的配置相关的信令信息，例如帧类型(编码模式)、位率及本文档内所描述的其它配置参数。·evs位字段411、421、412、422：每一字段可携载单个evs帧的位(尤其是没有evs有效负荷标头)，如3gppts26.445:“增强型语音服务(evs)编解码器；详细算法描述(codecforenhancedvoiceservices(evs)；detailedalgorithmicdescription)”第7节中所指定，其以引用方式并入本文中。·spar位字段(spar)403：这个字段可携载单个spar元数据帧的位，可能在末尾补零以使其字节对准。·预测系数位字段(pc)403：这个字段可携载单个预测系数元数据帧的位，可能在末尾补零以使其字节对准。·帧扩展器(fe)404：这个字段可经定义以供将来使用且可携载扩展数据。除fe中所含的大小元素之外，由fe所携载的任何其它数据可经保留以供将来使用(rfu)。所有基本位字段可为字节对准的且—在必要时—在末尾补零直到其定义大小。上述基本位字段可按以下序列次序包含在(单个)超帧400内。超帧可包括·一个基本标头(bh)401，其含有-配置字段存在指示符(cpi)，-元数据字段大小调整指示符(mda)及-扩展指示符(ei)。·一个任选的配置信息字段(ci)402。ci字段402的存在可由cpi来标示。·n个evs编码的降混声道信号s1、…、sn的数据，每一降混声道信号的两个连续帧，其可由2*n个基本evs位字段411、421、412、422(在本文中被称为evs(.))携载。在具有4个降混声道信号的默认操作中，存在表示降混声道信号w、x’、y’、z’的两个帧的8个连续evs位字段411、421、412、422。·用于spar或预测系数的一个元数据帧(mdf)字段403，因此是-一个基本spar位字段，或-一个基本pc位字段。·一个任选的帧扩展器(fe)404。fe字段的存在可由ei来指示。表1指示超帧400的实例结构。表1在默认情况下，存在4个evs编码的降混声道信号。在表2中展示默认情况下的超帧结构。表2下文提供有关不同基本位字段的进一步细节：基本标头(bh)字段401可携载配置字段存在指示符(cpi)、元数据字段大小调整指示符(mda)及扩展指示符(ei)。这个字节字段可能始终是超帧400中的第一元素。在表3中展示bh字段401的结构。表3配置字段存在指示符(cpi)可为用于标示目前超帧400中存在配置信息(ci)字段的单个位。cpi可具有以下含义：·cpi＝’0’：这指示在目前超帧400中未提供配置信息字段。应注意，配置信息可代替地作为静态带外信息或从携载配置信息字段402的先前最近接收的超帧400提供。·cpi＝’1’：这指示在目前超帧400中提供配置信息字段。ci字段402内提供的配置信息对于这个超帧400及任何未来超帧400是有效的直到提供携载配置信息字段402的下一超帧400为止。可在cpi位之后直接提供元数据字段大小调整指示符(mda)。这个6位指示符可标示如由mdr元素(其在下文进一步定义)标示的mdf403的长度与mdf403的实际大小之间的差。使用mda作为索引，可从表4中所展示的查找导出所指示差。表4中的一系列调整值是以matlab样式来指定：起始值：步长：最终值。可遵循元数据的总熵编码长度的分布的近似模型来设计表4中所展示的非恒定调整参数步长。这允许最小化mdf403中的未使用位的数目及因此传输开销。mda0…4748…5556…5960…616263调整值0:1:4749:2:6367:4:7987:8:95111143表4取决于最大mdf大小，调整值表示单字节或两字节单位。对于高达275字节的最大mdf大小，调整值表示单字节单位，否则表示两字节单位。mda指示符之后可为单个扩展指示符位(ei)。如果这个位被设置为1，那么目前超帧400新增帧扩展器(fe)元素。任选地提供的配置信息(ci)字段402可携载如表5中所说明的以下信令元素。ci字段402可由8个字节的数据组成或可包括8个字节的数据(对于每降混声道信号两个evs帧且n＝4个降混声道的情况)。位(msb-lsb)名称描述3n-ievs编解码器降混声道的数目的指示符1mdt元数据类型指示11mdc元数据编码配置5mdr元数据位率信令3bnd元数据编码带的数目1res经保留以供将来使用6ft-1,1第一dmx声道的第一帧的evsft6ft-2,1第二dmx声道的第一帧的evsft6……6ft-n,1第ndmx声道的第一帧的evsft6ft-1,2第一dmx声道的第二帧的evsft6ft-2,2第二dmx声道的第二帧的evsft6……6ft-n,2第ndmx声道的第二帧的evsft可变补零进行补零以填补字节表5表6说明具有4个evs编码的降混声道信号的默认情况下的任选配置信息字段402。在这种情况下，ci字段由9个字节的数据组成。表6evs编码的降混声道信号的数目n的指示符(n-i)可为对evs编码的降混声道信号的数目n进行编码的3位元素。通过使由3位元素表示的数目递增1可从指示符n-i获得n。为了实现具有4个evs降混声道信号的默认操作，可将n-i元素设置为3(‘011’)。元数据类型指示(mdt)位可具有以下含义：·mdt＝’0’：指示mdf携载pc位字段。·mdt＝’1’：指示mdf携载spar位字段。取决于mdt位的指示，元数据编码配置字段(mdc)可包括所使用的预测系数工具或spar编码工具的配置信息。mdc字段可为ci字段402的11位元素。其位的含义可取决于ci字段402的mdt位。取决于mdt位的值，mdc位可具有以下含义：·mdt＝’0’：如果mdt位是零，那么mdc的3个msb对预测系数编码方案的配置参数进行编码。mdc的其余8个位未被使用且经补零。表7a中展示在这种情况下的mdc字段的结构及内容。·mdt＝’1’：如果mdt位是一，那么11个mdc位对spar编解码器配置进行编码，如表7b中所说明。可通过使hoa_order_idx递增1来计算hoa次序。表7a表7a元数据位率信令字段(mdr)可包括5个位且可用于对mdf的最大大小进行编码。可通过使用表8的表查找来获得最大mdf大小，其中mdr值是表8的索引。此外，表8指示以kbps为单位的(最大)元数据位率。在表8中，实际mdf大小被标示为最大mdf大小减去由mda指示的调整数/值(来自bh字段401)。这允许以高分辨率(通常以字节分辨率)标示实际mdf大小。还应注意，mdf中的任何未使用位可经补零，这可能在实际mdf大小提供大于经编码元数据所需的空间的空间的情况下发生。表8带数字段(bnd)可为3位数字且可指示在元数据编码中使用的子带的数目。带数是通过在表9内进行查找而从bnd值导出。在默认操作中，bnd字段可被设置为5(‘101’)，其指示12个子频带。bnd(3位)带数0113253749512615723表9保留位(res)的使用可经保留以供将来使用。在默认操作中，这个位可被设置为‘0’且可能被接收器忽略。evsft字段(ft-x,y)可表示evs帧类型(ft)，其适用于第x降混声道信号的第y帧的编码，其中x＝1…n且其中y＝1,2。evs帧类型可如3gppts26.445第a2.2.1.2节中所定义，其以引用方式并入本文中。应注意，ci字段402中的最后一个evsft字段之后可跟随多达7个补零位，这确保八位位组对准。假使最后一个evsft字段以八位位组对准结尾，那么不新增补零位。接收器应忽略补零位。基本evs位字段411、421、412、422可如在3gppts26.445第7节(其以引用方式并入本文中)中针对分别使用的evs编码模式所定义。如引用的参考文献中所指定，无额外信令位被定义为基本evs帧字段的部分以指示位率或evs操作模式。这个信息可为当前或先前超帧400的任选ci字段402的部分或也可带外提供。在表10中展示spar元数据的系数的详细分配。表10展示在将位插入到帧中时位的次序。应注意，始终首先插入每一参数的最高有效位(msb)。因为动态地量化每一字段，所以位分配是可变的。名称描述编码obj_pos对象位置矩阵位置相依量化msparhoaspar重构矩阵霍夫曼编码psparspar矩阵霍夫曼编码表10在表11中展示pc元数据的系数的详细分配。表11展示在将位插入到超帧400内时位的次序。应注意，始终首先插入每一参数的最高有效位(msb)。因为动态地量化每一字段，所以位分配是可变的。名称描述编码gfoa预测系数矩阵霍夫曼编码表11帧扩展器(fe)元素404通常在其前两个字节中携载指示以字节为单位的fe字段404的大小的16位无符号整数。这个元素被称为fe大小。因此，fe大小数大于或等于2。fe字段404的其余fe数据部分的内容及含义可经保留以供将来使用。在默认操作中，可解析fe大小元素且可跳过及忽略fe数据元素。在表12中展示fe字段404的结构及内容。表12因此，描述超帧结构，其实现元数据辅助evs编解码器的配置信息的标示。超帧结构使接收器能够对元数据辅助evs编解码器数据进行解码。一般来说，元数据辅助evs编解码器是多模式及/或多速率编码系统。底层evs编解码器可经配置以按多种不同编码模式及/或位率进行操作。此外，空间元数据编解码器可提供各种不同编码模式及/或位率。空间元数据编解码器使用熵编码，这通常导致非恒定位率。这意味着实际使用的位率通常低于给定目标位率。这个位率下冲对于某些帧可能较小且对于一些其它帧可能较大。为了使解码器120能够恰当地对经传输位流101进行解码，可提供由编码器110使用的确切编码模式及位率。对于元数据的熵编码部分，可能不需要确切使用的位率，因为所使用的霍夫曼码无逗号且可唯一可解。然而，可向位流101的接收器提供用于帧(或超帧400)的编码的位的数目。例如，如果解码器120需要跳过数个经接收帧而不必对这些帧进行解码，那么这是可取的。在本文档中，已描述支持以下特征的超帧结构：·整个帧的解码。·仅对单声道再现所必需的部分进行解码。·从帧400提取长度信息，以将其放入提供及/或需要这个信息的辅助格式(isobmff)中。·在帧400的级联中，仅部分解码，且高效地跳过前几个帧。·如果存在位错误，那么寻找下一帧起始(重新同步)。·快速地且高效地确定位率，而不必对帧进行解码。·编辑帧(替换元数据，或evs帧的部分)。·快速前馈操作而无需帧的解码。·支持恒定长度及可变长度的编解码器数据有效负荷的高效载送。另外，超帧结构被描述为含有所有必要的信令元素以·指示用于n个降混声道信号的evs编码的evs编解码器模式(包含位率)。默认值可为n＝4，这意味着存在4个evs编解码器降混声道w、x’、y’、z’。·指示辅助元数据编解码器的选定操作模式。·以高分辨率指示元数据位率而无需显著信令开销。·提供信号潜在未来扩展的可能性。超帧400的某些信令元素在编码会话期间可能不会频繁地变化或甚至是静态的。如同元数据位率的一些其它信令元素可能在超帧间变化。因此，某些信令元素仅在超帧400(例如ci字段402)中有条件地带内提供。如果提供所述信令元素，那么可在超帧基础上动态地调适这些信令元素。也存在使这些信令元素保持静态且仅提供这些信令元素一次例如作为带外消息的可能性。所述信令元素也可为半动态的，在所述情况下其仅在某些超帧中带内提供所述信令元素。有关元数据位率的信令，主要挑战是每超帧400的所需位(或字节)的数目可能在相对大范围内变动。在熵编码显著地比最大长度短的情况下，仅标示每帧的最大可能位数目可能留下相对大量的位未使用。另一方面，在超帧400中提供用于指示实际使用的位(或字节)数目的直接信令元素将需要相对大量的信令位。在本文档中，描述一种将超帧400内的实际使用的位(或字节)数目的信令位数目保持为最小同时仍然允许覆盖可能元数据位率的相对大范围的方案。从系统角度来看，在编码前端产生元数据辅助evs编解码器的超帧400。这可能是网络中可存取未经编码的沉浸式或vr(虚拟现实)音频数据的服务器。其也可能是捕获沉浸式音频信号的移动电话。可将经编码帧400插入到下载到接收终端或根据如同dash(通过http动态自适应流式传输)或rtsp/rtp(实时流式传输协议/实时传输协议)的流式传输协议传输的文件中。如果将经编码超帧400存储在文件中，那么可将超帧400插入到根据isobmff格式化的文件中。假使某些配置信息是静态的且假使其不作为超帧400的部分进行传输，那么可通过如同会话描述协议(sdp)的带外方式代替地将其从编码端提供到解码端。本文档中所概述的方案可使用evs编解码器作为底层编解码器且可在超帧400中带内或使用例如sdp带外提供多模式/多速率消息(帧类型)。这可与多模式沉浸式元数据编码框架组合地使用，所述多模式沉浸式元数据编码框架可利用也可带内或带外传输的一组配置参数来高效地配置。此外，存在带内或带外组合多模式沉浸式元数据编码与允许相关联最大位率(或帧/超帧中的位的数目)的方案的可能性。本文档中所描述的超帧结构将实际使用的元数据字段大小标示为最大数目(其任选地带外标示)减去指示针对其作为每一超帧400的部分进行传输的调整参数。调整参数的编码优选地以非恒定步长执行，这允许使用用于调整参数的减少数目个信令位来覆盖增加的可能调整范围。此外，可使用元数据的总熵编码长度的分布的近似模型来设计非恒定调整参数步长。这允许最小化元数据字段中的未使用位的数目且因此最小化传输开销。另外，可标示元数据位率(大小)的开销，同时将元数据字段中的未使用位的数目保持为最小。因此，降低总传输位率。ci字段402内的配置信息(ci)可涉及用于四个降混声道信号w、x’、y’、z’的evs编码的选定evs帧类型。配置信息可进一步涉及(i)元数据辅助evs编码foa或hiq的选定操作模式；(ii)在hiq操作的情况下的spar元数据的位率；(iii)在foa操作的情况下的预测系数元数据的位率。配置信息的指示可为(1)动态的且连同有效负荷一起带内提供；(2)半动态的且连同先前有效负荷一起带内提供；或(3)静态的且作为十六进制字符串连同dash自适应集的编解码器属性一起带外提供。foa(一阶环绕立体声)模式是依赖于预测系数元数据的低位率操作模式(例如以约128kbps操作)。由于相对低的空间分辨率，foa通常展现相对有限的质量。hiq(高沉浸式质量)模式是中到高速率操作模式(例如以128kbps到512kbps操作)。其依赖于spar元数据且能够提供非常高的沉浸式质量，因为其旨在重构原始sr信号。图5展示用于产生位流101的方法500，其中位流101包括用于沉浸式音频信号111的(基本)帧序列的超帧400序列。沉浸式音频(ia)信号111可包括可描述参考位置处的声场的声场表示(sr)信号。参考位置可为收听者的收听位置及/或麦克风的捕获位置。sr信号可包括用于参考位置处的声场的多个不同到达方向的多个声道(或波形)。替代地或另外，ia信号111可包括一或多个音频对象及/或多声道信号。ia信号111，尤其是ia信号内包括的sr信号，可包括或可为l阶环绕立体声信号，其中l大于或等于1。替代地或另外，sr信号可展现蜂巢(bh)格式，其中多个到达方向在参考位置周围的球体上布置成多个不同环。多个环可包括中间环、上环、下环及/或天顶。替代地或另外，sr信号可展现中间空间格式，被称为isf，尤其是如杜比全景声技术中所定义的isf格式。因此，ia信号111可包括多个不同声道。ia信号111内包括的每一声道通常包括用于时间点序列或用于帧序列的音频样本序列。换句话说，本文档中所描述的“信号”通常包括用于对应时间点或帧序列(例如，在20ms或更小的时间距离处)的音频样本序列。方法500可包括从ia信号111提取一或多个音频对象。音频对象通常包括对象信号(具有用于对应时间点或帧序列的音频样本序列)。此外，音频对象通常包括指示音频对象的位置的对象元数据202。音频对象的位置可随时间变化，使得音频对象的对象元数据202可指示时间点或帧序列的位置序列。此外，方法500可包括基于ia信号111且基于一或多个音频对象来确定残余信号。残余信号可描述已从中提取及/或移除一或多个音频对象103、303的原始ia信号。残余信号可为ia信号111内包括的sr信号。替代地或另外，残余信号可包括或可为多声道音频信号及/或一层音频信号。替代地或另外，残余信号可包括固定对象位点及/或位置处的多个音频对象(例如指派给所定义的扬声器布置的特定扬声器的音频对象)。另外，方法500可包括基于ia信号111(例如，使用降混模块210)来产生及/或提供降混信号。降混信号的声道的数目通常小于ia信号111的声道的数目。此外，方法500可包括确定联合编码或spar元数据205，所述联合编码或spar元数据205实现将降混信号(即一或多个降混声道信号203)升混为对应一或多个音频对象的一或多个经重构音频对象的对象信号。此外，联合编码或spar元数据205可实现将降混信号升混为对应残余信号的经重构残余信号。可将包括一或多个降混声道信号203、spar元数据205及对象元数据202的降混信号插入到位流101中。特定来说，方法500可包括对降混信号执行波形编码以提供一或多个降混声道信号203的帧序列的经编码音频数据206。可使用例如增强型语音服务(evs)编码来执行波形编码。此外，方法500可包括对spar元数据205及/或对一或多个音频对象的对象元数据202执行熵编码以提供待插入到位流101中的(经编码)元数据207。方法500可包括针对超帧400序列重复地，将从沉浸式音频信号111导出的一或多个降混声道信号203的一或多个(尤其是多个)帧(例如，两个或更多个帧)的经编码音频数据206插入501到超帧400的数据字段411、421、412、422中。降混声道信号203的(基本)帧可跨越20ms的降混声道信号203。超帧400可跨越(基本)帧的多个长度，例如40ms。此外，方法500可包括将用于从经编码音频数据206重构沉浸式音频信号111的一或多个(尤其是多个)帧的元数据202、205(尤其是经编码元数据207)插入502到超帧400的(单个)元数据字段403中。因此，超帧400可提供一或多个降混声道信号203的一或多个(尤其是多个)帧的元数据202、205，由此实现高效地传输ia信号111。特定来说，可使用多模式及/或多速率语音或音频编解码器来产生降混声道信号203的帧。此外，可使用多模式及/或多速率沉浸式元数据编码方案来产生元数据202、205。指示多模式及/或多速率语音或音频编解码器(其已用于降混声道信号203)的操作及/或多模式及/或多速率沉浸式元数据编码方案的操作的配置信息可包括在(当前)超帧400的配置信息字段402中，可包括在超帧400序列的先前超帧400的配置信息字段402中或可使用带外信令方案来输送。因此，可提供用于对沉浸式音频信号111进行编码的高效且灵活的方案。超帧400可包括与多个降混声道信号203相关联的经编码音频数据206。可使用多模式及/或多速率语音或音频编解码器的第一实例来产生第一降混声道信号203的帧的经编码音频数据206。此外，可使用多模式及/或多速率语音或音频编解码器的第二实例来产生第二降混声道信号203的帧的经编码音频数据206，其中多模式及/或多速率语音或音频编解码器的第一实例及第二实例可不同。配置信息(包括在当前超帧400、先前超帧400内或带外输送)可指示多模式及/或多速率语音或音频编解码器的第一实例及第二实例(尤其是每一实例)的操作。通过这样做，可进一步增加对沉浸式音频信号111进行编码的灵活性及效率。换句话说，方法500可包括分别将从沉浸式音频信号111导出的第一降混声道信号203及第二降混声道信号203的一或多个帧的经编码音频数据206插入到超帧400的一或多个第一数据字段411、421及一或多个第二数据字段412、422中。可使用第一(音频或语音)编码器来对第一降混声道信号203进行编码，且可使用第二(音频或语音)编码器来对第二降混声道信号进行编码。第一编码器及第二编码器可不同或可使用不同配置来操作。此外，方法500可包括在超帧400内、在超帧400序列的先前超帧400内或使用带外信令方案提供有关第一编码器及第二编码器的配置信息。通过这样做，可进一步增加对沉浸式音频信号111进行编码的灵活性及效率。方法500可包括将标头字段401插入到超帧400中。标头字段401可指示超帧400的元数据字段403的大小，由此使超帧400的大小能够以灵活方式适应(熵及/或无损编码)元数据207的变动长度。元数据字段403可展现最大可能大小(其可例如在超帧400的任选配置信息字段402内指示)。标头字段401可指示调整值，且超帧400的元数据字段403的大小可对应于最大可能大小减去调整值，由此实现以精确且高效的方式标示元数据字段403的大小。标头字段401可包括元数据字段403的大小的大小指示符(例如，调整值)。大小指示符可对于元数据字段403的大小的不同大小范围展现不同分辨率或步长(关于大小间隔)。大小指示符的分辨率及/或步长可取决于(熵编码)元数据的统计大小分布。通过提供具有变动分辨率的大小指示符，可改进用于标示元数据字段403的大小的位率效率。标头字段401可指示超帧400是否包括配置信息字段402。换句话说，标头字段401可指示配置信息字段402的存在。如果需要(例如，如果ia信号111的编码器的配置已变化)，那么可仅将配置信息字段402插入到超帧400中。因此，可改进超帧400序列的位率效率。标头字段401可指示在当前超帧400内不存在配置信息字段402。方法500可包括在超帧400序列的先前超帧400中或使用带外信令方案输送配置信息。因此，可以高效方式传输配置信息(其至少是暂时静态的)。替代地或另外，标头字段401可指示超帧400是否包括用于有关沉浸式音频信号111的额外信息的扩展字段404。因此，超帧结构可以灵活方式适应未来扩展。方法500可包括将配置信息字段402插入到超帧400中(如果需要)。配置信息字段402可指示超帧400的数据字段411、421、412、422内包括的降混声道信号203的数目。替代地或另外，配置信息字段402可指示ia信号111内包括的声场表示信号的次序。因此，可编码及传输各种不同类型的ia信号111(具有各种不同类型的sr信号)。配置信息字段402可指示元数据字段403的最大可能大小。替代地或另外，配置信息字段402可指示用于对一或多个降混声道信号203中的每一者进行编码的帧类型及/或编码模式。这个信息的提供可实现使用不同编码方案对ia信号111进行编码。可使用多模式及/或多速率语音或音频编解码器来产生降混声道信号203的帧的经编码音频数据206。替代地或另外，可使用多模式及/或多速率沉浸式元数据编码方案来产生(经编码)元数据207。因此，ia信号111可以相对高质量及相对低数据速率来编码。超帧400序列的超帧400可构成使用传输协议(尤其是dash、rtsp或rtp)传输或根据存储格式(尤其是isobmff)存储在文件中的数据元素的至少一部分。换句话说，包括超帧400序列的位流101可使用传输协议或存储格式的一或多个数据元素。由此使位流101能够以高效且可靠的方式传输或存储。图6展示用于从位流101导出有关沉浸式音频信号111的数据的实例方法600的流程图。位流101包括用于沉浸式音频信号111的帧序列的超帧400序列。在优选实例中，ia信号111的多个(基本)帧包括在单个超帧400中。应注意，在用于产生位流101的方法500的上下文中所描述的所有特征可以类似方式适用于用来从位流101导出数据的方法600。ia信号111可包括sr信号、多声道信号及/或一或多个音频对象。在方法500的上下文中及/或在编码装置110的上下文中所描述的方面及/或特征也以类似及/或互补方式适用于方法600及/或解码装置120(反之亦然)。方法600包括针对超帧400序列重复地，从超帧400的数据字段411、421、412、422提取601从沉浸式音频信号111导出的一或多个降混声道信号203的一或多个(尤其是多个)帧的经编码音频数据206。此外，方法600包括从超帧400的元数据字段403提取602用于从经编码音频数据206重构沉浸式音频信号111的一或多个(尤其是多个)帧的(经编码)元数据207。方法600可包括从经编码音频数据206及从元数据207(尤其是从对象元数据202)导出一或多个经重构音频对象。如上文所指示，音频对象通常包括对象信号及指示音频对象的(时变)位置的对象元数据202。此外，方法600可包括从经编码音频数据206及从元数据202、205导出经重构残余信号。一或多个经重构音频对象及经重构残余信号可描述及/或可指示ia信号111。特定来说，可从位流101提取数据(例如ia信号111内包括的sr信号的次序)，这实现确定经重构ia信号121，其中经重构ia信号121是原始ia信号111的近似值。如上文所指示，用于从位流101导出有关沉浸式音频信号111的数据的方法600可包括对应于用于产生位流101的方法500的特征。特定来说，方法600可包括从给定超帧400提取标头字段401。给定超帧400的元数据字段403的大小可从标头字段401导出。可如在方法500的上下文中所概述那样指示元数据字段403的大小。元数据字段403可展现最大可能大小，且标头字段401可指示调整值，其中超帧400的元数据字段403的大小可对应于最大可能大小减去调整值。特定来说，标头字段401可包括元数据字段403的大小的大小指示符，其中大小指示符可对于元数据字段403的大小的不同大小范围展现不同分辨率。因此，元数据存档403的大小可以位率有效方式来标示。方法600可包括基于标头字段401来确定超帧400是否包括配置信息字段402及/或在超帧400内是否存在配置信息字段402。如果不存在配置信息字段402，在先前超帧400内已提供及/或已带外提供的配置信息可用于处理超帧400内包括的一或多个降混声道信号203的一或多个帧。如果存在配置信息字段402，那么超帧400内包括的配置信息可用于处理超帧400内包括的一或多个降混声道信号203的一或多个帧。另外，方法600可包括基于标头字段401来确定超帧400是否包括用于有关沉浸式音频信号111的额外信息的扩展字段404，由此提供用于在位流101内传输信息的高效且灵活的方式。方法600可包括从超帧400提取配置信息字段402。此外，方法600可包括基于配置信息字段402来确定由超帧400的数据字段411、421、412、422表示的降混声道信号203的数目，由此实现精确地处理超帧400内包括的一或多个降频声道信号203的一或多个帧。此外，方法600可包括基于配置信息字段402来确定元数据字段403的最大可能大小。另外，方法600可包括基于配置信息字段402来确定实现精确地重构ia信号111的沉浸式音频信号111的次序。方法600还可包括基于配置信息字段402来确定用于对一或多个降混声道信号中的每一者进行编码的帧类型及/或编码模式，由此实现精确地处理超帧400内包括的一或多个降混声道信号203的一或多个帧。本发明的各种实例实施例可以硬件或专用电路、软件、逻辑或其任何组合来实施。一些方面可以硬件来实施，而其它方面可以可由控制器、微处理器或其它计算装置执行的固件或软件来实施。一般来说，本发明应被理解为还涵盖适合于执行上文所描述的方法的设备，例如具有存储器及耦合到存储器的处理器的设备(空间渲染器)，其中所述处理器经配置以根据本发明的实施例执行指令且执行方法。虽然本发明的实例实施例的各个方面被说明及描述为框图、流程图或使用某个其它图形表示进行说明及描述，但将明白，本文中所描述的框、设备、系统、技术或方法作为非限制性实例可以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器、或其它计算装置或其某个组合来实施。另外，流程图中所展示的各个框可被视为方法步骤，及/或被视为起因于计算机程序代码的操作的操作，及/或被视为经构造以实行(若干)执行相关联功能的多个耦合逻辑电路元件。例如，本发明的实施例包含计算机程序产品，所述计算机程序产品包括有形地体现在机器可读媒体上的计算机程序，其中计算机程序含有经配置以实行如上文所描述的方法的程序代码。在本发明的上下文中，机器可读媒体可为任何有形媒体，其可含有或存储供或结合指令执行系统、设备或装置使用的程序。机器可读媒体可为机器可读信号媒体或机器可读存储媒体。机器可读媒体可包含但不限于电子、磁性、光学、电磁、红外线或半导体系统、设备或装置，或前述的任何合适组合。机器可读存储媒体的更特定实例将包含具有一或多个电线的电连接、便携式计算机软盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便携式光盘只读存储器(cd-rom)、光学存储装置、磁性存储装置或前述的任何合适组合。用于实行本发明的方法的计算机程序代码可以一或多种编程语言的任何组合来编写。可将这些计算机程序代码提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器，使得所述程序代码在由所述计算机或其它可编程数据处理设备的处理器执行时致使实施流程图及/或框图中所指定的功能/操作。所述程序代码可完全在计算机上执行，部分在计算机上作为独立软件包执行，部分在计算机上且部分在远程计算机上执行，或完全在远程计算机或服务器上执行。此外，虽然以特定次序描绘操作，但这不应被理解为要求以所展示的特定次序或以顺序次序执行此类操作，或执行所有所说明操作以实现期望结果。在某些情况下，多任务及并行处理可能是有利的。同样地，虽然以上讨论中含有若干特定实施方案细节，但这些细节不应被解释为对任何发明或可能主张的内容的范围的限制，而是应被解释为对可能特定于特定发明的特定实施例的特征的描述。本说明书在单独实施例的上下文中所描述的某些特征也可在单个实施例中组合地实施。相反，在单个实施例的上下文中所描述的各种特征也可单独地或以任何合适子组合在多个实施例中实施。应注意，描述及附图仅仅说明所提出方法及设备的原理。因此，将明白，所属领域的技术人员将能够设计出各种布置，所述布置尽管未在本文中明确地描述或展示，但体现本发明的原理且包含在其精神及范围内。此外，本文中所引用的所有实例原则上明确地意在仅用于教学目的以辅助读者理解所提出方法及设备的原理以及发明人为进一步发展所属领域贡献的构思，且应被解释为不限于此类具体引用的实例及条件。此外，本文中引用本发明的原理、方面及实施例以及其特定实例的所有陈述意在涵盖其等效物。当前第1页1 2 3

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。