HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

用于6DOF音频渲染的方法、设备和系统及用于6DOF音频渲染的数据表示和位流结构与流程

2021-01-28 17:01:44|357|起点商标网
用于6DOF音频渲染的方法、设备和系统及用于6DOF音频渲染的数据表示和位流结构与流程

相关申请案

本申请要求2018年4月11日提交的美国临时申请序列号62/655,990的权益,该申请通过引用以其整体被并入本文中。

本公开涉及提供用于六自由度(6dof)音频渲染的设备、系统和方法,具体地说,与用于6dof音频渲染的数据表示和位流结构有关。



背景技术:

目前缺乏用于与用户的六自由度(6dof)移动组合来渲染音频的适当解决方案。尽管存在用于与三自由度(3dof)移动(偏航、俯仰、滚动)组合来渲染通道、对象和一阶/更高阶高保真度立体声响复制(hoa)信号的解决方案,但是缺乏对与用户的六自由度(6dof)移动(偏航、俯仰、滚动和平移移动)组合来处置此类信号的支持。

一般地,3dof音频渲染提供声场,其中一或多个音频源在围绕预定听者位置(称为3dof位置)的角位置处被渲染。3dof音频渲染的一个示例被包含在mpeg-h3d音频标准(缩写为mpeg-h3da)中。

尽管mpeg-h3da被开发来支持用于3dof的通道、对象和hoa信号,但是它还不能处置真正的6dof音频。预想的mpeg-i3d音频实现被期望以有效的方式(优选地包含有效的信号生成、编码、解码和/或渲染)将3dof(和3dof+)功能性向6dof3d音频设备扩展,同时优选地提供3dof渲染向后兼容性。

鉴于上述内容,本公开的目的是提供用于3d音频编码和/或3d音频渲染的方法、设备和数据表示和/或位流结构,其允许有效的6dof音频编码和/或渲染,优选地带有用于例如根据mpeg-h3da标准的3dof音频渲染的向后兼容性。

本公开的另一个目的可以是提供用于3d音频编码和/或3d音频渲染的数据表示和/或位流结构,其允许有效的6dof音频编码和/或渲染,优选地带有用于例如根据mpeg-h3da标准的3dof音频渲染的向后兼容性,以及用于有效的6dof音频编码和/或渲染的编码和/或渲染设备,优选地带有用于例如根据mpeg-h3da标准的3dof音频渲染的向后兼容性。



技术实现要素:

根据示例性方面,可以提供有一种用于将音频信号编码到位流中(具体地说在编码器处)的方法,该方法包括:将与3dof音频渲染关联的音频信号数据编码和/或包含到位流的一或多个第一位流部分中;和/或将与6dof音频渲染关联的元数据编码和/或包含到位流的一或多个第二位流部分中。

根据示例性方面,与3dof音频渲染关联的音频信号数据包含一或多个音频对象的音频信号数据。

根据示例性方面,一或多个音频对象位于围绕默认3dof听者位置的一或多个球体上。

根据示例性方面,与3dof音频渲染关联的音频信号数据包含一或多个音频对象的方向数据和/或一或多个音频对象的距离数据。

根据示例性方面,与6dof音频渲染关联的元数据指示一或多个默认3dof听者位置。

根据示例性方面,与6dof音频渲染关联的元数据包含或指示以下至少一个:6dof空间的描述,任选地包含对象坐标;一或多个音频对象的音频对象方向;虚拟现实(vr)环境;和/或与距离衰减、遮挡和/或混响有关的参数。

根据示例性方面,该方法可以进一步包含:从一或多个音频源接收音频信号;和/或基于来自一或多个音频源的音频信号和变换函数来生成与3dof音频渲染关联的音频信号数据。

根据示例性方面,通过使用变换函数将来自一或多个音频源的音频信号变换为3dof音频信号来生成与3dof音频渲染关联的音频信号数据。

根据示例性方面,变换函数将一或多个音频源的音频信号映射或投影到位于围绕默认3dof听者位置的一或多个球体上的相应音频对象上。

根据示例性方面,该方法可以进一步包含:基于与距离衰减、遮挡和/或混响有关的环境特性和/或参数来确定变换函数的参数化。

根据示例性方面,位流是mpeg-h3d音频位流或使用mpeg-h3d音频语法的位流。

根据示例性方面,位流的一或多个第一位流部分表示位流的有效载荷,和/或一或多个第二位流部分表示位流的一或多个扩展容器。

根据仍有的另一示例性方面,可以提供有一种用于解码和/或音频渲染(具体地说在解码器或音频渲染器处)的方法,该方法包括:接收位流,其在位流的一或多个第一位流部分中包含与3dof音频渲染关联的音频信号数据,并且在位流的一或多个第二位流部分中进一步包含与6dof音频渲染关联的元数据,和/或基于所接收的位流来执行3dof音频渲染和6dof音频渲染中的至少一个。

根据示例性方面,在执行3dof音频渲染时,基于在位流的一或多个第一位流部分中的与3dof音频渲染关联的音频信号数据来执行3dof音频渲染,同时丢弃在位流的一或多个第二位流部分中的与6dof音频渲染关联的元数据。

根据示例性方面,在执行6dof音频渲染时,基于在位流的一或多个第一位流部分中的与3dof音频渲染关联的音频信号数据和在位流的一或多个第二位流部分中的与6dof音频渲染关联的元数据来执行6dof音频渲染。

根据示例性方面,与3dof音频渲染关联的音频信号数据包含一或多个音频对象的音频信号数据。

根据示例性方面,一或多个音频对象位于围绕默认3dof听者位置的一或多个球体上。

根据示例性方面,与3dof音频渲染关联的音频信号数据包含一或多个音频对象的方向数据和/或一或多个音频对象的距离数据。

根据示例性方面,与6dof音频渲染关联的元数据指示一或多个默认3dof听者位置。

根据示例性方面,与6dof音频渲染关联的元数据包含或指示以下至少一个:6dof空间的描述,任选地包含对象坐标;一或多个音频对象的音频对象方向;虚拟现实(vr)环境;和/或与距离衰减、遮挡和/或混响有关的参数。

根据示例性方面,基于来自一或多个音频源的音频信号和变换函数来生成与3dof音频渲染关联的音频信号数据。

根据示例性方面,通过使用变换函数将来自一或多个音频源的音频信号变换为3dof音频信号来生成与3dof音频渲染关联的音频信号数据。

根据示例性方面,变换函数将一或多个音频源的音频信号映射或投影到位于围绕默认3dof听者位置的一或多个球体上的相应音频对象上。

根据示例性方面,位流是mpeg-h3d音频位流或使用mpeg-h3d音频语法的位流。

根据示例性方面,位流的一或多个第一位流部分表示位流的有效载荷,和/或一或多个第二位流部分表示位流的一或多个扩展容器。

根据示例性方面,基于在位流的一或多个第一位流部分中与3dof音频渲染关联的音频信号数据和在位流的一或多个第二位流部分中与6dof音频渲染关联的元数据来执行6dof音频渲染,其包含基于与3dof音频渲染关联的音频信号数据和逆变换函数来生成与6dof音频渲染关联的音频信号数据。

根据示例性方面,通过使用逆变换函数和与6dof音频渲染关联的元数据对与3dof音频渲染关联的音频信号数据进行变换来生成与6dof音频渲染关联的音频信号数据。

根据示例性方面,逆变换函数是将一或多个音频源的音频信号映射或投影到位于围绕默认3dof听者位置的一或多个球体上的相应音频对象上的变换函数的逆函数。

根据示例性方面,基于与在位流的一或多个第一位流部分中的3dof音频渲染关联的音频信号数据来执行3dof音频渲染与在默认3dof听者位置处,基于在位流的一或多个第一位流部分中的与3dof音频渲染关联的音频信号数据和在位流的一或多个第二位流部分中的与6dof音频渲染关联的元数据来执行6dof音频渲染产生相同的生成的声场。

根据仍有的另一示例性方面,可以提供有用于音频渲染的位流,该位流在位流的一或多个第一位流部分中包含与3dof音频渲染关联的音频信号数据,并且在位流的一或多个第二位流部分中进一步包含与6dof音频渲染关联的元数据。此方面可以与上述示例性方面中的任一项或多项组合。

根据仍有的另一示例性方面,可以提供有一种包含处理器的设备,具体地说编码器,该处理器被配置成:将与3dof音频渲染关联的音频信号数据编码和/或包含到位流的一或多个第一位流部分中;将与6dof音频渲染关联的元数据编码和/或包含到位流的一或多个第二位流部分中。和/或输出编码的位流。此方面可以与上述示例性方面中的任一项或多项组合。

根据仍有的另一示例性方面,可以提供有一种包含处理器的设备,具体地说解码器或音频渲染器,该处理器被配置成:接收位流,其在位流的一或多个第一位流部分中包含与3dof音频渲染关联的音频信号数据,并且在位流的一或多个第二位流部分中进一步包含与6dof音频渲染关联的元数据,和/或基于所接收的位流来执行3dof音频渲染和6dof音频渲染中的至少一个。此方面可以与上述示例性方面中的任一项或多项组合。

根据示例性方面,在执行3dof音频渲染时,处理器被配置成基于在位流的一或多个第一位流部分中的与3dof音频渲染关联的音频信号数据来执行3dof音频渲染,同时丢弃在位流的一或多个第二位流部分中的与6dof音频渲染关联的元数据。

根据示例性方面,在执行6dof音频渲染时,处理器被配置成基于在位流的一或多个第一位流部分中的与3dof音频渲染关联的音频信号数据和在位流的一或多个第二位流部分中的与6dof音频渲染关联的元数据来执行6dof音频渲染。

根据仍有的另一示例性方面,可以提供有一种包含指令的非暂时性计算机程序产品,所述指令在由处理器执行时促使处理器执行用于将音频信号编码到位流中(具体地说在编码器处)的方法,该方法包括:将与3dof音频渲染关联的音频信号数据编码或包含到位流的一或多个第一位流部分中;和/或将与6dof音频渲染关联的元数据编码或包含到位流的一或多个第二位流部分中。此方面可以与上述示例性方面中的任一项或多项组合。

根据仍有的另一示例性方面,可以提供有一种包含指令的非暂时性计算机程序产品,所述指令在由处理器执行时促使处理器执行用于解码和/或音频渲染(具体地说在解码器或音频渲染器处)的方法,该方法包括:接收位流,其在位流的一或多个第一位流部分中包含与3dof音频渲染关联的音频信号数据,并且在位流的一或多个第二位流部分中进一步包含与6dof音频渲染关联的元数据,和/或基于所接收的位流来执行3dof音频渲染和6dof音频渲染中的至少一个。此方面可以与上述示例性方面中的任一项或多项组合。

本公开的其它方面涉及对应计算机程序和计算机可读存储介质。

将领会的是,方法步骤和设备特征可以以多种方式互换。具体地说,如本领域技术人员将领会的,所公开的方法的细节可以被实现为适于执行该方法的一些或全部步骤的设备,且反之亦然。具体地说,理解的是,关于所述方法所作的相应陈述同样地适用于对应设备,且反之亦然。

附图说明

下面参考附图解释本公开的示例实施例,其中相同的附图标记可以指示相似或类似的元件,并且其中:

图1示意性地图示了根据本公开的示例性方面的包含mpeg-h3d音频解码器/编码器接口的示例性系统。

图2示意性地图示了房间(6dof空间)的6dof场景的示例性顶视图。

图3示意性地图示了根据本公开的示例性方面的图2的6dof场景的示例性顶视图和3dof音频数据和6dof扩展元数据。

图4a意性地图示了根据本公开的示例性方面的用于处理3dof、6dof和音频数据的示例性系统。

图4b意性地图示了根据本公开的示例性方面的用于6dof音频渲染和3dof音频渲染的示例性解码和渲染方法。

图5示意性地图示了根据图2至4b中的一或多个,在系统中的3dof位置处的6dof音频渲染和3dof音频渲染的示例性匹配条件。

图6a意性地图示了根据本公开的示例性方面的示例性数据表示和/或位流结构。

图6b意性地图示了根据本公开的示例性方面的基于图6a的数据表示和/或位流结构的示例性3dof音频渲染。

图6c意性地图示了根据本公开的示例性方面的基于图6a的数据表示和/或位流结构的示例性6dof音频渲染。

图7a意性地图示了根据本公开的示例性方面的基于3dof音频信号数据的6dof音频编码变换a。

图7b意性地图示了根据本公开的示例性方面的用于基于3dof音频信号数据来近似/恢复6dof音频信号数据的6dof音频解码变换a-1

图7c意性地图示了根据本公开的示例性方面的基于图7b的近似/恢复的6dof音频信号数据的示例性6dof音频渲染。

图8示意性地图示了根据本公开的示例性方面的3dof/6dof位流编码的方法的示例性流程图。

图9示意性地图示了根据本公开的示例性方面的3dof和/或6dof音频渲染的方法的示例性流程图。

具体实施方式

在下文中,将参考附图更详细地描述优选的示例性方面。不同附图和实施例中相同或类似的特征可以用类似的附图标记表示。要理解的是,下面与各种优选示例性方面有关的详细描述不意味着限制本发明的范围。

在本文中使用时,“mpeg-h3d音频”将指如在iso/iec23008-3和/或iso/iec23008-3标准的任何过去和/或将来的修改、版次或其的其它版本中标准化的规范。

在本文中使用时,mpeg-i3d音频实现被期望将3dof(和3dof+)功能性向6dof3d音频扩展,同时优选地提供3dof渲染向后兼容性。

在本文中使用时,3dof通常是能够正确处置通过三个参数(例如偏航、俯仰、滚动)指定的用户的头部移动(具体地说头部旋转)的系统。此类系统经常在各种游戏系统中可用,诸如虚拟现实(vr)/增强现实(ar)/混合现实(mr)系统,或其它此类类型的声环境。

在本文中使用时,6dof通常是能够正确处置3dof和平移移动的系统。

本公开的示例性方面涉及音频系统(例如,与mpeg-i音频标准兼容的音频系统),其中通过将有关的元数据转换为3dof格式,诸如与mpeg标准(例如,mpeg-h3da标准)兼容的音频渲染器输入格式,音频渲染器将功能性向6dof扩展。

图1图示了示例性系统100,其被配置成除现有3dof系统之外还使用元数据扩展和/或音频渲染器扩展,以便使得6dof体验能实现。系统100包含原始环境101(其可以示例性地包含一或多个音频源101a)、内容格式102(例如,包含3d音频数据的位流)、编码器103和所提议的元数据编码器扩展106。系统100还可以包含3d音频渲染器105(例如3dof渲染器)和支持者渲染器扩展107(例如,用于再现的环境108的6dof渲染器扩展)。

在通过3dof的3d音频渲染的方法中,仅在预定3dof位置处的用户的角取向的角度(例如偏航角y、俯仰角p,滚动角r)可以被输入到3dof音频渲染器105。通过扩展的6dof功能性,用户的位置坐标(例如x、y和z)可以另外被输入到6dof音频渲染器(扩展渲染器)。

本公开的优点包含用于在编码器与解码器之间传送的位流的位速率改进。位流可以按照例如mpeg-i音频标准和/或mpeg-h3d音频标准的标准来编码和/或解码,或者至少向后兼容诸如mpeg-h3d音频标准的标准。

在一些示例中,本公开的示例性方面涉及与多个系统兼容的单个位流(例如,mpeg-h3d音频(3da)位流(bs)或使用mpeg-h3dabs的语法的位流)的处理。

例如,在一些示例性方面中,音频位流可以与两个或两个以上不同渲染器兼容,例如,可以与一个标准(例如,mpeg-h3d音频标准)兼容的3dof音频渲染器和可以与第二不同标准(例如,mpeg-i音频标准)兼容的新定义的6dof音频渲染器或渲染器扩展。

本公开的示例性方面涉及被配置成执行相同音频位流的解码和渲染的不同解码器,优选地以便产生相同音频输出。

例如,本公开的示例性方面涉及3dof解码器和/或3dof渲染器和/或6dof解码器和/或6dof渲染器,其被配置成为相同的位流(例如,3dabs或使用3dabs的位流)产生相同的输出。示例性地,位流可以包含关于在vr/ar/mr(虚拟现实/增强现实/混合现实)空间中听者的定义位置的信息,例如作为6dof元数据的一部分。

本公开示例性地进一步涉及被配置成分别编码和/或解码6dof信息(例如,与mpeg-i音频环境兼容)的编码器和/或解码器,其中本公开的此类编码器和/或解码器提供以下优点中的一或多个:

·vr/ar/mr有关的音频数据的质量和位率有效表示及其封装成音频位流语法(例如,mpeg-h3d音频bs);

·各种系统(例如,mpeg-h3da标准和预想的mpeg-i音频标准)之间的向后兼容性。

为了优选地避免在3dof与6dof解决方案之间的竞争和提供在当前与未来技术之间的平滑过渡,向后兼容性是非常有益的。

例如,在3dof音频系统与6dof音频系统之间的向后兼容性可以是非常有益的,诸如在诸如mpeg-i音频的6dof音频系统中提供对诸如mpeg-h3d音频的3dof音频系统的向后兼容性。

根据本公开的示例性方面,这能够通过例如在位流级别上为6dof有关的系统提供向后兼容性来实现,所述6dof有关的系统包括:

·3dof音频材料编码的数据和有关的元数据;以及

·6dof有关的元数据。

本公开的示例性方面涉及标准3dof位流语法,诸如第一类型的音频位流(例如,mpeg-h3dabs)语法,其例如在第一类型的音频位流(例如,mpeg-h3dabs)的一或多个扩展容器中封装6dof位流元素,诸如mpeg-i音频位流元素。

为了提供在性能级别上确保向后兼容性的系统,以下系统和/或结构可以是相关的并且可以出现:

1a.3dof系统(例如,与mpeg-h3da的标准兼容的系统)应当能够忽略所有6dof有关的语法元素(例如,基于mpeg-h3d音频位流语法的“mpegh3daextelementconfig()”或“mpegh3daextelement()”的功能性而忽略mpeg-i音频位流语法元素),即,3dof系统(解码器/渲染器)可以优选地被配置成忽略另外的6dof有关的数据和/或元数据(例如,通过不读取6dof有关的数据和/或元数据);以及

2a.位流有效载荷的剩余部分(例如,含有与mpeg-h3da位流解析器兼容的数据和/或元数据的mpeg-i音频位流有效载荷)应是可由3dof系统(例如,遗留mpeg-h3da系统)解码的,以便产生期望的音频输出,即,3dof系统(解码器/渲染器)可以优选地被配置成解码bs的3dof部分;以及

3a.6dof系统(例如,mpeg-i音频系统)应能够处理音频位流的3dof有关的部分和6dof有关的部分,并且在vr/ar/mr空间中在预定义的向后兼容的(一或多个)3dof位置处产生与3dof系统(例如,mpeg-h3da系统)的音频输出相匹配的音频输出,即,6dof系统(解码器/渲染器)可以优选地被配置成在默认的(一或多个)3dof位置处渲染与3dof渲染的声场/音频输出相匹配的声场/音频输出;以及

4a.6dof系统(例如,mpeg-i音频系统)应围绕预定的向后兼容的(一或多个)3dof位置提供音频输出的平滑变化(过渡)(即,在6dof空间中提供连续的声场),即,6dof系统(解码器/渲染器)可以优选地被配置成在默认的(一或多个)3dof位置的周围渲染在默认的(一或多个)3dof位置处平滑地过渡到3dof渲染的声场/音频输出的声场/音频输出。

在一些示例中,本公开涉及提供6dof音频渲染器(例如,mpeg-i音频渲染器),其在一个、多个或一些3dof位置中产生与3dof音频渲染器(例如,mpeg-h3d音频渲染器)相同的音频输出。

目前,在直接将3dof有关的音频信号和元数据直接传输到6dof音频系统时存在缺陷,其包括:

1.位率增大(即,除6dof有关的音频信号和元数据之外还发送3dof有关的音频信号和元数据);以及

2.有限的有效性(即,(一或多个)3dof有关的音频信号和元数据仅对(一或多个)3dof位置有效)。

本公开的示例性方面涉及克服上述缺点。

在一些示例中,本公开涉及:

1.使用3dof兼容的(一或多个)音频信号和元数据(例如,与mpeg-h3d音频兼容的信号和元数据)而不是原始音频源信号和元数据(或作为原始音频源信号和元数据的补充);和/或

2.将适用性范围(对于6dof渲染的使用)从(一或多个)3dof位置增大到6dof空间(由内容创建者定义),同时保持高级别的声场近似。

本公开的示例性方面涉及有效地生成,编码,解码和渲染(一或多个)此类信号,以便实现这些目标和提供6dof渲染功能性。

图2图示了示例性房间202的示例性顶视图201。如图2中所示,示例性听者站在带有几个音频源和非平凡墙壁几何形状的房间的中间。在6dof设备(例如,提供用于6dof能力的系统)中,示例性听者能够四处移动,但是在一些示例中假设默认3dof位置206可以对应于最佳vr/ar/mr音频体验的预期区域(例如,根据内容创建者的设置或意图)。

具体地说,图2示例性地图示了墙壁203、6dof空间204、示例性(可选的)方向性向量205(例如,如果一或多个声源定向地发射声音)、3dof听者位置206(默认3dof位置206)和在图2中示例性地图示为星形的音频源207。

图3图示了例如如在图2中的示例性6dofvr/ar/mr场景,以及在3dof音频位流302(例如,诸如mpeg-h3d音频位流)和扩展容器303中含有的音频对象(音频数据+元数据)320。可以经由与mpeg标准(例如,mpeg-h或mpeg-i)兼容的设备或系统(例如,软件、硬件或经由云)对音频位流302和扩展容器303进行编码。

本公开的示例性方面涉及在使用6dof音频渲染器(例如,mpeg-i音频渲染器)时,以对应于3dof音频渲染器(例如,mpeg-h音频渲染器)输出信号(可以与物理定律声音传播一致或不一致)的方式在“3dof位置”中重建声场。此声场应优选地是基于原始的“音频源”,并且反映对应vr/ar/mr环境的复杂几何形状的影响(例如,“墙壁”、结构、声音反射、混响和/或遮挡等的效应)。

本公开的示例性方面涉及由编码器以确保满足上述对应要求(1a)-(4a)的一个、多个或优选地全部的方式对描述该场景的所有相关信息进行参数化。

如果并行地运行两个音频渲染模式(即,3dof和6dof)并且将内插算法应用于6dof空间中的对应输出,则此类方案将是次优的,因为它将要求:

·并行执行两个截然不同的渲染算法(即,一个用于特定的3dof位置,一个用于6dof空间);

·大量音频数据(用于传输3dof音频渲染器的另外音频数据)。

本公开的示例性方面避免了上述缺点,因为优选地仅执行单个音频渲染模式(例如,而不是并行执行两个音频渲染模式)和/或3dof音频数据优选地被用于带有用于恢复和/或近似(一或多个)原始声源信号的另外元数据的6dof音频渲染(例如,而不是传送3dof音频数据和(一或多个)原始声源数据)。

本公开的示例性方面涉及(1)单个6dof音频渲染算法(例如,与mpeg-i音频兼容),其优选地在(一或多个)特定位置处产生与3dof音频渲染算法(例如,与mpeg-h3da兼容)完全相同的输出,和/或(2)表示音频(例如,3dof音频数据)和6dof有关的音频元数据,以最小化6dof音频位流数据(例如,mpeg-i音频位流数据)的3dof和vr/ar/mr有关的部分中的冗余。

本公开的示例性方面涉及使用第一标准化格式位流(例如,mpeg-h3dabs)语法来封装第二标准化格式位流(例如,未来标准,例如,mpeg-i)或其部分和6dof有关的元数据,以:

·传输(例如,在3dof音频位流语法的核心部分中)优选地由3dof音频系统解码的音频源信号和元数据,所述3dof音频系统优选地在(默认)(一或多个)3dof位置中足够好地近似期望声场;以及

·传输(例如,在3dof音频位流语法的扩展部分中)被用来近似(恢复)用于6dof音频渲染的原始音频源信号的6dof有的关元数据和/或其它数据(例如,参数或/和信号数据)。

本发明的一方面涉及确定期望的“(一或多个)3dof位置”和在编码器侧3dof音频系统(例如,mpeg-h3da系统)兼容信号。

例如,如相对于图3所示,由于一些3dof系统(例如mpeg-h3da系统)不能解决vr/ar/mr环境效应(例如遮挡、混响等),因此,用于3da的虚拟3da对象信号可以在特定3dof位置中产生相同的声场(基于信号x3da),其应优选地含有用于(一或多个)特定3dof位置的vr环境的效应(“湿”信号)。图3中所图示的方法和过程可以经由多种系统和/或产品来执行。

在一些示例性方面,逆函数a-1应优选地“不湿”(即,去除vr环境的效应),这些信号应是好的,如近似原始“干”信号x(其没有vr环境的效应)所必需的。

可以优选地定义用于3dof渲染的(一或多个)音频信号((x3da)),以便例如基于以下内容为3dof和6dof音频渲染二者提供相同/类似的输出:

f3dof(x3da)→f6dof(x)for3dof公式编号(1)

音频对象可以被包含在标准化位流中。此位流可以按照诸如mpeg-h3da和/或mpeg-i的多种标准来编码。

bs可以包含关于对象信号、对象方向和对象距离的信息。

图3进一步示例性地图示了扩展容器303,其可以例如在bs中含有扩展元数据。bs的扩展容器303可以包含以下元数据中的至少一个:(i)3dof(默认)位置参数;(ii)6dof空间描述参数(对象坐标);(iii)(可选的)对象方向性参数;(iv)(可选的)vr/ar/mr环境参数;和/或(v)(可选的)距离衰减参数、遮挡参数和/或混响参数等。

基于以下内容,可以包含有期望的音频渲染的近似:

f6dof(x*)≈f6dof(x)for6dof公式编号(2)

该近似可以是基于vr环境,其中环境特性可以被包含在扩展容器元数据中。

另外或任选地,优选地基于以下内容,可以提供用于6dof音频渲染器(例如,mpeg-i音频渲染器)输出的平滑度:

本公开的示例性方面涉及在编码器侧上定义3dof音频对象(例如,mpeg-h3da对象),优选地基于:

x3da:=a(x),‖f3dof(x3da)-f6dof(x)for3dof‖→min公式编号(4)

本公开的一方面涉及基于以下内容的在解码器上原始对象的恢复:

x*:=a-1(x3da)公式编号(5)

其中,x涉及声源/对象信号,x*涉及声源/对象信号的近似,f(x)for3dof/for6dof涉及用于(一或多个)3dof/6dof听者位置的音频渲染函数,3dof涉及(一或多个)给定参考兼容性位置∈6dof空间;6dof涉及(一或多个)任意允许位置∈vr场景;

·f6fof(x)涉及解码器指定的6dof音频渲染(例如,mpeg-i音频渲染);

·f3dof(x3da)涉及解码器指定的3dof渲染(例如,mpeg-h3da渲染);以及

·a、a-1涉及基于信号x及其逆(a-1)来近似信号x3da的函数(a)。

优选地,以对应于3dof音频渲染器输出信号的方式,“3dof位置”中使用6dof音频渲染器来重建近似的声源/对象信号。

优选地基于声场来近似声源/对象信号,该声场是基于原始“音频源”并且反映对应vr/ar/mr环境(例如,“墙壁”、结构、混响、遮挡等)的复杂几何形状的影响。

即,用于3da的虚拟3da对象信号优选地在特定3dof位置中产生相同的声场(基于信号x3da),其含有用于(一或多个)特定3dof位置的vr环境的效应。

以下内容可以在渲染侧(例如,对于遵从标准(诸如mpeg-h或mpeg-i标准)的解码器)可用:

·用于3dof音频渲染的(一或多个)音频信号:x3da

·3dof或6dof音频渲染功能性:

f3dof(x3da)或f6dof(x)公式编号(6)

对于6dof音频渲染,另外在渲染侧可以有6dof元数据可用于6dof音频渲染功能性(例如,基于3dof音频信号x3da和6dof元数据来近似/恢复一或多个音频源的音频信号x)。

本公开的示例性方面涉及(i)3dof音频对象(例如,mpeg-h3da对象)的定义和/或(ii)原始音频对象的恢复(近似)。

音频对象可以示例性地被包含在3dof音频位流(例如mpeg-h3dabs)中。

位流可以包含关于对象音频信号、对象方向和/或对象距离的信息。

扩展容器(例如,诸如mpeg-h3dabs的位流的扩展容器)可以包含以下元数据中的至少一个:(i)3dof(默认)位置参数;(ii)6dof空间描述参数(对象坐标);(iii)(可选的)对象方向性参数;(iv)(可选的)vr/ar/mr环境参数;和/或(v)(可选的)距离衰减参数、遮挡参数、混响参数等。

本公开可以提供以下优点:

·向后兼容3dof音频解码和渲染(例如,mpeg-h3da解码和渲染):6dof音频渲染器(例如mpeg-i音频渲染器)输出对应于用于(一或多个)预定3dof位置的3dof渲染引擎(例如mpeg-h3da渲染引擎的3dof渲染输出。

·编码效率:对于此方案,能够有效地再使用遗留3dof音频位流语法(例如mpeg-h3da位流语法)结构。

·在(一或多个)预定(3dof)位置处的音频质量控制:对于(一或多个)任何任意位置和对应6dof空间,编码器能够明确地确保最佳感知音频质量。

本公开的示例性方面可以涉及与mpeg标准(例如mpeg-i标准)位流兼容的格式的以下信令:

·经由扩展容器机制(例如,mpeg-h3dabs)的隐式3dof音频系统(例如mpeg-h3da)兼容性信令,其使得6dof音频(例如,mpeg-i音频兼容)处理算法能够恢复原始音频对象信号。

·参数化,描述用于原始音频对象信号的近似的数据。

6dof音频渲染器可以指定如何在例如mpeg兼容系统(例如,mpeg-i音频系统)中恢复原始音频对象信号。

此提议的概念:

·关于近似函数(即a(x))的定义是通用的;

·能够是任意复杂的,但在解码器侧应存在对应近似(即);

·近似地在数学上是“明确定义的”(例如在算法上稳定等);

·在近似函数(即a(x))的类型方面是通用的;

·近似函数可以是基于以下近似类型或这些方案的任意组合(以位率消耗增大的顺序列出):

-为信号x3da应用的(一或多个)参数化音频效应(例如参数控制的级别、混响、反射、遮挡等)

-(一或多个)参数编码的修改(例如用于传送的信号x3da的时间/频率变化修改增益)

-(一或多个)信号编码修改(例如近似残余波形(x-x3da)的编码的信号);以及

·可扩展并适用于通用声场和声源表示(及其组合):对象、通道、foa、hoa。

图6a示意性地图示了根据本公开的示例性方面的示例性数据表示和/或位流结构。可以经由与mpeg标准(例如,mpeg-h或mpeg-i)兼容的设备或系统(例如,软件、硬件或经由云)已对数据表示和/或位流结构进行编码。

位流bs示例性地包含第一位流部分302,其包含3dof编码的音频数据(例如在位流的主要部分或核心部分中)。优选地,位流bs的位流语法与诸如mpeg-h3da位流语法的3dof音频渲染的bs语法兼容或相符。3dof编码的音频数据可以作为有效载荷被包含在位流bs的一或多个分组中。

如前面例如结合上面图3所描述的,3dof编码的音频数据可以包含一或多个音频对象的音频对象信号(例如,在默认3dof位置周围的球体上)。对于定向音频对象,3dof编码的音频数据可以进一步任选地包含对象方向,和/或任选地进一步指示对象距离(例如通过使用增益和/或一或多个衰减参数)。

示例性地,bs示例性地包含第二位流部分303,其包含用于6dof音频编码的6dof元数据(例如在位流的元数据部分或扩展部分中)。优选地,位流bs的位流语法与诸如mpeg-h3da位流语法的3dof音频渲染的bs语法兼容或相符。6dof元数据可以作为扩展元数据被包含在位流bs的一或多个分组中(例如,在例如已经由mpeg-h3da位流结构提供的一或多个扩展容器中)。

如前面例如结合上面图3所描述的,6dof元数据可以包含一或多个3dof(默认)位置的位置数据(例如坐标),进一步任选地包含6dof空间描述(例如对象坐标),进一步任选地包含对象方向性,进一步任选地包含描述和/或参数化vr环境的元数据,和/或进一步任选地包含关于衰减、遮挡和/或混响等的参数化信息和/或参数。

图6b示意性地图示了根据本公开的示例性方面的基于图6a的数据表示和/或位流结构的示例性3dof音频渲染。如图6a中所示,可以经由与mpeg标准(例如,mpeg-h或mpeg-i)兼容的设备或系统(例如,软件、硬件或经由云)已对数据表示和/或位流结构进行编码。

具体地,在图6b中示例性地图示了3dof音频渲染可以由可以丢弃6dof元数据的3dof音频渲染器实现,以仅基于从第一位流部分302获得的3dof编码的音频数据来执行3dof音频渲染。即,例如,在mpeg-h3da向后兼容性的情况下,mpeg-h3da渲染器能够有效且可靠地忽略/丢弃位流的扩展部分(例如,(一或多个)扩展容器)中的6dof元数据,以便仅基于从第一位流部分302获得的3dof编码的音频数据来执行有效的常规mpeg-h3da3dof(或3dof+)音频渲染。

图6c示意性地图示了根据本公开的示例性方面的基于图6a的数据表示和/或位流结构的示例性6dof音频渲染。如图6a中所示,可以经由与mpeg标准(例如,mpeg-h或mpeg-i)兼容的设备或系统(例如,软件、硬件或经由云)已对数据表示和/或位流结构进行编码。

具体地,在图6c中示例性地图示了6dof音频渲染可以由使用从第一位流部分302获得的3dof编码的音频数据及从第二位流部分303获得的6dof元数据的新颖的6dof音频渲染器(例如,根据mpeg-i或以后的标准)实现,以基于从第一位流部分302获得的3dof编码的音频数据和从第二位流部分303获得的6dof元数据来执行6dof音频渲染。

因此,在位流中没有或至少带有降低的冗余的情况下,相同的位流能够由遗留3dof音频渲染器(其允许简单且有益的向后兼容性)用于3dof音频渲染和由新颖的6dof音频渲染器用于6dof音频渲染。

图7a示意性地图示了根据本公开的示例性方面的基于3dof音频信号数据的6dof音频编码变换a。可以根据与mpeg标准(例如,mpeg-h或mpeg-i)兼容的方法、过程、设备或系统(例如,软件、硬件或经由云)来执行变换(以及任何逆变换)。

示例性地,类似于上面的图2和3,图7a示出了房间的示例性顶视图202,包含示例性地多个音频源207(其可以位于墙壁203之后,或者其声音信号可以被其它结构阻挡,这可以导致衰减、混响和/或遮挡效应)。

为实现3dof音频渲染目的,对多个音频源207的音频信号x进行变换,以便在围绕默认3dof位置206(例如,3dof声场中的听者位置)的球体s上获得3dof音频信号(音频对象)。如上所述,3dof音频信号被称为x3da,并且可以通过使用变换函数a来获得,使得:

x3da=a(x)公式编号(6)

在上述表达式中,x表示声源/对象信号,x3da表示用于在默认3dof位置206中产生相同声场的3da的虚拟3da对象信号,以及a表示基于音频信号x近似音频信号x3da的变换函数。逆变换函数a-1可以被用来恢复/近似用于6dof音频渲染的声源信号,如已经在上面和下面进一步所讨论的。注意,aa-1=1,并且a-1a=1,或者至少aa-1≈1和a-1a≈1。

一般地,在本公开的一些示例性方面中,变换函数a可以被认为是将音频信号x投影或至少映射到围绕默认3dof位置206的球体s上的映射/投影函数。

要进一步注意的是,3dof音频渲染不知道vr环境(诸如现有的墙壁203等,或可以导致衰减、混响、遮挡效应等的其它结构)。因此,变换函数a可以优选地包含基于此类vr环境特性的效应。

图7b示意性地图示了根据本公开的示例性方面的用于基于3dof音频信号数据来近似/恢复6dof音频信号数据的6dof音频解码变换a-1

通过使用逆变换函数a-1和如上面图7a中获得的近似的3dof音频信号x3da,原始音频源207的原始音频信号x*能够被恢复/近似为:

x*=a-1(x3da)。公式编号(7)

因此,图7b中的音频对象320的音频信号x*可以被恢复为与原始源207的音频信号x类似或相同,特别是在与原始源207相同的位置。

图7c示意性地图示了根据本公开的示例性方面的基于图7b的近似/恢复的6dof音频信号数据的示例性6dof音频渲染。

图7b中的音频对象320的音频信号x*随后能够被用于6dof音频渲染,其中听者的位置也变得可变。

在假设听者的听者位置是在位置206(与默认3dof位置相同的位置)处时,6dof音频渲染与基于音频信号x3da的3dof音频渲染是渲染相同的声场。

因此,在作为假设的听者位置的默认3dof位置处的6dof渲染f6dof(x*)等于(或至少近似等于)3dof渲染f3dof(x3da)。

此外,如果听者位置被移位,例如到图7c中的位置206',则在6dof音频渲染中生成的声场变得不同,但优选地可以平滑地出现。

作为另一示例,可以假设第三听者位置206",并且在6dof音频渲染中生成的声场特别是对于左上音频信号变得不同,该左上音频信号对于第三听者位置206"未被墙壁203阻挡。优选地,这变得可能,因为逆函数a-1恢复原始声源(没有诸如vr环境特性的环境效应)。

图8示意性地图示了根据本公开的示例性方面的3dof/6dof位流编码的方法的示例性流程图。要注意的是,步骤的顺序是非限制性的,并且可以根据情况改变。而且,要注意的是,方法的一些步骤是可选的。方法例如可以由解码器、音频解码器、音频/视频解码器或解码器系统执行。

在步骤s801中,方法(例如在解码器侧)接收一或多个音频源的(一或多个)原始音频信号x。

在步骤s802中,方法(任选地)确定环境特性(诸如房间形状、墙壁、墙壁声音反射特性、对象、障碍物等)和/或确定参数(参数化效应,诸如衰减、增益、遮挡、混响等)。

在步骤s803中,方法例如基于步骤s802的结果来(任选地)确定变换函数a的参数化。优选地,步骤s803提供参数化或预设的变换函数a。

在步骤s804中,方法基于变换函数a将一或多个音频源的(一或多个)原始音频信号x变换为对应一或多个近似的3dof音频信号x3da。

在步骤s805中,方法确定6dof元数据(其可以包含一或多个3dof位置、vr环境信息和/或诸如衰减、增益、遮挡、混响等环境效应的参数和参数化)。

在步骤s806中,方法将(一或多个)3dof音频信号x3da到包含(嵌入)第一位流部分(或多个第一位流部分)中。

在步骤s807中,方法将6dof元数据包含(嵌入)到第二位流部分(或多个第二位流部分)中。

随后,在步骤s808中,方法继续基于第一和第二位流部分来对位流进行编码,以提供包含第一位流部分(或多个第一位流部分)中的(一或多个)3dof音频信号x3da和第二位流部分(或多个第二位流部分)中的6dof元数据的编码的位流。

随后,能够将编码的位流提供到3dof解码器/渲染器以便仅基于第一位流部分(或多个第一位流部分)中的(一或多个)3dof音频信号x3da进行3dof音频渲染,或者到6dof解码器/渲染器以便基于第一位流部分(或多个第一位流部分)中的(一或多个)3dof音频信号x3da和第二位流部分(或多个第二位流部分)中的6dof元数据进行6dof音频渲染。

图9示意性地图示了根据本公开的示例性方面的3dof和/或6dof音频渲染的方法的示例性流程图。要注意的是,步骤的顺序是非限制性的,并且可以根据情况改变。而且,要注意的是,方法的一些步骤是可选的。方法例如可以由编码器、渲染器、音频编码器、音频渲染器、音频/视频编码器或编码器系统或渲染器系统执行。

在步骤s901中,接收包含第一位流部分(或多个第一位流部分)中的(一或多个)3dof音频信号x3da和第二位流部分(或多个第二位流部分)中的6dof元数据的编码的位流。

在步骤s902中,从第一位流部分(或多个第一位流部分)获得(一或多个)3dof音频信号x3da。这能够由3dof解码器/渲染器以及也由6dof解码器/渲染器完成。

如果解码器/渲染器是用于3dof音频渲染目的的遗留设备(或切换到3dof音频渲染模式的新3dof/6dof解码器/渲染器),则方法通过步骤s903继续,其中6dof元数据被丢弃/忽略,并且随后继续到3dof音频渲染操作,以基于从第一位流部分(或多个第一位流部分)获得的(一或多个)3dof音频信号x3da来渲染3dof音频。

即,有利地保证了向后兼容性。

另一方面,如果解码器/渲染器是用于6dof音频渲染目的(诸如新的6dof解码器/渲染器或切换到6dof音频渲染模式的3dof/6dof解码器/渲染器),则方法通过步骤s905继续以从(一或多个)第二位流部分获得6dof元数据。

在步骤s906中,方法基于从第二位流部分(或多个第二位流部分)获得的6dof元数据和逆变换函数a-1,从获得的来自第一位流部分(或多个第一位流部分)的(一或多个)3dof音频信号x3da近似/恢复音频对象/源的音频信号x*。

随后,在步骤s907中,方法继续以基于音频对象/源的近似/恢复的音频信号x*和基于听者位置(其在vr环境内可以是可变的)来执行6dof音频渲染。

在上述示例性方面中,能够提供有用于3d音频编码和/或3d音频渲染的有效且可靠的方法、设备和数据表示和/或位流结构,其允许有效的6dof音频编码和/或渲染,有利地带有例如根据mpeg-h3da标准的用于3dof音频渲染的向后兼容性。具体地,可能提供用于3d音频编码和/或3d音频渲染的数据表示和/或位流结构,其允许有效的6dof音频编码和/或渲染,优选地带有例如根据mpeg-h3da标准的用于3dof音频渲染的向后兼容性,以及提供用于有效的6dof音频编码和/或渲染的对应编码和/或渲染设备,带有例如根据mpeg-h3da标准的用于3dof音频渲染的向后兼容性。

本文中所描述的方法和系统可以被实现为软件、固件和/或硬件。某些组件可以被实现为在数字信号处理器或微处理器上运行的软件。其它组件可以被实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可以诸如随机存取存储器或光学存储介质的介质上。它们可以经由诸如无线电网络、卫星网络、无线网络或有线网络(例如因特网)的网络来传送。利用本文中所描述的方法和系统的典型装置是被用来存储和/或渲染音频信号的便携式电子装置或其它消费者设备。

根据本公开的方法和设备的示例实现将通过以下列举的不是权利要求的示例实施例(eee)而变得明显。

eee1示例性地涉及一种用于对包括音频源信号、3dof有关的数据和6dof有关的数据的音频进行编码的方法,该方法包括:例如由诸如具体地说编码器的音频源设备对近似(一或多个)3dof位置中的期望声场的音频源信号进行编码以确定3dof数据;和/或例如由诸如具体地说编码器的音频源设备对6dof有关的数据进行编码以确定6dof元数据,其中元数据可以被用来近似用于6dof渲染的原始音频源信号。

eee2示例性地涉及eee1的方法,其中3dof数据涉及对象音频信号、对象方向和对象距离中的至少一个。

eee3示例性地涉及eee1或eee2的方法,其中6dof数据涉及以下的至少一个:3dof(默认)位置参数、6dof空间描述(对象坐标)参数、对象方向性参数、vr环境参数、距离衰减参数、遮挡参数和混响参数。

eee4示例性地涉及一种用于传输数据,具体地说3dof和6dof可渲染音频数据的方法,该方法包括:例如在音频位流语法中传输音频源信号,该音频源信号例如在由3dof音频系统解码时优选地可以近似在(一或多个)3dof位置中的期望声场;和/或例如在音频位流语法的扩展部分中传输6dof有关的元数据以便近似和/或恢复用于6dof渲染的原始音频源信号;其中6dof有关的元数据可以是参数数据和/或信号数据。

eee5示例性地涉及eee4的方法,其中例如包含3dof元数据和/或6dof元数据的音频位流语法符合mpeg-h音频标准的至少一个版本。

eee6示例性地涉及一种用于生成位流的方法,该方法包括:确定3dof元数据,所述3dof元数据是基于近似(一或多个)3dof位置中的期望声场的音频源信号;确定6dof有关的元数据,其中所述元数据可以被用来近似用于6dof渲染的原始音频源信号;和/或将音频源信号和6dof有关的元数据插入到位流中。

eee7示例性地涉及一种用于音频渲染的方法,所述方法包括:

(一或多个)3dof位置中的原始音频信号x的近似的音频信号x*的6dof元数据的预处理,其中6dof渲染可以提供与用于3dof渲染的所传输的音频源信号x3da的3dof渲染相同的输出,该3dof渲染近似在(一或多个)3dof位置中的期望声场。

eee8示例性地涉及eee7的方法,其中基于以下内容来确定音频渲染:

f6dof(x*)≈f3dof(x3da)→f6dof(x)for3dof

其中f6dof(x*)涉及用于(一或多个)6dof听者位置的音频渲染功能,f3dof(x3da)涉及用于(一或多个)3dof听者位置的音频渲染功能,x3da是含有用于(一或多个)特定3dof位置的vr环境的效应的音频信号,以及x*涉及近似的音频信号。

eee9示例性地涉及eee8的方法,其中原始音频信号x的近似的音频信号x*是基于:

x*:=a-1(x3da)

其中a-1涉及近似函数a的逆。

eee10示例性地涉及eee8或eee9的方法,其中用来使用近似方法a获得原始音频源信号x的近似的音频信号x*的元数据是基于以下内容来定义:

x3da:=a(x),‖f3dof(x3da)-f6dof(x)for3dof‖→min

其中,元数据的量小于传输原始音频源信号x所需的音频数据的量。

其中,基于以下内容来确定音频渲染:

f6dof(x*)≈f3dof(x3da)→f6dof(x)for3dof

其中f6dof(x*)涉及用于(一或多个)6dof听者位置的音频渲染功能,f3dof(x3da)涉及用于(一或多个)3dof听者位置的音频渲染功能,x3da是含有用于(一或多个)特定3dof位置的vr环境的效应的音频信号,以及x*涉及近似的音频信号。

本发明的示例性方面和实施例可以在硬件、固件或软件或二者的组合中被实现(例如,作为可编程逻辑阵列)。除非另外指明,否则作为本公开的一部分包含的算法或过程并不固有地与任何具体计算机或其它设备有关。具体地说,各种通用机器可以与根据本文中的教导编写的程序一起使用,或者可以更方便的是构造更专用的设备(例如,集成电路)来执行所要求的方法步骤。因此,本公开可以在一或多个可编程计算机系统上执行的一或多个计算机程序中被实现(例如,附图的元件的任一个的实现),每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包含易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口及至少一个输出装置或端口。程序代码被应用于输入数据以执行本文中所描述的功能并生成输出信息。输出信息以已知的方式被应用于一或多个输出装置。

每个此类程序可以用任何期望的计算机语言(包含机器、汇编或高级过程、逻辑或面向对象的编程语言)来实现以与计算机系统进行通信。在任何情况下,语言可以是编译或解释语言。

例如,在由计算机软件指令序列实现时,本公开的实施例的各种功能和步骤可以由在适当的数字信号处理硬件中运行的多线程软件指令序列实现,在此情况下,实施例的各种装置、步骤和功能可以对应于软件指令的部分。

每个此类计算机程序优选地被存储在或下载到通用或专用可编程计算机可读的存储介质或装置(例如,固态存储器或介质,或磁性或光学介质),以便在存储介质或装置由计算机系统读取时配置和操作计算机以执行本文中所描述的规程。本发明的系统还可以被实现为计算机可读存储介质,其配置有(即存储)计算机程序,其中如此配置的存储介质促使计算机系统以特定和预定义的方式进行操作以执行本文中所描述的功能。

上面描述了本公开的本发明的多个示例性方面和示例性实施例。然而,将理解的是,在不脱离本公开的本发明的精神和范围的情况下,可以进行各种修改。根据上述教导,本发明的许多修改和变化是可能的。要理解的是,在所附权利要求的范围内,本公开的本发明可以以不同于本文中具体描述的方式来实践。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips