空间音频参数和相关联的空间音频播放的制作方法

2021-01-28 12:01:04|

403|

起点商标网

本申请涉及用于频带中的声场相关参数估计、但不排他地用于音频编码器和解码器的时-频域声场相关参数估计的装置和方法。

背景技术：

参数化空间音频处理是音频信号处理的一个领域，其中使用一组参数描述声音的空间方面。例如，在从麦克风阵列进行参数化空间音频捕获时，从麦克风阵列信号中估计一组参数(例如，频带中声音的方向以及捕获的声音在频带中的定向部分和非定向部分之间的比率)是一种典型且有效的选择。众所周知，这些参数很好地描述了所捕获的声音在麦克风阵列的位置处的感知空间特性。这些参数可以相应地被用于空间声音的合成，用于双耳式耳机、用于扬声器、或其他格式，例如全景声(ambisonics)。

因此，频带中的方向和直接总能量比率(direct-to-totalenergyratio)是对空间音频捕获特别有效的参数化。

技术实现要素：

根据第一方面，提供了一种装置，该装置包括至少一个处理器和至少一个包括计算机程序代码的存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：对于两个或更多个麦克风音频信号，确定用于提供空间音频再现的至少一个空间音频参数；基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数，使得所述声场被配置为基于所述至少一个空间音频参数和所述至少一个相干性参数被再现。

根据另一方面，提供了一种装置，所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：对于两个或更多个麦克风音频信号，确定用于提供空间音频再现的至少一个空间音频参数；基于所述两个或更多个麦克风音频信号来确定基于声场内的相干性的确定的至少一个相干性参数，使得所述声场被配置为基于所述至少一个空间音频参数和所述至少一个相干性参数被再现。

被致使基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数的所述装置可被进一步致使为确定以下至少之一：至少一个扩展相干性参数，所述至少一个扩展相干性参数与所述声场的定向部分的相干性相关联；以及至少一个环绕相干性参数，所述至少一个环绕相干性参数与所述声场的非定向部分的相干性相关联。

被致使对于两个或更多个麦克风音频信号确定用于提供空间音频再现的至少一个空间音频参数的所述装置可被进一步致使为：对于所述两个或更多个麦克风音频信号，确定以下至少之一：方向参数；能量比参数；直接对总体能量参数；方向稳定性参数；能量参数。

所述装置可以进一步被致使基于所述两个或更多个麦克风音频信号来确定相关联的音频信号，其中，所述声场可以基于所述至少一个空间音频参数、所述至少一个相干性参数和所述相关联的音频信号而被再现。

被致使基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数的所述装置可被进一步致使为：基于所述两个或更多个麦克风音频信号确定零阶和一阶球形谐波；基于所述零阶和一阶球形谐波生成至少一个通用相干性参数；以及基于所述至少一个通用相干性参数来生成所述至少一个相干性参数。

被致使基于所述两个或更多个麦克风音频信号来确定零阶和一阶球形谐波的所述装置可被进一步致使为执行以下之一：基于所述两个或更多个麦克风音频信号来确定时域零阶和一阶球形谐波并将所述时域零阶和一阶球形谐波函数转换为时-频域零阶和一阶球形谐波；以及将所述两个或更多个麦克风音频信号转换为各自的两个或更多个时-频域麦克风音频信号，并基于所述时-频域麦克风音频信号生成时-频域零阶和一阶球形谐波。

被致使基于所述至少一个通用相干性参数来生成所述至少一个相干性参数的所述装置可被致使为：基于所述至少一个通用相干性参数和被配置为定义所述声场的直接部分和环境部分之间的关系的能量比来生成至少一个扩展相干性参数；基于所述至少一个通用相干性参数和被配置为定义所述声场的直接部分与环境部分之间的关系的能量比来生成至少一个环绕相干性参数。

被致使基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数的所述装置可被进一步致使为：将所述两个或更多个麦克风音频信号转换为相应的两个或更多个时-频域麦克风音频信号；基于所述两个或更多个时-频域麦克风音频信号，确定非混响声音的至少一个估计；基于所述非混响声音的至少一个估计以及被配置为定义生成声场的直接部分与环境部分之间的关系的能量比，确定至少一个环绕相干性参数。

被致使基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数的所述装置可被进一步致使为选择以下至少之一：基于所述非混响声音的至少一个估计和能量比的至少一个环绕相干性参数，以及基于所述至少一个这样的通用相干性参数的所述至少一个环绕相干性参数，基于所述至少一个这样的通用相干性参数环绕相干性参数最大。

被致使基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数的所述装置可被进一步致使为：基于所述两个或更多个麦克风音频信号和针对两个或更多个频带来确定与声场相关联的至少一个相干性参数。

根据第二方面，提供了一种装置，所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：接收至少一个音频信号，所述至少一个音频信号基于两个或更多个麦克风音频信号；接收基于两个或更多个麦克风音频信号的与声场相关联的至少一个相干性参数；接收用于提供空间音频再现的至少一个空间音频参数；基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数来再现所述声场。

被致使接收至少一个相干性参数的所述装置可被进一步致使为接收以下至少之一：用于所述至少两个频带的至少一个扩展相干性参数，所述至少一个扩展相干性参数与所述声场的定向部分的相干性相关联；以及至少一个环绕相干性参数，所述至少一个环绕相干性参数与所述声场的非定向部分的相干性相关联。

所述至少一个空间音频参数可以包括以下至少之一：方向参数；能量比参数；直接对总体能量参数；定向稳定性参数；以及能量参数，并且被致使基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数再现所述声场的所述装置可被进一步致使为：从所述至少一个空间音频参数、所述至少一个相干性参数以及所述至少一个音频信号的估计能量确定目标协方差矩阵；基于所述目标协方差矩阵和所述至少一个音频信号的估计能量来生成混合矩阵；将所述混合矩阵应用于所述至少一个音频信号，以生成至少两个输出空间音频信号以再现所述声场。

被致使从所述至少一个空间音频参数、所述至少一个相干性参数以及所述至少一个音频信号的能量确定目标协方差矩阵的所述装置可被进一步致使为：基于所述至少一个音频信号的所述能量来确定总能量参数；基于所述能量比参数、直接对总体能量参数、定向稳定性参数以及能量参数中的至少一个确定直接能量和环境能量；基于所述确定的环境能量和所述至少一个相关性参数之一来估计环境协方差矩阵；基于输出声道配置和/或所述至少一个方向参数来估计以下中的至少一个：振幅平移增益的矢量、全景声平移矢量或至少一个头部相关变换函数；基于以下来估计直接协方差矩阵：所述振幅平移增益的所述矢量，全景声平移矢量或所述至少一个头部相关变换函数；确定的直接部分能量；所述至少一个相干性参数中的另一个；以及通过组合所述环境协方差矩阵和直接协方差矩阵来生成所述目标协方差矩阵。

根据第三方面，提供了一种方法，包括：对于两个或更多个麦克风音频信号，确定用于提供空间音频再现的至少一个空间音频参数；基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数，使得所述声场被配置为基于所述至少一个空间音频参数和所述至少一个相干性参数被再现。

基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数可以进一步包括确定以下至少之一：至少一个扩展相干性参数，所述至少一个扩展相干性参数与所述声场的定向部分的相干性相关联；以及至少一个环绕相干性参数，所述至少一个环绕相干性参数与所述声场的非定向部分的相干性相关联。

对于两个或更多个麦克风音频信号确定用于提供空间音频再现的至少一个空间音频参数还可以包括：对于所述两个或更多个麦克风音频信号，确定以下至少之一：方向参数；能量比参数；直接对总体能量参数；定向稳定性参数；能量参数。

该方法可以进一步包括基于所述两个或更多个麦克风音频信号来确定相关联的音频信号，其中，所述声场可以基于所述至少一个空间音频参数、所述至少一个相干性参数和所述相关联的音频信号来再现。

基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数可以进一步包括：基于所述两个或更多个麦克风音频信号确定零阶和一阶球形谐波；基于所述零阶和一阶球形谐波生成至少一个通用相干性参数；以及基于所述至少一个通用相干性参数来生成所述至少一个相干性参数。

基于所述两个或更多个麦克风音频信号来确定零阶和一阶球形谐波还可以包括以下之一：基于所述两个或更多个麦克风音频信号来确定时域零阶和一阶球形谐波并将所述时域零阶和一阶球形谐波函数转换为时-频域零阶和一阶球形谐波；以及将所述两个或更多个麦克风音频信号转换为各自的两个或更多个时-频域麦克风音频信号，并基于所述时-频域麦克风音频信号生成时-频域零阶和一阶球形谐波。

基于所述至少一个通用相干性参数来生成所述至少一个相干性参数可以进一步包括：基于所述至少一个通用相干性参数和被配置为定义所述声场的直接部分和环境部分之间的关系的能量比来生成至少一个扩展相干性参数；基于所述至少一个通用相干性参数和被配置为定义所述声场的直接部分与环境部分之间的关系的能量比来生成至少一个环绕相干性参数。

基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数可以进一步包括：将所述两个或更多个麦克风音频信号转换为相应的两个或更多个时-频域麦克风音频信号；基于所述两个或更多个时-频域麦克风音频信号，确定非混响声音的至少一个估计；基于所述非混响声音的至少一个估计以及被配置为定义生成声场的直接部分与环境部分之间的关系的能量比，确定至少一个环绕相干性参数。

基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数可以进一步包括选择以下至少之一：基于所述非混响声音的至少一个估计和能量比，至少一个环绕相干性参数。以及基于至少一个这样的通用相干性参数的所述至少一个环绕相干性参数，基于至少一个这样的通用相干性参数环绕相干性参数最大。

基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数可以进一步包括：基于所述两个或更多个麦克风音频信号和针对两个或更多个频带来确定与声场相关联的至少一个相干性参数。

根据第四方面，提供了一种方法，包括：接收至少一个音频信号，所述至少一个音频信号基于两个或更多个麦克风音频信号；接收基于两个或更多个麦克风音频信号的与声场相关联的至少一个相干性参数；接收用于提供空间音频再现的至少一个空间音频参数；基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数来再现所述声场。

接收至少一个相干性参数可以进一步包括接收以下至少之一：用于所述至少两个频带的至少一个扩展相干性参数，所述至少一个扩展相干性参数与所述声场的定向部分的相干性相关联；以及至少一个环绕相干性参数，所述至少一个环绕相干性参数与所述声场的非定向部分的相干性相关联。

所述至少一个空间音频参数可以包括以下至少之一：方向参数；能量比参数；直接对总体能量参数；定向稳定性参数；以及能量参数，并且基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数再现所述声场还可以包括：从所述至少一个空间音频参数、所述至少一个相干性参数以及所述至少一个音频信号的估计能量确定目标协方差矩阵；基于所述目标协方差矩阵和所述至少一个音频信号的估计能量来生成混合矩阵；将所述混合矩阵应用于所述至少一个音频信号，以生成至少两个输出空间音频信号以用于再现所述声场。

从所述至少一个空间音频参数、所述至少一个相干性参数以及所述至少一个音频信号的估计能量确定目标协方差矩阵可以进一步包括：基于所述至少一个音频信号的所述能量来确定总能量参数；基于所述能量比参数、直接对总体能量参数、定向稳定性参数以及能量参数中的至少一个，来确定直接能量和环境能量；基于所述确定的环境能量和所述至少一个相关性参数之一来估计环境协方差矩阵；基于输出声道配置和/或所述至少一个方向参数来估计以下中的至少一个：振幅平移增益的矢量、全景声平移矢量或至少一个头部相关变换函数；基于以下来估计直接协方差矩阵：所述振幅平移增益的所述矢量，全景声平移矢量或所述至少一个头部相关变换函数；确定的直接部分能量；和所述至少一个相干性参数中的另一个；以及通过组合所述环境协方差矩阵和直接协方差矩阵来生成所述目标协方差矩阵。

根据第五方面，提供了一种装置，所述装置包括用于执行以下操作的模块：对于两个或更多个麦克风音频信号，确定用于提供空间音频再现的至少一个空间音频参数；基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数，使得所述声场被配置为基于所述至少一个空间音频参数和所述至少一个相干性参数被再现。

用于基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数的所述模块可被进一步配置用于确定以下至少之一：至少一个扩展相干性参数，所述至少一个扩展相干性参数与所述声场的定向部分的相干性相关联；以及至少一个环绕相干性参数，所述至少一个环绕相干性参数与所述声场的非定向部分的相干性相关联。

用于对于两个或更多个麦克风音频信号确定用于提供空间音频再现的至少一个空间音频参数的所述模块可被进一步配置用于对于所述两个或更多个麦克风音频信号，确定以下至少之一：方向参数；能量比参数；直接对总体能量参数；定向稳定性参数；能量参数。

所述模块可以进一步被配置用于基于所述两个或更多个麦克风音频信号来确定相关联的音频信号，其中，所述声场可以基于所述至少一个空间音频参数、所述至少一个相干性参数和所述相关联的音频信号而被再现。

用于基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数的所述模块可被进一步配置用于：基于所述两个或更多个麦克风音频信号确定零阶和一阶球形谐波；基于所述零阶和一阶球形谐波生成至少一个通用相干性参数；以及基于所述至少一个通用相干性参数来生成所述至少一个相干性参数。

用于基于所述两个或更多个麦克风音频信号来确定零阶和一阶球形谐波的所述模块可被进一步配置用于执行以下之一：基于所述两个或更多个麦克风音频信号来确定时域零阶和一阶球形谐波并将所述时域零阶和一阶球形谐波函数转换为时-频域零阶和一阶球形谐波；以及将所述两个或更多个麦克风音频信号转换为各自的两个或更多个时-频域麦克风音频信号，并基于所述时-频域麦克风音频信号生成时频-域零阶和一阶球形谐波。

用于基于所述至少一个通用相干性参数来生成所述至少一个相干性参数的所述模块可被配置用于：基于所述至少一个通用相干性参数和被配置为定义所述声场的直接部分和环境部分之间的关系的能量比来生成至少一个扩展相干性参数；基于所述至少一个通用相干性参数和被配置为定义所述声场的直接部分与环境部分之间的关系的能量比来生成至少一个环绕相干性参数。

用于基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数的所述模块可被进一步配置用于：将所述两个或更多个麦克风音频信号转换为相应的两个或更多个时-频域麦克风音频信号；基于所述两个或更多个时-频域麦克风音频信号，确定非混响声音的至少一个估计；基于所述非混响声音的至少一个估计以及被配置为定义生成声场的直接部分与环境部分之间的关系的能量比，确定至少一个环绕相干性参数。

用于基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数的所述模块可被进一步配置用于选择以下至少之一：基于所述非混响声音的至少一个估计和能量比的至少一个环绕相干性参数。以及基于至少一个这样的通用相干性参数的所述至少一个环绕相干性参数，和基于所述至少一个这样的通用相干性参数环绕相干性参数最大。

用于基于所述两个或更多个麦克风音频信号来确定与声场相关联的至少一个相干性参数的所述模块可被进一步配置用于基于所述两个或更多个麦克风音频信号和针对两个或更多个频带来确定与声场相关联的至少一个相干性参数。

根据第六方面，提供了一种装置，所述装置包括用于执行以下操作的模块：接收至少一个音频信号，所述至少一个音频信号基于两个或更多个麦克风音频信号；接收基于两个或更多个麦克风音频信号的与声场相关联的至少一个相干性参数；接收用于提供空间音频再现的至少一个空间音频参数；基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数来再现所述声场。

用于接收至少一个相干性参数的所述模块可被进一步配置用于接收以下至少之一：用于所述至少两个频带的至少一个扩展相干性参数，所述至少一个扩展相干性参数与所述声场的定向部分的相干性相关联；以及至少一个环绕相干性参数，所述至少一个环绕相干性参数与所述声场的非定向部分的相干性相关联。

所述至少一个空间音频参数可以包括以下至少之一：方向参数；能量比参数；直接对总体能量参数；定向稳定性参数；以及能量参数，并且用于基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数再现所述声场的所述模块可被进一步配置用于：从所述至少一个空间音频参数、所述至少一个相干性参数以及所述至少一个音频信号的估计能量确定目标协方差矩阵；基于所述目标协方差矩阵和所述至少一个音频信号的估计能量来生成混合矩阵；将所述混合矩阵应用于所述至少一个音频信号，以生成至少两个输出空间音频信号以再现所述声场。

用于从所述至少一个空间音频参数、所述至少一个相干性参数以及所述至少一个音频信号的估计能量确定目标协方差矩阵的所述模块可被进一步配置用于：基于所述至少一个音频信号的所述能量来确定总能量参数；基于所述能量比参数、直接对总体能量参数、定向稳定性参数以及能量参数中的至少一个，来确定直接能量和环境能量；基于所述确定的环境能量和所述至少一个相关性参数之一来估计环境协方差矩阵；基于输出声道配置和/或所述至少一个方向参数来估计以下中的至少一个：振幅平移增益的矢量、全景声平移矢量或的至少一个头部相关变换函数；基于以下来估计直接协方差矩阵：所述振幅平移增益的所述矢量，全景声平移矢量或所述至少一个头部相关变换函数；确定的直接部分能量；和所述至少一个相干性参数中的另一个；以及通过组合所述环境协方差矩阵和直接协方差矩阵来生成所述目标协方差矩阵。

根据第七方面，提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质]，用于致使装置执行至少以下操作：对于两个或更多个麦克风音频信号，确定用于提供空间音频再现的至少一个空间音频参数；基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数，使得所述声场被配置为基于所述至少一个空间音频参数和所述至少一个相干性参数被再现。

根据第八方面，提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质]，用于致使装置执行至少以下操作：接收至少一个音频信号，所述至少一个音频信号基于两个或更多个麦克风音频信号；接收基于两个或更多个麦克风音频信号的与声场相关联的至少一个相干性参数；接收用于提供空间音频再现的至少一个空间音频参数；基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数来再现所述声场。

根据第九方面，提供了一种非暂时性计算机可读介质，包括用于致使装置执行至少以下操作的程序指令：对于两个或更多个麦克风音频信号，确定用于提供空间音频再现的至少一个空间音频参数；基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数，使得所述声场被配置为基于所述至少一个空间音频参数和所述至少一个相干性参数被再现。

根据第十方面，提供了一种非暂时性计算机可读介质，包括用于致使装置执行至少以下操作的程序指令：接收至少一个音频信号，所述至少一个音频信号基于两个或更多个麦克风音频信号；接收基于两个或更多个麦克风音频信号的与声场相关联的至少一个相干性参数；接收用于提供空间音频再现的至少一个空间音频参数；基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数来再现所述声场。

根据第十一方面，提供了一种装置，所述装置包括：确定电路，其被配置为对于两个或更多个麦克风音频信号，确定用于提供空间音频再现的至少一个空间音频参数；以及所述确定电路还被配置为基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数，使得所述声场被配置为基于所述至少一个空间音频参数和所述至少一个相干性参数被再现。

根据第十二方面，提供了一种装置，所述装置包括：接收电路，其被配置为接收至少一个音频信号，所述至少一个音频信号基于两个或更多个麦克风音频信号；所述接收电路还被配置为接收基于两个或更多个麦克风音频信号的与声场相关联的至少一个相干性参数；所述接收电路还被配置为接收用于提供空间音频再现的至少一个空间音频参数；再现电路，其被配置为基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数来再现所述声场。

根据第十三方面，提供了一种计算机可读介质，包括用于致使装置执行至少以下操作的程序指令：对于两个或更多个麦克风音频信号，确定用于提供空间音频再现的至少一个空间音频参数；基于所述两个或更多个麦克风音频信号确定与声场相关联的至少一个相干性参数，使得所述声场被配置为基于所述至少一个空间音频参数和所述至少一个相干性参数被再现。

根据第十四方面，提供了一种计算机可读介质，包括用于致使装置执行至少以下操作的程序指令：接收至少一个音频信号，所述至少一个音频信号基于两个或更多个麦克风音频信号；接收基于两个或更多个麦克风音频信号的与声场相关联的至少一个相干性参数；接收用于提供空间音频再现的至少一个空间音频参数；基于所述至少一个音频信号、所述至少一个空间音频参数和所述至少一个相干性参数来再现所述声场。

一种装置，包括用于执行如上所述的方法的动作的模块。

一种装置，其被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于致使计算机执行如上所述的方法的程序指令。

一种存储在介质上的计算机程序产品可以致使装置执行本文所述的方法。

一种电子设备可以包括如本文所述的装置。

一种芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出了适于实现一些实施例的装置的系统；

图2示出了根据一些实施例的如图1所示的系统的操作的流程图；

图3示意性地示出了根据一些实施例的如图1所示的分析处理器；

图4示出了根据一些实施例的如图3所示的分析处理器的操作的流程图；

图5示出了根据一些实施例的示例性相干性分析器；

图6示出了根据一些实施例的如图5所示的示例性相干性分析器的操作的流程图；

图7示出了根据一些实施例的另一示例性相干性分析器；

图8示出了根据一些实施例的如图7所示的另一示例性相干性分析器的操作的流程图；

图9示出了根据一些实施例的如图1所示的示例合成处理器；

图10示出了根据一些实施例的如图9所示的示例性合成处理器的操作的流程图；

图11示出了根据一些实施例的如图10所示的目标协方差矩阵的生成的操作的流程图；以及

图12示意性地示出了适合于实现本文所示的装置的示例设备。

具体实施方式

下面进一步详细描述合适的装置和可能的机制，用于为麦克风阵列输入格式音频信号提供有效的空间分析导出的元数据参数。

在下文的实施例中表达的概念是一种系统，在该系统中，再现的声音场景与原始输入声音场景非常相似，并且避免了将环绕相干(近距离、加压)声音被再现为远处的环境，并且避免了振幅平移声音被再现为点源。

此外，一些实施例使得麦克风阵列能够成为麦克风波束模式的虚拟集合。例如，一组扬声器和/或音频对象信号的一阶全景声(foa)“捕获”。虚拟麦克风可能会使它们

如本文所述的实施例中的包括真实或虚拟麦克风阵列的这样的系统能够产生声音场景的有效表示并提供高质量的空间音频捕获性能，使得再现的音频的感知与原始声场的感知相匹配(例如，环绕相干声音被再现为环绕相干声音，而扩展相干声音则被再现为扩展相干声音)。

此外，本文所述的一些实施例可能能够识别何时音频是正在无回声(anechoic)(或至少干燥)的空间中被捕获，并产生这种声音场景的有效表示。此外，一些实施例的合成阶段可以包括合适的接收器或解码器，该接收器或解码器能够基于所分析的参数和所获得的传输音频信号来尝试重新创建对声场的感知(例如，以被感知为是无回声的方式再现无回声声场)。这可能包括在不进行解相关的情况下处理音频的某些部分，以避免出现伪像(artefact)。

从多个方向相干且同时地再现声音生成与由单个扬声器生成的感知不同的感知。例如，如果使用左前和右扬声器相干地再现声音，则与仅使用中置扬声器再现声音相比，可以感知到声音更加“空灵”。对应地，如果声音是从左前、右和中置扬声器相干地再现的，则声音可被描述为接近或被加压。因此，空间上相干的声音再现用于艺术目的，例如添加某些声音(例如主唱声音)的存在。来自几个扬声器的相干再现有时也用于强调低频内容。

下文将进一步详细讨论的概念是提供执行以下操作的方法和模块：通过为麦克风阵列音频输入添加特定的分析方法来确定空间相干性，并在元数据流中提供添加的相关(至少一个相干性)参数，该参数可以与其他空间元数据一起提供。在本公开中，麦克风音频信号可以是由物理麦克风例如从麦克风阵列捕获的真实麦克风音频信号。同样在一些实施例中，麦克风音频信号可以是例如合成生成的虚拟麦克风音频信号。在一些实施例中，虚拟麦克风可被确定为具有对应于全景声波束模式(例如foa波束模式)的定向捕获模式。

因此，通过示例实施方式进一步详细讨论的概念涉及使用空间音频或声场相关参数化的音频编码和解码(例如，其他空间元数据参数可以包括方向、能量比、直接对总体能量比、方向稳定性或其他合适的参数)。该概念还公开了一种被提供来改善用上述参数化编码的音频信号的再现质量的方法和装置。概念实施例通过分析输入音频信号并确定至少一个相干性参数来提高麦克风音频信号的再现质量。术语相干性或互相关(cross-correlation)在这里不严格解释为信号之间的一个特定相似度值，例如归一化的平方值，但总体上反映了回放音频信号之间的相似度值，并且可能是复数的(具有相位)、绝对的、归一化的或平方值。相干性参数可被更一般地表示为以任何方式指示音频信号的相似度的音频信号关系参数。

输出信号的相干性可以指的是再现的扬声器信号或再现的双耳信号或再现的全景声信号的相干性。

相干性参数在一些实施例中也可被称为非混响声音参数，因为在一些实施例中，相干性参数是基于非混响估计器确定的，该非混响估计器被致使为从(真实或虚拟)麦克风阵列音频信号估计非混响声音的一部分，并估计部分非混响声音。

因此，所讨论的概念实施方式可以为两个相关问题提供两个相关解决方案：

在某个方向上跨越一个区域的空间相干性，其与声能的定向部分有关；

环绕空间相干性，其与声能的环境/非定向部分有关。

在一些实施例中，该方法可以包括估计(实际地或虚拟地)声场是否已经包含空间上分离的相干声源(例如，pa系统的扬声器)。这可以例如通过获得零阶和一阶球形谐波并比较零阶和一阶谐波的能量来估计。这产生了通用相干性估计，其基于能量比参数被转换为扩展和环绕相干性参数。

在一些实施例中，该方法可以包括估计音频的非定向部分应被非相干还是相干地再现。该信息可以通过多种方式获得。例如，可以通过分析输入麦克风信号来获得。例如，如果将麦克风信号分析为无回声的，则可以将环绕相干性参数设置为大的值。作为另一示例，该信息可以在视觉上获得。例如，如果视觉深度图显示声源很近，而所有反射源都很远，则可以估计输入音频信号主要是无回声的，因此环绕相干性参数应被设置为大的值。在该方法中，扩展相干性参数可以保持不变(例如，零)。

此外，如下面将进一步详细讨论的，可以基于所确定的空间相干性或音频信号关系参数来修改比率参数，以进一步改善音频质量。

关于图1，示出了用于实现本申请的实施例的示例装置和系统。示出系统100具有“分析”部分121和“合成”部分131。“分析”部分121是从接收麦克风阵列音频信号直到对元数据和传输信号进行编码的部分，以及“合成”部分131是从对编码的元数据和传输信号进行解码到呈现重新生成的信号(例如，以多声道扬声器形式)的部分。

系统100和“分析”部分121的输入是麦克风阵列音频信号102。麦克风阵列音频信号可以从任何合适的捕获设备获得的，或者是从例如扬声器信号获得的虚拟麦克风记录，并且该捕获设备可以在示例装置的本地的或远程的。例如，在一些实施例中，分析部件121被集成在合适的捕获设备上。

麦克风阵列音频信号被传递到传输信号生成器103和分析处理器105。

在一些实施例中，传输信号生成器103被配置为接收麦克风阵列音频信号并生成合适的传输信号104。传输音频信号也可被称为相关联的音频信号，并且基于包含声场的方向信息并被输入到系统中的空间音频信号。例如，在一些实施例中，传输信号生成器103被配置为例如通过波束成形技术将麦克风阵列音频信号下混音(downmix)或以其他方式选择或组合到确定数量的声道，并将它们作为传输信号104输出。传输信号生成器103可被配置为生成麦克风阵列音频信号的2音频声道输出。所确定的声道数量可以是任何合适的声道数量。在一些实施例中，传输信号生成器103是可选的，并且麦克风阵列音频信号以与传输信号相同的方式被未经处理地传递到编码器。在一些实施例中，传输信号生成器103被配置为选择麦克风音频信号中的一个或多个，并将该选择作为传输信号104输出。在一些实施例中，传输信号生成器103被配置为对麦克风阵列音频信号或麦克风阵列音频信号的已处理或选定形式应用任何合适的编码或量化。

在一些实施例中，分析处理器105还被配置为接收麦克风阵列音频信号，并分析所述信号以产生与麦克风阵列音频信号相关联并因此与传输信号104相关联的元数据106。分析处理器105可以例如是计算机(运行存储在存储器和至少一个处理器上的合适软件)，或替代地是使用例如fpga或asic的特定设备。如这里更详细地示出的，元数据可以针对每个时-频分析间隔包括方向参数108、能量比参数110、环绕相干性参数112和扩展相干性参数114。方向参数和能量比参数在一些实施例中可被认为是空间音频参数。换句话说，空间音频参数包括旨在表征由麦克风阵列音频信号捕获的声场的参数。

在一些实施例中，所生成的参数可能在频带之间不同。因此，例如，在频带x中，所有参数都被生成和发送，而在频带y中，仅一个参数被生成和发送，并且此外，在频带z中，没有参数被生成或发送。一个实际的例子可能是，对于某些频带，例如最高频带，出于感知原因，不需要某些参数。传输信号104和元数据106可被发送或存储，这在图1中由虚线107示出。在传输信号和元数据106被发送或存储之前，它们通常被编码以便降低比特率，并被复用到一个流。可以使用任何合适的方案来实现编码和复用。

在解码器侧，可以对接收或检索到的数据(流)进行解复用，并对编码的流进行解码，以获得传输信号和元数据。在图1中还相对于虚线107的右侧示出了传输信号和元数据的这种接收或检索。

系统100的“合成”部分131示出了被配置为接收传输信号104和元数据106的合成处理器109，并基于传输信号104和元数据106创建合适的多声道音频信号输出116(其可以是任何合适的输出格式，例如双耳多声道扬声器或全景声信号，取决于使用情况)。在具有扬声器再现的某些实施例中，(使用扬声器)再现具有所需感知特性的实际物理声场。在其他实施例中，声场的再现可被理解为是指通过除了再现空间中的实际物理声场之外的其他方式来再现声场的感知特性。例如，可以使用本文所述的双耳再现方法在耳机上再现声场的期望的感知特性。在另一个示例中，声场的感知特性可被再现为全景声输出信号，并且这些全景声信号可以通过全景声解码方法被再现，以提供例如具有期望的感知特性的双耳输出。

在一些实施例中，合成处理器109可以是计算机(运行存储在存储器和至少一个处理器上的合适的软件)，或替代地是利用例如fpga或asic的特定设备。

关于图2，示出了图1所示的概述的示例流程图。

首先，系统(分析部分)被配置为接收麦克风阵列音频信号，如图2通过步骤201所示。

然后，系统(分析部分)被配置为生成传输信号(例如，基于麦克风阵列音频信号的下混音/选择/波束成形)，如图2通过步骤205所示。

系统(分析部分)还被配置为分析麦克风阵列音频信号以生成元数据：方向；能量比；环绕相干性；扩展相干性，如图2通过步骤205所示。

然后，系统被配置为(可选地)对具有相干性参数的传输信号和元数据进行编码，以用于存储/发送，如图2通过步骤207所示。

此后，系统可以存储/发送具有相干性参数的传输信号和元数据，如图2通过步骤209所示。

系统可以检索/接收具有相干性参数的传输信号和元数据，如图2通过步骤211所示。

然后，系统被配置为从具有相干性参数的传输信号和元数据中提取，如图2通过步骤213所示。

系统(合成部分)被配置为基于提取的具有相干性参数的音频信号和元数据，来合成输出多声道音频信号(如先前所讨论的，其可以是任何合适的输出格式，例如双耳、多声道扬声器或全景声信号，取决于使用情况)，如图2通过步骤215所示。

关于图3，根据一些实施例的示例分析处理器105(如图1所示)被更详细地描述。在一些实施例中，分析处理器105包括时-频域变换器301。

在一些实施例中，时频域变换器301被配置为接收麦克风阵列音频信号102，并应用适当的时间到频率域变换，例如短时傅立叶变换(stft)，以便将输入的时域信号转换为合适的时-频信号。这些时-频信号可被传递给方向分析器303和给相干性分析器305。

因此，例如，时-频信号302可以在时-频域表示中被表示为

si(b，n)，

其中，b是频率仓(frequencybin)索引，n是帧索引，i是麦克风索引。在另一个表达式中，n可被视为采样率比原始时域信号的采样率低的时间索引。这些频率仓可以分组为子带，这些子带将一个或多个仓分组为频带索引k＝0，...，k-1。每个子带k具有最低仓bk，low和最高仓bk，high，并且该子带包含从bk，low到bk，high的所有仓。子带的宽度可以近似任何合适的分布。例如，等同矩形带宽(erb)尺度或bark尺度。

在一些实施例中，分析处理器105包括方向分析器303。方向分析器303可被配置为接收时频信号302，并基于这些信号估计方向参数108。方向参数可以基于任何基于音频的“方向”确定来确定。

例如，在一些实施例中，方向分析器303被配置为利用两个或更多个麦克风信号输入来估计方向。这表示了用以估计“方向”的最简单配置，可以使用更多的麦克风信号执行更复杂的处理。

方向分析器303因此可被配置为为每个频带和时间帧提供方位角，标示为θ(k，n)。在方向参数是3d参数的情况下，示例方向参数可以是方位角θ(k，n)，仰角如虚线所示，方向参数108也可被传递给相干性分析器305。

在一些实施例中，除了方向参数之外，方向分析器303被配置为确定与确定的方向参数相关联的其他合适的参数。例如，在一些实施例中，使方向分析器确定能量比参数304。该能量比可被认为是对音频信号的能量的确定，该音频信号的能量可被认为是从一个方向到达的。例如，可以使用定向估计的稳定性测量或使用任何相关测量或任何其他合适的方法来估计(直接对总体)能量比r(k，n)，以获得能量比参数。在其他实施例中，方向分析器被致使确定并输出方向估计的稳定性测量、相关测量或其他与方向相关联的参数。

估计的方向108参数可被输出(并且在合成处理器中使用)。估计的能量比参数304可被传递到相干性分析器305。在一些实施例中，可以在参数组合器(未示出)中接收所述参数，其中，估计的方向和能量比参数与由下文描述的相干性分析器305生成的相干性参数相组合。

在一些实施例中，分析处理器105包括相干性分析器305。相干性分析器305被配置为从方向分析器303接收参数(例如方位角(θ(k，n))108和直接对总体能量比率(r(k，n))304)。相干性分析器305可以进一步被配置为从时频域变换器301接收时-频信号(si(b，n))302。所有这些是在时频域；b是频率仓索引，k是频带索引(每个频带可能由几个仓b组成)，n是时间索引，i是麦克风索引。

尽管这里针对每个时间索引n表示方向和比率，但是在一些实施例中，可以在多个时间索引上组合参数。如已经表达的那样，同样适用于频率轴，多个频率仓b的方向可以由由多个频率仓b组成的频带k中的一个方向参数表示。这同样适用于本文讨论的所有空间参数。

相干性分析器305被配置为生成多个相干性参数。在以下公开中，存在两个参数：环绕相干性(γ(k，n))和扩展相干性(ζ(k，n))，均在时-频域中进行分析。另外，在一些实施例中，相干性分析器305被配置为修改估计的能量比(r(k，n))。该修改的能量比r’可用于替代原始能量比r。

接下来讨论与方向比率参数化有关的每个上述空间相干性问题，并且示出在每种情况下如何形成上述新参数。所有处理都在时-频域中执行，因此为了简洁起见，将时频索引k和n丢弃。如前所述，在某些情况下，空间元数据可以用与时-频信号的频率分辨率不同的另一频率分辨率表示。

然后可以输出这些(修改的)能量比110、环绕相干性112和扩展相干性114参数。如所讨论的，这些参数可被传递到元数据组合器或以任何合适的方式被处理，例如与传输信号的编码和/或复用，并且被存储和/或发送(并被传递到系统的合成部分)。

关于图4，示出了概述关于分析处理器105的操作的流程图。

第一操作是如图4中通过步骤401所示的接收时域麦克风阵列音频信号的一个操作。

接下来，将应用时域到频域变换(例如stft)以生成合适的时-频域信号以进行分析，如图4通过步骤403所示。

然后，将方向/空间分析应用于麦克风阵列音频信号以确定方向和能量比参数，如图4通过步骤405所示。

然后，将相干性分析应用于麦克风阵列音频信号以确定相干性参数，例如环绕和/或扩展相干性参数，如图4通过步骤407所示。

在一些实施例中，在该步骤中，还可以基于确定的相干性参数来修改能量比。

在图4中通过步骤409示出了输出确定的参数的一个最终操作。

关于图5，示出了根据一些实施例的相干性分析器的第一示例。

第一示例实现了用于使用一阶全景声(foa)信号确定空间相干性的方法，该信号可以使用某些麦克风阵列(至少在定义的频率范围内)生成。替代地，foa信号可以从其他音频信号格式(例如扬声器输入信号)虚拟地生成。以下方法估计在声场中发生的扩展和环绕相干性。提供foa信号的示例麦克风阵列是提供全向信号和三个偶极信号的b格式麦克风。

注意，如果虚拟地生成foa信号(换句话说，例如转换自扬声器格式)，则到相干性分析器的输入信号是foa信号，该foa信号然后被变换到时-频域以进行方向和相干性分析。

零阶和一阶球形谐波确定器501可被配置为接收时-频麦克风音频信号302并生成合适的时-频球形谐波信号502。

通用相干性估计器503可被配置为接收时-频球形谐波信号502(其可以在具有空间上分离的相干声源的声场处捕获或者由零阶和一阶球形谐波确定器501生成)。通用相干性参数μ(k，n)可以通过监控foa分量的能量来生成。

如果将任何能够产生foa信号的麦克风放在漫射场中，则三个偶极信号x，y，z的能量具有与全向分量w相同的能量和(根据施密特半归一化(sn3d)在w和x，y，z之间增益平衡)。但是，如果在空间上分开的扬声器处相干地再现声音，则x，y，z信号的能量会变小(或甚至为零)，因为x，y，z模式在一个方向上具有正振幅，而在另一方向上具有负振幅，并且因此对于空间上分离的相干声源，发生信号抵消。

通过生成和监控相干或不相干的环绕信号，有可能确定基于foa信号的能量信息为通用相干性参数μ提供估计的公式。

将ca，b标示为foa信号的估计协方差矩阵(w，x，y，z)的(a，b)条目，并且通用相干性参数μ可以通过以下来估计

其中，省略了时频索引。系数p可以例如具有值1。

通用相干性到扩展相干性和环绕相干性分割器505被配置为接收生成的通用相干性504和能量比304，并基于该通用相干性参数生成扩展和环绕相干性参数的估计。

在一些实施例中，可以使用能量比将通用相干性分割为扩展相干性和环绕相干性。因此，例如，扩散和环绕相干性可被估计为：

ζ(k，n)＝r(k，n)μ(k，n)

γ(k，n)＝(1-r(k，n))μ(k，n)

其中，ζ是扩展相干性参数114，γ是环绕相干性参数112，r是能量比。在实践中，如果直接对总体能量比较大，则通用相干性被变换为扩展相干性；如果直接对总体能量比较小，则通用相干性被变换为环绕相干性。

在一些实施例中，到扩展和环绕相干性除法器505的通用相干性被配置为将扩展和环绕相干性参数两者简单地设置为通用相干性参数。

关于图6，示出了总结关于如图5所示的第一示例性相干性分析器的操作的流程图。

第一操作是接收时-频域麦克风阵列音频信号和能量比的一个操作，如图6通过步骤601所示。

接下来，应用适当的转换以生成零阶和一阶球形谐波，如图6通过步骤603所示。

然后，通过确定球形谐波的比率，可以估计通用相干性，如图6通过步骤605所示。

然后，将估计的通用相干性值分割为扩展和环绕相干性估计，如图6通过步骤607所示。

最终操作是输出确定的相干性参数的一个操作，如图6通过步骤609所示。

关于图7，示出了另一示例性相干性分析器。

这些示例估计了音频的非定向部分是否将被再现为相干或不相干的声音，以获得最佳的音频质量。分析器提供环绕相干性参数，并且适用于任何麦克风阵列，包括那些不能提供foa信号的麦克风阵列。

非混响声音估计器701被配置为接收时-频麦克风阵列音频信号并估计非混响声音的部分。

可以根据任何已知的方法来实现对捕获的麦克风信号中的直接声音和混响声音的量的估计，或者甚至从混合中提取直接分量和混响分量。在一些实施例中，可以从除了所捕获的音频信号之外的另一来源生成估计。例如，在一些实施例中，可以使用视觉信息来估计直接声音和混响声音的量。例如，如果视觉深度图显示声源非常近，而所有反射源都很远，则可以估计输入音频信号主要是无回声的(并且因此环绕相干性参数应被设置为较大的值)。在一些实施例中，用户甚至可以手动选择估计。

可以使用频谱减法来获得用于分析麦克风音频信号以确定直接声音分量的估计的示例方法：

d(k，n)＝s(k，n)-r(k，n)

其中，d是估计的直接声能分量，s是估计的总信号能量(其可以例如从任何麦克风信号来估计，例如s＝e[s²]，或它们的混合)，r是估计的混响声能量分量。通过用估计的衰减(decaying)系数对估计的直接声能分量d进行滤波，可以获得r的估计。衰减系数本身可以例如使用盲混响时间估计方法来估计。

使用估计的直接声音分量d，可以估计所捕获的麦克风信号中的直接声音的部分：

估计的能量值s(k，n)等可能已经在几个时间和/或频率索引(k，n)上被求平均了。

如果非定向音频主要是混响，则将其再现为非相干的是最佳的，因为需要具有非相干性以便再现对混响自然的包络感和宽敞感，并且通常所需的解相关在混响情况下不恶化音频质量。如果非定向音频大部分为非混响，则期望将其再现为相干的，因为此类声音不需要非相干性，而解相关会恶化音频质量(尤其是在语音信号的情况下)。因此，可以基于所分析的混响来指导非定向音频的相干/不相干再现的选择。

环绕相干性估计器703可以接收对非混响声音部分702和能量比304的估计，并估计环绕相干性112。由能量比r定义的所捕获的麦克风信号的定向部分可以近似为仅直接声音。信号的环境部分(由1-r定义的)可以近似为双向通话期间的混响、环境声音和直接声音的混合。

如果环境部分仅包含混响和环境声音，则应将环绕相干性γ设置为0(这些应被再现为非相干的)。但是，如果在双向通话期间，环境部分仅包含直接声音，则应将环绕相干性γ设置为1(应将其再现为相干的，以避免解相关)。例如，使用这些原理，用于环绕相干性γ的等式可以形成为：

在该方法中，可以将扩展相干性ζ(k，n)设置为零。

关于图8，示出了总结关于如图7所示的第二示例性相干性分析器的操作的流程图。

第一操作是接收时-频域麦克风阵列音频信号和能量比的操作，如图8通过步骤801所示。

接下来，估计非混响声音的部分，如图8通过步骤803所示。

然后，基于非混响声音的部分和能量比估计环绕相干性，如图8通过步骤805所示。

最终操作是输出确定的相干性参数的操作，如图8通过步骤807所示。

在一些实施例中，可以实现两个相干性分析器并且合并输出。例如，可以通过采用两个估计中的最大值来实现合并：

ζ(k，n)＝max(ζ1(k，n)，ζ2(k，n))，

γ(k，n)＝max(γ1(k，n)，γ2(k，n)).

关于图9，更详细地示出示例合成处理器109。示例性合成处理器109可被配置为利用根据任何已知的方法(例如特别适合于其中声道间信号相干性需要被合成或操纵的这种情况的方法)的修改的方法。

合成方法可以是修改的最小二乘优化信号混合技术，以在尝试保持音频质量的同时操纵信号的协方差矩阵。该方法利用输入信号的协方差矩阵测量和目标协方差矩阵(如下所讨论的)，并提供混合矩阵以执行这种处理。该方法还提供了当在输入端没有足够量的独立信号能量时最佳利用解相关声音的手段。

合成处理器109可以包括时频域变换器901，该时频域变换器901被配置为以传输信号104的形式接收音频输入，并且应用适当的时间到频域变换(例如短时傅立叶变换(stft))以便将输入时域信号转换为合适的时-频信号。这些时-频信号可被传递到混合矩阵处理器909和协方差矩阵估计器903。

然后可以使用混合矩阵处理器(以及可能还有解相关处理器)909在频带中对时频信号进行自适应处理。可以以时频输出信号912的形式将混合矩阵处理器909的输出传递给逆时频域变换器911。逆时频域变换器911(例如，逆短时傅立叶变换器或i-stft)被配置为将时-频输出信号912变换到时域，以按照多声道音频信号116的形式提供已处理的输出。混合矩阵处理方法已被很好地证明，并且在下文中不再详细描述。

混合矩阵确定器907可以生成混合矩阵并将其传递给混合矩阵处理器909。可以使混合矩阵确定器907生成用于频带的混合矩阵。混合矩阵确定器907被配置为接收在频带中组织的输入协方差矩阵906和目标协方差矩阵908。

通过测量来自时频域变换器901的时-频信号(频带中的传输信号)，可以使协方差矩阵估计器903生成在频带中组织的协方差矩阵906。然后，可以将这些估计的协方差矩阵传递给混合矩阵确定器907。

此外，协方差矩阵确定器903可被配置为估计总能量e904并将其传递给目标协方差矩阵确定器905。在一些实施例中，可以从估计的协方差矩阵的对角元素之和确定总能量e。

目标协方差矩阵确定器905被致使生成目标协方差矩阵。在一些实施例中，目标协方差矩阵确定器905可以确定目标协方差矩阵以再现到环绕扬声器设置。在下面的表达式中，为简便起见(不需要时)删除了时间和频率索引n和k。

首先，目标协方差矩阵确定器905可被配置为接收来自协方差矩阵估计器903的基于输入协方差矩阵的总能量e904以及空间元数据106。

然后，目标协方差矩阵确定器905可被配置为确定在相互不相干的部分、定向部分cd和环境或非定向部分ca中的目标协方差矩阵ct。

因此，目标协方差矩阵由目标协方差矩阵确定器905确定为ct＝cd+ca。

环境部分ca表达空间环绕声能，其之前仅是不相干的，但是由于本发明，它可以是不相干的或相干的或部分相干的。

目标协方差矩阵确定器905因此可被配置为将环境能量确定为(1-r)e，其中r是来自输入元数据的直接对总体能量比率参数。然后，环境协方差矩阵可以如下确定：

其中，i是单位矩阵(identitymatrix)，u是1的矩阵，m是输出声道数。换句话说，当γ为零时，则环境协方差矩阵ca是对角线，而当γ为1时，则环境协方差矩阵使得确定所有声道对都是相干的。

目标协方差矩阵确定器905接下来可被配置为确定直接部分协方差矩阵cd。

目标协方差矩阵确定器905因此可被配置为将直接部分能量确定为re。

然后，目标协方差矩阵确定器905被配置为基于元数据来确定扬声器信号的增益矢量。首先，目标协方差矩阵确定器905被配置为例如使用矢量基振幅平移(vbap)基于扬声器设置和空间元数据的方向信息，来确定振幅平移增益的矢量。可以在列矢量vvbap中标示这些增益，该列矢量可以在三维空间中使用任何合适的虚拟空间多边形布置(通常实质为三角形的，并且因此在以下示例中根据声道或节点三元组定义)来实现。在一些实施例中，对于在振幅平移中活动的两个扬声器，水平设置最多仅具有两个非零值。在一些实施例中，目标协方差矩阵确定器905可被配置为将vbap协方差矩阵确定为：

目标协方差矩阵确定器905可被配置为确定声道三元组il，ir，ic，其是最接近估计的方向的扬声器，以及最接近的左扬声器和右扬声器。

目标协方差矩阵确定器905还可被配置为确定平移列矢量vlrc，其在索引il，ir，ic处具有值其他为零。该矢量的协方差矩阵为

当扩展相干性参数ζ小于0.5时，即，当声音将在“直接点源”场景和“三扬声器相干声音”场景之间被再现时，目标协方差矩阵确定器305可被配置为确定直接部分协方差矩阵为

cd＝re((1-2ζ)cvbap+2ζclrc)。

当扩展相干性参数ζ在0.5和1之间时，即，当声音将在“三扬声器相干声音”场景和“两扩展扬声器相干声音”场景之间被再现时，目标协方差矩阵确定器905可以确定扩展分布矢量

然后，目标协方差矩阵确定器905可被配置为确定平移矢量vdistr，其中，第ic个条目是vdistr，3的第一条目，第il个和第ir个条目是vdistr，3的第二和第三条目。于是，目标协方差矩阵确定器905可以将直接部分协方差矩阵计算为：

然后目标协方差矩阵确定器905可以获得目标协方差矩阵ct＝cd+ca以处理声音。如上所述，环境部分协方差矩阵因此考虑了环境能量和环绕相干性参数γ所包含的空间相干性，并且直接协方差矩阵考虑了方向能量、方向参数和扩展相干性参数ζ。

目标协方差矩阵确定器905可被配置为通过被配置为合成环绕声的听觉间特性而不是声道间特性，来确定用于双耳输出的目标协方差矩阵908。

因此，目标协方差矩阵确定器905可被配置为确定用于双耳声音的环境协方差矩阵ca。环境或非定向能量的量为(1-r)e，其中e是先前确定的总能量。可以将环境部分协方差矩阵确定为：

其中

c(k，n)＝γ(k，n)+(1-γ(k，n))cbin(k)，

以及其中，cbin(k)是第k个频率索引的频率的双耳漫射场相干性。换句话说，当γ(k，n)为1时，则使得环境协方差矩阵ca确定左耳和右耳之间的完全相干性。当γ(k，n)为零时，则使得ca确定在漫射场中对听众自然的左右耳之间的相干性(大致：高频处为零，低频处较高)。

于是，目标协方差矩阵确定器905可被配置为确定直接部分协方差矩阵cd。定向能量的量为re。可以使用类似的方法来合成扩展相干性参数ζ，如在扬声器再现中那样，详细描述如下。

首先，目标协方差矩阵确定器905可被配置为确定2×1hrtf矢量vhrtf(k，θ(k，n))，其中θ(k，n)是估计的方向参数。目标协方差矩阵确定器905可以确定等同于在三个方向上相干地再现声音的平移hrtf矢量。

其中，θδ参数定义了“扩展”声音能量相对于方位角维度的宽度。它例如可以是30度。

当扩展相干性参数ζ小于0.5时，即，当声音将在“直接点源”场景和“三扬声器相干声音”场景之间被再现时，目标协方差矩阵确定器905可被配置为确定直接部分hrtf协方差矩阵为

当扩展相干性参数ζ在0.5与1之间时，即，当声音将在“三扬声器相干声音”场景与“两扩展扬声器相干声音”场景之间被再现时，目标协方差矩阵确定器905可以通过重新利用振幅分布矢量vdistr，3(与扬声器渲染中相同)确定扩展分布。于是，可以将组合的头部相关变换函数(hrtf)矢量确定为

vdistr_hrtf(k，θ(k，n))

＝[vhrtf(k，θ(k，n))vhrtf(k，θ(k，n)+θδ)vhrtf(k，θ(k，n)-θδ)]vdistr，3

上面的公式产生具有vdistr，3中的权重的三个hrtf的加权总和。于是直接部分hrtf协方差矩阵为

然后，目标协方差矩阵确定器905被配置为获得目标协方差矩阵ct＝cd+ca以处理声音。如上所述，环境部分协方差矩阵因此考虑了环绕相干性参数γ所包含的环境能量和空间相干性，而直接协方差矩阵考虑了定向能量、方向参数和扩展相干性参数ζ。

目标协方差矩阵确定器905可被配置为通过被配置为合成全景声信号的声道间特性而不是扬声器环绕声的声道间特性，来确定用于全景声输出的目标协方差矩阵908。下面以一阶全景声(foa)输出为例，但是，将相同原理扩展到高阶全景声输出也很简单。

因此，目标协方差矩阵确定器905可被配置为确定用于全景声声音的环境协方差矩阵ca。环境或非定向能量的量为(1-r)e，其中e是先前确定的总能量。可以将环境部分协方差矩阵确定为

换句话说，当γ(k，n)为1时，则环境协方差矩阵ca使得仅0阶分量接收信号。这种全景声信号的含义是在空间上相干地再现声音。当γ(k，n)为零时，ca对应于漫射场中的全景声协方差矩阵。上面的0阶和1阶元素的归一化是根据已知的sn3d归一化方案。

首先，目标协方差矩阵确定器905可被配置为确定4×1全景声平移矢量vamb(θ(k，n))，其中，θ(k，n)是估计的方向参数。全景声平移矢量vamb(θ(k，n))包含对应于方向θ(k，n)的全景声增益。对于水平面上具有方向参数的foa输出(使用已知的acn声道排序方案)

目标协方差矩阵确定器905可以确定平移全景声矢量，其等同于在三个方向上相干地再现声音

其中，θδ参数定义了“扩展”声音能量相对于方位角维度的宽度。它例如可以是30度。

当扩展相干性参数ζ小于0.5时，即，当声音将在“直接点源”场景和“三扬声器相干声音”场景之间被再现时，目标协方差矩阵确定器905可被配置为确定直接部分全景声协方差矩阵为

当扩展相干性参数ζ在0.5和1之间时，即，当声音将在“三扬声器相干声音”场景和“两扬声器相干声音”场景之间被再现时，目标协方差矩阵确定器305可以通过重新利用振幅分布矢量vdistr，3(与扬声器渲染中相同)确定扩展分布。于是，可以将组合的全景声平移矢量确定为vdistr_amb(θ(k，n))＝[vamb(θ(k，n))vamb(θ(k，n)+θδ)vamb(θ(k，n)-θδ)]vdistr，3。

上面的公式产生具有vdistr，3中的权重的三个全景声平移矢量的加权和。于是，直接部分全景声协方差矩阵为

于是，目标协方差矩阵确定器905被配置为获得目标协方差矩阵ct＝cd+ca以处理声音。如上所述，环境部分协方差矩阵因此考虑了环绕相干性参数γ所包含的环境能量和空间相干性，而直接协方差矩阵考虑了定向能量、方向参数和扩展相干性参数ζ。

换句话说，相同的一般原理适用于构建双耳或全景声或扬声器目标协方差矩阵。主要区别是在直接部分的渲染中利用hrtf数据或全景声平移数据而不是扬声器振幅平移数据，并在环境部分的渲染中利用双耳相干性(或特定全景声环境协方差矩阵处理)而不是声道间(零)相干性。应该理解，处理器可能能够运行实现上述目的的软件，并因此能够渲染这些输出类型中的每一个。

在以上公式中，基于来自在协方差矩阵估计器903中估计的协方差矩阵的总能量估计e，对目标协方差矩阵的直接和环境部分的能量进行加权。可选地，可以省略这种加权，即，将直接部分能量确定为r，将环境部分能量确定为(1-r)。在那种情况下，取而代之的是将估计的输入协方差矩阵用总能量估计归一化(即，乘以1/e)。基于这些确定的目标协方差矩阵和归一化的输入协方差矩阵的结果的混合矩阵可能与以前提供的公式完全相同或实际上相同，因为这些矩阵的相对能量而不是它们的绝对能量很重要。

关于图10，示出了合成操作的概述。

因此，该方法可以接收时域传输信号，如图10通过步骤1001所示。

这些传输信号然后可以被时频变换，如图10通过步骤1003所示。

然后，可以从输入(传输)信号估计协方差矩阵，如图10通过步骤1005所示。

此外，可以接收具有方向、能量比和相干性参数的空间元数据，如图10通过步骤1002所示。

可以从估计的协方差矩阵、方向、能量比和相干性参数确定目标协方差矩阵，如图10通过步骤1007所示。

然后可以基于估计的协方差矩阵和目标协方差矩阵来确定混合矩阵，如图10通过步骤1009所示。

然后，可以将混合矩阵应用于时-频传输信号，如图10通过步骤1011所示。

然后，将混合矩阵应用于时频传输信号的结果可以被逆时频域变换，以生成空间音频信号，如图10通过步骤1013所示。

关于图11，示出了根据一些实施例的用于生成目标协方差矩阵的示例方法。

首先是基于输入协方差矩阵估计目标协方差矩阵的总能量e，如图11通过步骤1101所示。

该方法可以进一步包括接收具有方向、能量比和相干性参数的空间元数据，如图11通过步骤1102所示。

然后，该方法可以包括将环境能量确定为(1-r)e，其中r是来自输入元数据的直接对总体能量比率参数，如图11通过步骤1103所示。

此外，该方法可以包括估计环境协方差矩阵，如图11通过步骤1105所示。

该方法也可以包括将直接部分能量确定为re，其中r是来自输入元数据的直接对总体能量比率参数，如图11通过步骤1104所示。

然后，该方法可以包括基于扬声器设置和空间元数据的方向信息来确定振幅平移增益的矢量，如图11通过步骤1106所示。

此后，该方法可以包括确定声道三元组，该三元组是最接近估计方向的扬声器，以及最接近的左扬声器和右扬声器，如图11通过步骤1108所示。

然后，该方法可以包括估计直接协方差矩阵，如图11通过步骤1110所示。

最后，该方法可以包括将环境和直接协方差矩阵部分组合以生成目标协方差矩阵，如图11通过步骤1112所示。

以上表述讨论了目标协方差矩阵的构建。该方法还可以使用根据任何已知方式形成的原型矩阵。原型矩阵确定用于进行渲染的“参考信号”，针对该参考信号制定最小二乘优化混合矩阵。如果在编解码器中提供立体声下混音作为音频信号，则用于扬声器渲染的原型矩阵可以使得确定用于左手侧扬声器的信号相对于所提供的立体声轨道的左声道是最佳的，并且同样适用于右手侧(可以针对左和右音频声道的总和来优化中心声道)。对于双耳输出，原型矩阵可以使得确定用于左耳输出信号的参考信号是左立体声声道，并且类似地用于右耳。原型矩阵的确定对于研究了现有文献的本领域技术人员而言是简单明了的。关于现有文献，在合成阶段本发明方案的新颖之处在于还利用空间相干性元数据构建了目标协方差矩阵。

尽管在整个文档中没有重复，但是应该理解，通常并且在此上下文中，空间音频处理在频带中进行。这些频带可以是例如时频变换的频率仓，或者是组合多个频率仓的频带。该组合可以使得近似人类听力的特性，例如bark频率分辨率。换句话说，在某些情况下，可以在组合了多个频率仓b和/或时间索引n的时频区域中测量和处理音频。为简单起见，这些方面没有由以上所有公式表达。在组合许多时-频样本的情况下，通常针对该时-频区域估计一组参数(例如一个方向)，并根据该组参数(例如，该一个方向参数)来合成该区域内的所有时频样本。

针对参数分析使用与所应用的滤波器组的频率分辨率不同的频率分辨率是空间音频处理系统中的一种典型方法。

尽管本文中呈现的示例已经将麦克风阵列音频信号用作输入，但是应当理解，在一些实施例中，可以将示例用于处理虚拟麦克风信号作为输入。例如，可以例如通过以下来从多声道扬声器或对象信号创建虚拟的foa信号：

对于具有其自己的方位角和仰角方向的每个扬声器(或对象)信号si生成w，y，z，x信号。组合所有此类信号的输出信号为foai(t)。

在生成foa信号后，可以将它们变换到时-频域中。可以例如使用诸如dirac之类的技术来估计定向元数据，并且使用本文所述的方法来估计相干性元数据。

因此，实施例可以在三个不同方面改善感知到的音频质量：

1)在由真实或虚拟麦克风阵列捕获的空间上分离的相干源的情况下，实施例可以检测到这种场景，并从空间上分离的扬声器相干地再现音频，从而保持类似于原始音频场景的感知。

2)从虚拟麦克风阵列输入确定空间相干性参数提供了一种直接的方法，以通过中间foa变换从任何扬声器/音频对象配置中估计这些参数。

3)在干声(dryacoustics)中同时存在多个源的情况下，实施例可以检测到这种场景并以较少的解相关来再现音频，从而避免了可能的伪像。

关于图12，示出了可以用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板计算机、计算机、音频回放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可被配置为执行各种程序代码，诸如本文所述的方法。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407耦合到存储器1411。存储器1411可以是任何合适的存储模块。在一些实施例中，存储器1411包括用于存储可在处理器1407上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1411还可以包括用于存储数据(例如根据本文所述的实施例已处理或将要处理的数据)的已存储数据部分。只要需要，就可以通过存储器-处理器耦合由处理器1407检索存储在程序代码部分内的已实现程序代码和存储在存储数据部分内的数据。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可以耦合到处理器1407。在一些实施例中，处理器1407可以控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中，用户接口1405可以使用户能够例如经由小键盘向设备1400输入命令。在一些实施例中，用户接口1405可以使用户能够从设备1400获得信息。例如，用户接口1405可以包括被配置为将信息从设备1400显示给用户的显示器。在一些实施例中，用户接口1405可以包括能够使信息能够被输入到设备1400并且还向设备1400的用户显示信息的触摸屏或触摸接口。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发器。在这样的实施例中，收发器可以耦合到处理器1407，并且被配置为使得能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中，收发器或任何合适的收发器或发射器和/或接收器模块可被配置为经由导线或有线耦合与其他电子设备或装置通信。

收发器可以通过任何合适的已知通信协议与另外的装置进行通信。例如，在一些实施例中，收发器或收发器模块可以使用合适的通用移动电信系统(umts)协议、诸如ieee802.x的无线局域网(wlan)协议、例如蓝牙或红外数据通信路径(irda)的合适的短程射频通信协议。

收发器输入/输出端口1409可被配置为接收扬声器信号，并且在一些实施例中，通过使用处理器1407执行合适的代码来确定如本文所述的参数。此外，该设备可以生成合适的传输信号和参数输出以传输到合成设备。

在一些实施例中，设备1400可以用作合成设备的至少一部分。这样，输入/输出端口1409可被配置为接收传输信号以及在一些实施例中如本文所述在捕获设备或处理设备处确定的参数，并通过使用执行适当代码的处理器1407生成适当的音频信号格式输出。输入/输出端口1409可以耦合到任何合适的音频输出，例如耦合到多声道扬声器系统和/或耳机或类似物。

通常，本发明的各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算装置执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可被图示和描述为框图、流程图或使用一些其他图形表示，但是可以理解的是，本文所述的这些框、装置、系统、技术或方法可以以作为非限制示例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算装置或其某种组合来实现。

本发明的实施例可以由可由移动装置的例如在处理器实体中的数据处理器执行的计算机软件来实现，或者由硬件来实现，或者由软件和硬件的组合来实现。进一步在这一点上，应当注意，如图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以存储在诸如存储器芯片或在处理器内实现的存储器块的物理介质上、诸如硬盘或软盘之类的磁性介质上、以及诸如dvd及其数据变体cd之类的光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来实现，例如基于半导体的存储器装置、磁存储器装置和系统、光学存储器装置和系统、固定存储器和可移动存储器。作为非限制性示例，数据处理器可以是适合本地技术环境的任何类型，并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(dsp)、专用集成电路(asic)、栅级电路以及基于多核处理器架构的处理器中的一个或多个。

本发明的实施例可以在诸如集成电路模块的各种组件中实践。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为易于在半导体衬底上蚀刻和形成的半导体电路设计。

程序，例如由加利福尼亚州山景城的synopsys，inc.和加利福尼亚州圣何塞的cadencedesign提供的程序，将使用完善的设计规则以及预存储的设计模块库自动对导体进行布线并在半导体芯片上定位组件。一旦完成了半导体电路的设计，就可以将标准化电子格式(例如，opus、gdsii等)的所得设计传送到半导体制造设施或“fab”进行制造。

前面的描述通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且有益的描述。然而，当结合附图和所附权利要求书阅读时，鉴于前面的描述，各种修改和适配对于相关领域的技术人员而言将变得显而易见。但是，本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所定义的本发明的范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。