一种音频处理方法、装置、电子设备及存储介质与流程
本公开涉及音频技术领域,特别是涉及一种音频处理方法、装置、电子设备及存储介质。
背景技术:
声学混响是一种由声波反射产生的常见的物理现象。在使用传声器对音频信号进行采集时,混响会对音频信号造成干扰,严重的混响会导致音频信号的可懂度下降。因此,针对音频信号的去混响技术在音频通讯、高音质语音采集重放等场景都受到了一定的关注。
相关技术中,通常会采用基于wpe(weightedpredictionerror,加权预测误差)的去混响方式对音频信号进行去混响处理,但这种方式对音频信号的信噪比依赖较高,当音频信号中存在噪声时,会导致算法收敛性较差,最终导致去混响效果较差。
技术实现要素:
为了解决相关技术中存在的当音频信号中存在噪声时,对音频信号的去混响时去混响效果较差的技术问题,本公开提供了一种音频处理方法、装置、电子设备及存储介质,本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种音频处理方法,包括:
获取待处理音频信号;
获取所述待处理音频信号所包括的噪声信号和所述待处理音频信号的混响时长;
根据所述待处理音频信号和所述噪声信号,确定所述待处理音频信号的信噪比和降噪增益因子,并根据所述待处理音频信号和所述混响时长,确定所述待处理音频信号所包括的混响信号;
根据所述信噪比、所述降噪增益因子以及所述混响信号对所述待处理音频信号去混响,得到去混响后的音频信号。
可选的,所述根据所述信噪比、所述降噪增益因子以及所述混响信号对所述待处理音频信号去混响,得到去混响后的音频信号,包括:
对于所述待处理音频信号的任一当前帧音频信号,通过所述当前帧音频信号的音频信号,所述当前帧音频信号的混响信号,以及预设的最小去混响增益因子,计算所述当前帧音频信号对应的第一增益因子;
根据所述第一增益因子和所述当前帧音频信号对应的降噪增益因子,计算第二增益因子;
对所述第一增益因子和所述第二增益因子进行平滑处理,得到目标增益因子;
通过所述目标增益因子对所述当前帧音频信号进行去混响,得到所述当前帧音频信号对应的去混响后的音频信号。
可选的,当所述当前帧音频信号的信噪比小于预设信噪比,且所述当前帧音频信号的混响时长大于预设混响时长时;
所述根据所述第一增益因子和所述当前帧音频信号对应的降噪增益因子,计算第二增益因子,包括:
按照如下公式计算所述当前帧音频信号的去混响与去噪声比例因子:
其中,gamma为所述当前帧音频信号的去混响与去噪声比例因子,snr(n)为所述当前帧音频信号对应的信噪比;
按照如下公式计算第二增益因子:
其中,gtmp为第二增益因子,所述gdereverb(n)为所述当前帧音频信号对应的第一增益因子,所述gdenoise(n)为所述当前帧音频信号对应的降噪增益因子。
可选的,当所述当前帧音频信号的信噪比大于预设信噪比,或所述当前帧音频信号的混响时长小于预设混响时长时;
所述根据所述第一增益因子和所述当前帧音频信号对应的降噪增益因子,计算第二增益因子,包括:
将所述当前帧音频信号对应的降噪增益因子确定为第二增益因子。
可选的,所述根据所述待处理音频信号和混响时长,确定所述待处理音频信号的混响信号,包括:
对于所述待处理音频信号的任一当前帧音频信号,计算所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量;
根据所述前一帧音频信号的激励能量向量衰减后的能量和所述当前帧音频信号的能量之间的最大值,确定所述当前帧音频信号的激励能量向量;
根据所述当前帧音频信号的激励能量向量、所述待处理音频信号相邻两帧间的时间间隔,以及所述当前帧音频信号对应的混响时长,确定所述当前帧音频信号的混响信号。
可选的,所述对于所述待处理音频信号的任一当前帧音频信号,计算所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量,包括:
在所述待处理音频信号的当前帧音频信号为所述待处理音频信号的第一帧音频信号时,将所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量确定为0;
在所述待处理音频信号的当前帧音频信号不为所述待处理音频信号的第一帧音频信号时,按照如下公式计算所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量:
其中,所述r(n)为所述当前帧音频信号的上一帧音频信号的激励能量向量衰减后的能量,所述ra(n-1)为所述当前帧音频信号的上一帧音频信号的激励能量向量,所述t1为所述待处理音频信号相邻两帧间的时间间隔。
可选的,所述根据所述当前帧音频信号的激励能量向量、所述待处理音频信号相邻两帧间的时间间隔,以及所述当前帧音频信号对应的混响时长,确定所述当前帧音频信号的混响信号,包括:
按照如下公式计算所述当前帧音频信号的混响信号:
m=rt60(n)/t1;
其中,所述sr(n)为所述当前帧音频信号的混响信号,rt60(n)为所述当前帧音频信号对应的混响时长,m为所述当前帧音频信号对应的混响时长内对应的帧数;ra(n-m)为所述当前帧音频信号的前m帧的激励能量向量衰减后的能量。
可选的,所述获取待处理音频信号,包括:
获取原始音频信号;
对所述原始音频信号进行短时傅里叶变换,得到所述原始音频信号的时频域信号;
将所述时频域信号确定为所述待处理音频信号。
可选的,所述方法还包括:
通过所述降噪增益因子除去所述待处理音频信号所包括的噪声信号。
根据本公开实施例的第二方面,提供了一种音频处理装置,包括:
音频信号获取模块,被配置为执行获取待处理音频信号;
噪声信号和混响时长获取模块,被配置为执行获取所述待处理音频信号所包括的噪声信号和所述待处理音频信号的混响时长;
信噪比和混响信号确定模块,被配置为执行根据所述待处理音频信号和所述噪声信号,确定所述待处理音频信号的信噪比和降噪增益因子,并根据待处理音频信号和混响时长,确定待处理音频信号所包括的混响信号;
去混响模块,被配置为执行根据所述信噪比、所述降噪增益因子以及所述混响信号对所述待处理音频信号去混响,得到去混响后的音频信号。
可选的,所述去混响模块,包括:
第一增益因子计算单元,被配置为执行对于所述待处理音频信号的任一当前帧音频信号,通过所述当前帧音频信号的音频信号,所述当前帧音频信号的混响信号,以及预设的最小去混响增益因子,计算所述当前帧音频信号对应的第一增益因子;
第二增益因子计算单元,被配置为执行根据所述第一增益因子和所述当前帧音频信号对应的降噪增益因子,计算第二增益因子;
目标增益因子计算单元,被配置为执行对所述第一增益因子和所述第二增益因子进行平滑处理,得到目标增益因子;
去混响单元,被配置为执行通过所述目标增益因子对所述当前帧音频信号进行去混响,得到所述当前帧音频信号对应的去混响后的音频信号。
可选的,当所述当前帧音频信号的信噪比小于预设信噪比,且所述当前帧音频信号的混响时长大于预设混响时长时;
所述第二增益因子计算单元,具体被配置为执行:
按照如下公式计算所述当前帧音频信号的去混响与去噪声比例因子:
其中,gamma为所述当前帧音频信号的去混响与去噪声比例因子,snr(n)为所述当前帧音频信号对应的信噪比;
按照如下公式计算第二增益因子:
其中,gtmp为第二增益因子,所述gdereverb(n)为所述当前帧音频信号对应的第一增益因子,所述gdenoise(n)为所述当前帧音频信号对应的降噪增益因子。
可选的,当所述当前帧音频信号的信噪比大于预设信噪比,或所述当前帧音频信号的混响时长小于预设混响时长时;
所述第二增益因子计算单元,具体被配置为执行:
将所述当前帧音频信号对应的降噪增益因子确定为第二增益因子。
可选的,所述信噪比和混响信号确定模块,包括:
能量计算单元,被配置为执行对于所述待处理音频信号的任一当前帧音频信号,计算所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量;
激励能量向量确定单元,被配置为执行根据所述前一帧音频信号的激励能量向量衰减后的能量和所述当前帧音频信号的能量之间的最大值,确定所述当前帧音频信号的激励能量向量;
混响信号确定单元,被配置为执行根据所述当前帧音频信号的激励能量向量、所述待处理音频信号相邻两帧间的时间间隔,以及所述当前帧音频信号对应的混响时长,确定所述当前帧音频信号的混响信号。
可选的,所述能量计算单元,具体被配置为执行:
在所述待处理音频信号的当前帧音频信号为所述待处理音频信号的第一帧音频信号时,将所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量确定为0;
在所述待处理音频信号的当前帧音频信号不为所述待处理音频信号的第一帧音频信号时,按照如下公式计算所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量:
其中,所述r(n)为所述当前帧音频信号的上一帧音频信号的激励能量向量衰减后的能量,所述ra(n-1)为所述当前帧音频信号的上一帧音频信号的激励能量向量,所述t1为所述待处理音频信号相邻两帧间的时间间隔。
可选的,所述混响信号确定单元,具体被配置为执行:
按照如下公式计算所述当前帧音频信号的混响信号:
m=rt60(n)/t1;
其中,所述sr(n)为所述当前帧音频信号的混响信号,rt60(n)为所述当前帧音频信号对应的混响时长,m为所述当前帧音频信号对应的混响时长内对应的帧数;ra(n-m)为所述当前帧音频信号的前m帧的激励能量向量衰减后的能量。
可选的,所述音频信号获取模块,具体被配置为执行:
获取原始音频信号;
对所述原始音频信号进行短时傅里叶变换,得到所述原始音频信号的时频域信号;
将所述时频域信号确定为所述待处理音频信号。
可选的,所述装置还包括:
去噪声模块,被配置为执行通过所述降噪增益因子除去所述待处理音频信号所包括的噪声信号。
根据本公开实施例的第三方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现第一方面所述的音频处理方法。
根据本公开实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面所述的音频处理方法。
根据本公开实施例的第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现第一方面所述的音频处理方法。
本公开实施例提供的技术方案,获取待处理音频信号;获取待处理音频信号所包括的噪声信号和待处理音频信号的混响时长;根据待处理音频信号和噪声信号,确定待处理音频信号的信噪比和降噪增益因子;并根据待处理音频信号和混响时长,确定待处理音频信号的混响信号;根据信噪比、降噪增益因子以及混响信号对待处理音频信号去混响,得到去混响后的音频信号。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
附图说明
图1是根据一示例性实施例示出的一种音频处理方法的流程图;
图2是图1所示实施例中步骤s14的一种实施方式的流程图;
图3是根据一示例性实施例示出的根据待处理音频信号和混响时长,确定待处理音频信号所包括的混响信号的一种实施方式的流程图;
图4是根据一示例性实施例示出的一种音频处理过程的示意图;
图5是根据一示例性实施例示出的一种音频处理装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图;
图7是根据一示例性实施例示出的一种音频处理装置的框图;
图8是根据一示例性实施例示出的另一种音频处理装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了解决相关技术中存在的当音频信号中存在噪声时,对音频信号的去混响时去混响效果较差的技术问题,本公开实施例提供了一种音频处理方法、装置、电子设备及存储介质,
第一方面,首先对本公开实施例提供的一种音频处理方法进行详细阐述。
如图1所示,本公开实施例提供的一种音频处理方法,可以包括如下步骤:
在步骤s11中,获取待处理音频信号。
具体的,待处理音频信号为待去混响的音频信号。在实际应用中,待处理音频信号通常包括了语音信号、噪声信号和混响信号等信号成分。
在一种实施方式中,获取待处理音频信号,可以包括如下步骤,分别为步骤a1至步骤a3:
步骤a1,获取原始音频信号。
步骤a2,对原始音频信号进行短时傅里叶变换,得到原始音频信号的时频域信号。
步骤a3,将时频域信号确定为待处理音频信号。
在该实施方式中,可以通过短时傅里叶变换将原始音频信号转换为时频域信号,具体的,如以下公式:
x(n)=stft(x(t))
其中,x(t)为时域音频信号,x(n)为时频域音频信号,n为帧序列,0<n≤n,n为总帧数。需要说明的是,由于本公开实施例中,在各个频段的处理均相同,因此频域信号中不体现指示频带信息的符号。在将原始音频信号转换为时频域信号后,可以将时频域信号确定为待处理音频信号。
在步骤s12中,获取待处理音频信号所包括的噪声信号和待处理音频信号的混响时长。
具体的,在获取到待处理音频信号后,可以通过基于时间窗口的平稳噪声估计、基于统计的噪声估计等方法来提取待处理音频信号所包括的噪声信号。本领域技术人员应该可以理解,基于时间窗口的平稳噪声估计或基于统计的噪声估计来提取噪声信号的具体实现过程,本公开实施例对此不再赘述。并且,本公开实施例对提取待处理音频信号所包括的噪声信号的方式不做具体限定。另外,在实际应用中,可以只提取待处理音频信号所包括的平稳噪声信号,而不提取待处理信号所包括的不平稳噪声信号。
并且,还通过待处理音频信号的衰减特征来获取待处理音频信号的混响时长。具体的,可以将待处理音频信号输入预先训练好的混响时长估计模型中,混响时长估计模型提取待处理音频信号所包括的各帧音频信号的衰减特征,并基于各帧音频信号的衰减特征得到各帧音频信号对应的混响时长,也就是说,从混响时长估计模型输出的是rt60(n),其中,rt60(n)为各帧音频信号对应的混响时长。
当然,还可以通过其他实现方式来获取待处理音频信号的混响时长,本公开实施例对通过待处理音频信号的衰减特征获取待处理音频信号的混响时长的具体实现方式不做具体限定。
在步骤s13中,根据待处理音频信号和噪声信号,确定待处理音频信号的信噪比和降噪增益因子,并根据待处理音频信号和混响时长,确定待处理音频信号所包括的混响信号。
具体的,在得到待处理音频信号和噪声信号后,可以利用待处理音频信号x(n)和噪声信号noise(n)来估计待处理音频信号所包括的每一帧音频信号的信噪比和降噪增益因子,进而得到待处理音频信号的信噪比和降噪增益因子。
并且,可以利用如下公式计算待处理音频信号所包括的每一帧音频信号的信噪比:
其中,snr(n)表示第n帧音频信号对应的信噪比,x(n)为第n帧音频信号对应的信号电压;noise(n)为第n帧噪声信号对应的信号电压。
并可以利用如下公式计算待处理音频信号所包括的每一帧音频信号的降噪增益因子:
并且,还可以根据待处理音频信号和混响时长,确定待处理音频信号的混响信号。具体的,在得到待处理音频信号所包括的各帧音频信号的混响时长后,可以根据待处理音频信号和各帧音频信号的混响时长,得到待处理音频信号的混响信号。
为了方案描述清楚,将在下面实施例中对根据待处理音频信号和混响时长,确定待处理音频信号的混响信号的具体实现方式进行详细阐述。
在步骤s14中,根据信噪比、降噪增益因子以及混响信号对待处理音频信号去混响,得到去混响后的音频信号。
具体的,在得到待处理音频信号的信噪比、降噪增益因子以及混响信号之后,可以根据信噪比、降噪增益因子以及混响信号对待处理音频信号去混响,得到去混响后的音频信号。可见,本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声时,也能够较好地对待处理音频信号去混响。
为了方案描述清楚,将在下面实施例中对步骤s14,根据信噪比、降噪增益因子以及混响信号对待处理音频信号去混响,得到去混响后的音频信号的具体实施方式进行详细阐述。
本公开实施例提供的技术方案,获取待处理音频信号;获取待处理音频信号所包括的噪声信号和待处理音频信号的混响时长;根据待处理音频信号和噪声信号,确定待处理音频信号的信噪比和降噪增益因子;并根据待处理音频信号和混响时长确定待处理音频信号的混响信号;根据信噪比、降噪增益因子以及混响信号对待处理音频信号去混响,得到去混响后的音频信号。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
为了方案描述清楚,将在下面实施例中对步骤s14,根据信噪比、降噪增益因子以及混响信号对待处理音频信号去混响,得到去混响后的音频信号的具体实施方式进行详细阐述。
在一种实施方式中,根据信噪比、降噪增益因子以及混响信号对待处理音频信号去混响,得到去混响后的音频信号,如图2所示,可以包括如下步骤:
在步骤s141中,对于待处理音频信号的任一当前帧音频信号,通过当前帧音频信号的音频信号,当前帧音频信号的混响信号,以及预设的最小去混响增益因子,计算当前帧音频信号对应的第一增益因子。
具体的,当前帧音频信号可以是待处理音频信号的任一帧音频信号。可以按照如下公式计算当前帧音频信号对应的第一增益因子:
其中,gdereverb(n)为当前帧音频信号对应的第一增益因子,|x(n)|2为当前帧音频信号的能量,sr(n)当前帧音频信号对应的混响信号,lambda为预设的最小去混响增益因子,lambda的大小可以根据需要去混响的最大限度设定,例如,lambda的大小可以为0.1。
在步骤s142中,根据第一增益因子和当前帧音频信号对应的降噪增益因子,计算第二增益因子。
具体的,在计算得到第一增益因子后,可以根据第一增益因子和当前帧音频信号对应的降噪增益因子,来计算第二增益因子。
并且,为了准确地计算第二增益因子,以后续步骤中可以更好地为待处理音频信号去混响。在实际应用中,在计算第二增益因子时,分为两种情况。
作为本公开实施例的一种实现方式,当前帧音频信号的信噪比小于预设信噪比,且当前帧音频信号的混响时长大于预设混响时长;其中,预设信噪比可以为20db,预设混响时长可以为300ms,本公开实施例对预设信噪比和预设混响时长不做具体限定。
此时,根据第一增益因子和当前帧音频信号对应的降噪增益因子,计算第二增益因子,可以包括如下步骤:
按照如下公式计算当前帧音频信号的去混响与去噪声比例因子:
其中,gamma为当前帧音频信号的去混响与去噪声比例因子,snr(n)为当前帧音频信号对应的信噪比;
按照如下公式计算第二增益因子:
其中,gtmp为第二增益因子,gdereverb(n)为当前帧音频信号对应的第一增益因子,gdenoise(n)为当前帧音频信号对应的降噪增益因子。
作为本公开实施例的另一种实现方式,当前帧音频信号的信噪比大于预设信噪比,或当前帧音频信号的混响时长小于预设混响时长;其中,预设信噪比可以为20db,预设混响时长可以为300ms,本公开实施例对预设信噪比和预设混响时长不做具体限定。
此时,根据第一增益因子和当前帧音频信号对应的降噪增益因子,计算第二增益因子,包括:
将当前帧音频信号对应的降噪增益因子确定为第二增益因子。
也就是说,gtmp=gdenoise(n)。
在步骤s143中,对第一增益因子和第二增益因子进行平滑处理,得到目标增益因子。
在计算得到第一增益因子和第二增益因子后,可以对第一增益因子和第二增益因子进行平滑处理,以得到最终用于去混响的目标增益因子。
具体的,可以按照如下公式对第一增益因子和第二增益因子进行平滑处理:
g(n)=smooth*gdereverb(n-1)+(1-smooth)*gtmp。
需要说明的是,当n=1时,gdereverb(n-1)为初始化的增益因子,即gdereverb(0)=1。其中,smooth为平滑系数,该平滑系数的大小可以为接近1的值,如可以为0.9。
在步骤s144中,通过目标增益因子对当前帧音频信号进行去混响,得到当前帧音频信号对应的去混响后的音频信号。
具体的,在得到当前帧音频信号对应的目标增益因子g(n)后,可以通过目标增益因子对当前帧音频信号进行去混响,得到当前帧音频信号对应的去混响后的音频信号。
其中,可以按照如下公式得到当前帧音频信号对应的去混响后的音频信号:
y(n)=g(n)*x(n)
y(n)为当前帧音频信号对应的去混响后的音频信号,g(n)为当前帧音频信号对应的目标增益因子,x(n)为当前帧音频信号。
由于当前帧音频信号可以为待处理音频信号的任一帧音频信号,因此,在得到所有当前帧音频信号对应的去混响后的音频信号后,即可以得到待处理音频信号的去混响后的音频信号。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
为了方案描述清楚,将在下面实施例中对根据待处理音频信号和混响时长,确定待处理音频信号的混响信号的具体实现方式进行详细阐述。
在一种实施方式中,根据待处理音频信号和混响时长,确定待处理音频信号的混响信号,如图3所示,可以包括如下步骤:
在步骤s131中,对于待处理音频信号的任一当前帧音频信号,计算当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量。
具体的,如果待处理音频信号的当前帧音频信号为待处理音频信号的第一帧音频信号,那么当前帧音频信号没有前一帧音频信号,因此,也就不存在前一帧音频信号的激励能量向量。此时,可以将前一帧音频信号的激励能量向量初始化,即ra(n)=0,且上一帧音频信号的激励能量向量衰减后的能量也为0。
如果待处理音频信号的当前帧音频信号不为待处理音频信号的第一帧音频信号,那么,当前帧音频信号具有前一帧音频信号,因此,也存在前一帧音频信号的激励能量向量,此时,上一帧音频信号的激励能量向量衰减后的能量不为0。
作为本公开实施例的一种实现方式,对于待处理音频信号的任一当前帧音频信号,计算当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量,可以包括如下步骤,分别为步骤b1和步骤b2:
步骤b1,在待处理音频信号的当前帧音频信号为待处理音频信号的第一帧音频信号时,将当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量确定为0。
由上述描述可知,在当前帧音频信号为第一帧音频信号时,当前帧音频信号不存在前一帧音频信号,因此,可以将当前帧音频信号的前一帧的激励能量向量衰减后的能量确定为0。
步骤b2,在待处理音频信号的当前帧音频信号不为待处理音频信号的第一帧音频信号时,按照如下公式计算当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量:
其中,r(n)为当前帧音频信号的上一帧音频信号的激励能量向量衰减后的能量,ra(n-1)为当前帧音频信号的上一帧音频信号的激励能量向量,t1为待处理音频信号相邻两帧间的时间间隔。
在步骤s132中,根据前一帧音频信号的激励能量向量衰减后的能量和当前帧音频信号的能量之间的最大值,确定当前帧音频信号的激励能量向量。
具体的,在得到前一帧音频信号的激励能量向量衰减后的能量和当前帧音频信号的能量之后,将前一帧音频信号的激励能量向量衰减后的能量和当前帧音频信号的能量做对比,取最大值,得到当前帧音频信号的激励能量向量。具体公式如下:
ra(n)=max(r(n),|x(n)|2)
其中,ra(n)为当前帧音频信号的激励能量向量,r(n)为前一帧音频信号的激励能量向量衰减后的能量,|x(n)|2为当前帧音频信号的能量。
在步骤s133中,根据当前帧音频信号的激励能量向量、待处理音频信号相邻两帧间的时间间隔,以及当前帧音频信号对应的混响时长,确定当前帧音频信号的混响信号。
具体的,在得到当前帧音频信号的激励能量向量后,可以通过当前帧音频信号的激励能量向量、待处理音频信号相邻两帧间的时间间隔,以及当前帧音频信号对应的混响时长来得到当前帧音频信号的混响信号。
作为本公开实施例的一种实现方式,根据当前帧音频信号的激励能量向量、待处理音频信号相邻两帧间的时间间隔,以及当前帧音频信号对应的混响时长,确定当前帧音频信号的混响信号,可以包括如下步骤:
按照如下公式计算当前帧音频信号的混响信号:
m=rt60(n)/t1;
其中,sr(n)为当前帧音频信号的混响信号,rt60(n)为当前帧音频信号对应的混响时长,m为当前帧音频信号对应的混响时长内对应的帧数;ra(n-m)为当前帧音频信号的前m帧的激励能量向量衰减后的能量。
由于当前帧音频信号可以为待处理音频信号的任一帧音频信号,因此,在得到所有当前帧音频信号的混响信号后,即可以得到待处理音频信号所包括的混响信号。
可见,通过本实施方式提供的技术方案,通过估计待处理音频信号的混响时长,并利用激励能量向量可以准确高效地确定出待处理音频信号所包括的混响信号,有利于后续对待处理音频信号进行去混响。
在上述实施例的基础上,为了进一步提升去混响后的音频信号的信号质量,在一种实施方式中,该音频处理方法还可以包括如下步骤:
通过降噪增益因子除去所述待处理音频信号所包括的噪声信号。
在该实施方式中,不仅可以对待处理音频信号进行去混响,还可以对待处理音频信号进行去噪声,这样,处理后所得的音频信号的信号质量更高。
为了方案描述清楚,下面将结合具体实例对本公开实施例提供的音频处理信号进行详细阐述。如图4所示。
在实际应用中,可以包括如下几个模块,分别为:平稳噪声估计模块,信噪比估计模块,混响时间估计模块,混响谱估计模块,混响消除模块。
音频输入即为系统传声器模块采集到的待处理音频信号,通常包含了语音信号、噪声信号和混响信号等信号成分。
首先,将待处理音频信号输入平稳噪声估计模块,利用平稳噪声估计模块估计待处理音频信号所包括的平稳噪声信号。
其次,信噪比估计模块利用平稳噪声估计模块输出的噪声信号估计结果进行信噪比估计,同时计算去除噪声的增益因子即降噪增益因子。
再次,可以将待处理音频信号输入混响时间估计模块,利用混响时间估计模块对待处理音频信号的环境混响水平进行估计,即估计待处理音频信号的混响时长rt60。
然后,利用混响时间估计模块得到的混响时长rt60指标作为参考进行混响谱估计,得到待处理音频信号的混响谱,即得到待处理音频信号所包括的混响信号。
最后,利用估计的混响谱、估计的信噪比、降噪增益因子等信息对待处理音频信号中的混响信号和平稳噪声信号同时进行消除,得到去混响后的输出音频,即得到处理后的音频信号。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响谱,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响,并利用降噪增益因子对待处理音频信号进行去噪声。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
根据本公开实施例的第二方面,提供了一种音频处理装置,如图5所示,包括:
音频信号获取模块510,被配置为执行获取待处理音频信号;
噪声信号和混响时长获取模块520,被配置为执行获取所述待处理音频信号所包括的噪声信号和所述待处理音频信号的混响时长;
信噪比和混响信号确定模块530,被配置为执行根据所述待处理音频信号和所述噪声信号,确定所述待处理音频信号的信噪比和降噪增益因子,并根据所述待处理音频信号和所述混响时长,确定所述待处理音频信号所包括的混响信号;
去混响模块540,被配置为执行根据所述信噪比、所述降噪增益因子以及所述混响信号对所述待处理音频信号去混响,得到去混响后的音频信号。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
可选的,所述去混响模块,包括:
第一增益因子计算单元,被配置为执行对于所述待处理音频信号的任一当前帧音频信号,通过所述当前帧音频信号的音频信号,所述当前帧音频信号的混响信号,以及预设的最小去混响增益因子,计算所述当前帧音频信号对应的第一增益因子;
第二增益因子计算单元,被配置为执行根据所述第一增益因子和所述当前帧音频信号对应的降噪增益因子,计算第二增益因子;
目标增益因子计算单元,被配置为执行对所述第一增益因子和所述第二增益因子进行平滑处理,得到目标增益因子;
去混响单元,被配置为执行通过所述目标增益因子对所述当前帧音频信号进行去混响,得到所述当前帧音频信号对应的去混响后的音频信号。
可选的,当所述当前帧音频信号的信噪比小于预设信噪比,且所述当前帧音频信号的混响时长大于预设混响时长时;
所述第二增益因子计算单元,具体被配置为执行:
按照如下公式计算所述当前帧音频信号的去混响与去噪声比例因子:
其中,gamma为所述当前帧音频信号的去混响与去噪声比例因子,snr(n)为所述当前帧音频信号对应的信噪比;
按照如下公式计算第二增益因子:
其中,gtmp为第二增益因子,所述gdereverb(n)为所述当前帧音频信号对应的第一增益因子,所述gdenoise(n)为所述当前帧音频信号对应的降噪增益因子。
可选的,当所述当前帧音频信号的信噪比大于预设信噪比,或所述当前帧音频信号的混响时长小于预设混响时长时;
所述第二增益因子计算单元,具体被配置为执行:
将所述当前帧音频信号对应的降噪增益因子确定为第二增益因子。
可选的,所述信噪比和混响信号确定模块,包括:
能量计算单元,被配置为执行对于所述待处理音频信号的任一当前帧音频信号,计算所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量;
激励能量向量确定单元,被配置为执行根据所述前一帧音频信号的激励能量向量衰减后的能量和所述当前帧音频信号的能量之间的最大值,确定所述当前帧音频信号的激励能量向量;
混响信号确定单元,被配置为执行根据所述当前帧音频信号的激励能量向量、所述待处理音频信号相邻两帧间的时间间隔,以及所述当前帧音频信号对应的混响时长,确定所述当前帧音频信号的混响信号。
可选的,所述能量计算单元,具体被配置为执行:
在所述待处理音频信号的当前帧音频信号为所述待处理音频信号的第一帧音频信号时,将所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量确定为0;
在所述待处理音频信号的当前帧音频信号不为所述待处理音频信号的第一帧音频信号时,按照如下公式计算所述当前帧音频信号的前一帧音频信号的激励能量向量衰减后的能量:
其中,所述r(n)为所述当前帧音频信号的上一帧音频信号的激励能量向量衰减后的能量,所述ra(n-1)为所述当前帧音频信号的上一帧音频信号的激励能量向量,所述t1为所述待处理音频信号相邻两帧间的时间间隔。
可选的,所述混响信号确定单元,具体被配置为执行:
按照如下公式计算所述当前帧音频信号的混响信号:
m=rt60(n)/t1;
其中,所述sr(n)为所述当前帧音频信号的混响信号,rt60(n)为所述当前帧音频信号对应的混响时长,m为所述当前帧音频信号对应的混响时长内对应的帧数;ra(n-m)为所述当前帧音频信号的前m帧的激励能量向量衰减后的能量。
可选的,所述音频信号获取模块,具体被配置为执行:
获取原始音频信号;
对所述原始音频信号进行短时傅里叶变换,得到所述原始音频信号的时频域信号;
将所述时频域信号确定为所述待处理音频信号。
可选的,所述装置还包括:
去噪声模块,被配置为执行通过所述降噪增益因子除去所述待处理音频信号所包括的噪声信号。
根据本公开实施例的第三方面,提供了一种电子设备,如图6所示,包括:
处理器610;
用于存储所述处理器可执行指令的存储器620;
其中,所述处理器被配置为执行所述指令,以实现第一方面所述的音频处理方法。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
图7是根据一示例性实施例示出的一种音频处理装置700的框图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行第一方面所述的音频处理方法。
装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(i/o)接口758。装置700可以操作基于存储在存储器732的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
图8是根据一示例性实施例示出的一种音频处理装置800的框图。例如,装置800可以是移动电话,计算机,数字广播电子设备,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
电源组件807为装置800的各种组件提供电力。电源组件807可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行第一方面所述的音频处理方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。可选地,例如,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性非临时性计算机可读存储介质计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
根据本公开实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面所述的音频处理方法。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
根据本公开实施例的第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现第一方面所述的音频处理方法。
可见,通过本公开实施例提供的技术方案,在对待处理音频信号去混响时,考虑到了信噪比、降噪增益因子以及混响信号,从而在待处理音频信号存在噪声信号时,也能够较好地对待处理音频信号去混响。并且,能够稳定降低混响对音频信号的扰动,同时去混响后的音频信号不会失真,提升实时通讯场景的音频信号的质量和可懂度。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
本公开并不局限于上面已经描述并在附图中示出的精确结构,可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除