音频降噪方法、装置、设备及介质与流程
本公开涉及音频处理技术领域,特别涉及一种音频降噪方法、装置、设备及介质。
背景技术:
近年来,随着音频处理技术的不断发展,智能音箱、车载语音交互系统等智能语音交互系统不断普及,这些智能语音交互系统接收包括用户语音的音频,对音频进行处理,从而对音频中用户语音进行识别,实现人机交互。在实际使用中,智能语音交互系统接收到的音频中往往夹杂有不同种类的噪声,因此需要首先对这些音频进行降噪处理。
相关技术中,音频降噪方法通常是:利用冲击噪声快速衰减的特性,根据当前帧和未来几帧的音频信息,选取这几帧中最小的平滑功率谱作为需要追踪最小值的平滑功率谱。
在上述方法中,在延迟帧数设置较小时,有不少人声被估计成冲击噪声,从而造成语音损伤,因而,降噪效果差。
技术实现要素:
本公开实施例提供了一种音频降噪方法、装置、设备及介质,提高了降噪效果。所述技术方案如下:
一方面,提供了一种音频降噪方法,所述方法包括:
根据待降噪音频帧中低频能量和高频能量的比例,确定所述待降噪音频帧的噪声存在概率;
根据所述噪声存在概率,提取所述待降噪音频帧的噪声谱;
根据所述噪声谱,去除所述待降噪音频帧中的噪声,得到目标音频帧。
在一种可能实现方式中,所述根据待降噪音频帧中低频能量和高频能量的比例,确定所述待降噪音频帧的噪声存在概率,包括:
响应于所述待降噪音频帧中低频能量和高频能量的比例大于比例阈值,将第一噪声存在概率确定为所述待降噪音频帧的噪声存在概率;
响应于所述待降噪音频帧中低频能量和高频能量的比例小于或等于比例阈值,将第二噪声存在概率确定为所述待降噪音频帧的噪声存在概率,所述第一噪声存在概率小于所述第二噪声存在概率。
在一种可能实现方式中,所述待降噪音频帧中低频能量和高频能量的比例的确定过程包括:
根据所述待降噪音频帧的频谱,获取所述待降噪音频帧中低频能量均值和高频能量均值;
将所述低频能量均值和高频能量均值的比值确定为所述待降噪音频帧中高频能量和低频能量的比例。
在一种可能实现方式中,所述根据所述噪声谱,去除所述待降噪音频帧中的噪声,得到目标音频帧,包括:
根据所述噪声谱中高频能量和低频能量的比例,对所述噪声谱进行调整;
根据调整后的噪声谱,去除所述待降噪音频帧中的噪声,得到目标音频帧。
在一种可能实现方式中,所述根据所述噪声谱中高频能量和低频能量的比例,对所述噪声谱进行调整,包括:
根据所述噪声谱中高频能量和低频能量的比例,确定所述噪声谱的语音存在概率;
根据所述语音存在概率,提取所述噪声谱中的噪声,得到调整后的噪声谱。
在一种可能实现方式中,所述根据所述噪声谱中高频能量和低频能量的比例,确定所述噪声谱的语音存在概率,包括:
响应于所述噪声谱中高频能量和低频能量的比例大于目标阈值,将高频段对应的语音存在概率确定为第一语音存在概率,将低频段对应的语音存在概率确定为第二语音存在概率,所述第一语音存在概率小于所述第二语音存在概率。
在一种可能实现方式中,所述噪声谱中高频能量和低频能量的比例的确定过程包括:
获取所述噪声谱中高频能量均值和低频能量均值;
根据所述高频能量均值和低频能量均值的比值作为所述噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,所述噪声谱中高频能量和低频能量的比例的确定过程包括:
确定所述噪声谱的多个频点中每个频点是否存在噪声;
根据所述每个频点的噪声存在结果,确定所述噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,所述根据所述每个频点的噪声存在结果,确定所述噪声谱中高频能量和低频能量的比例,包括:
根据所述每个频点的权重,对所述每个频点的噪声存在结果进行加权求和,得到所述噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,所述确定所述噪声谱的多个频点中每个频点是否存在噪声,包括:
获取所述噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系;
对于任一频点,响应于所述频点的幅值大于或等于幅值阈值,确定所述频点包括噪声;
对于任一频点,响应于所述频点的幅值小于幅值阈值,确定所述频点不包括噪声。
一方面,提供了一种音频降噪装置,所述装置包括:
确定模块,用于根据待降噪音频帧中低频能量和高频能量的比例,确定所述待降噪音频帧的噪声存在概率;
提取模块,用于根据所述噪声存在概率,提取所述待降噪音频帧的噪声谱;
降噪模块,用于根据所述噪声谱,去除所述待降噪音频帧中的噪声,得到目标音频帧。
在一种可能实现方式中,所述确定模块用于:
响应于所述待降噪音频帧中低频能量和高频能量的比例大于比例阈值,将第一噪声存在概率确定为所述待降噪音频帧的噪声存在概率;
响应于所述待降噪音频帧中低频能量和高频能量的比例小于或等于比例阈值,将第二噪声存在概率确定为所述待降噪音频帧的噪声存在概率,所述第一噪声存在概率小于所述第二噪声存在概率。
在一种可能实现方式中,所述确定模块还用于:
根据所述待降噪音频帧的频谱,获取所述待降噪音频帧中低频能量均值和高频能量均值;
将所述低频能量均值和高频能量均值的比值确定为所述待降噪音频帧中高频能量和低频能量的比例。
在一种可能实现方式中,所述降噪模块用于:
根据所述噪声谱中高频能量和低频能量的比例,对所述噪声谱进行调整;
根据调整后的噪声谱,去除所述待降噪音频帧中的噪声,得到目标音频帧。
在一种可能实现方式中,所述降噪模块用于:
根据所述噪声谱中高频能量和低频能量的比例,确定所述噪声谱的语音存在概率;
根据所述语音存在概率,提取所述噪声谱中的噪声,得到调整后的噪声谱。
在一种可能实现方式中,所述降噪模块用于:
响应于所述噪声谱中高频能量和低频能量的比例大于目标阈值,将高频段对应的语音存在概率确定为第一语音存在概率,将低频段对应的语音存在概率确定为第二语音存在概率,所述第一语音存在概率小于所述第二语音存在概率。
在一种可能实现方式中,所述降噪模块用于:
获取所述噪声谱中高频能量均值和低频能量均值;
根据所述高频能量均值和低频能量均值的比值作为所述噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,所述降噪模块用于:
确定所述噪声谱的多个频点中每个频点是否存在噪声;
根据所述每个频点的噪声存在结果,确定所述噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,所述降噪模块用于根据所述每个频点的权重,对所述每个频点的噪声存在结果进行加权求和,得到所述噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,所述降噪模块用于:
获取所述噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系;
对于任一频点,响应于所述频点的幅值大于或等于幅值阈值,确定所述频点包括噪声;
对于任一频点,响应于所述频点的幅值小于幅值阈值,确定所述频点不包括噪声。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现上述音频降噪方法所执行的操作。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现上述音频降噪方法所执行的操作。
一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得计算机设备能够执行上述任一种可能实施方式的音频降噪方法。
本公开实施例提供的技术方案带来的有益效果至少可以包括:
本公开实施例提供的技术方案,根据冲击噪声低高频分布的特点,分析出噪声存在概率,以此作为依据提取噪声谱,能够对单个音频帧进行降噪,无需很多帧音频信息来分析噪声衰减情况,从而对待降噪音频帧的降噪步骤的延迟较小,能够在较小延迟帧数下有效抑制冲击噪声,因而,降噪效果更好。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种音频降噪系统的示意图;
图2是本公开实施例提供的一种音频降噪方法流程图;
图3是本公开实施例提供的一种音频降噪方法流程图;
图4是本公开实施例提供的一种含冲击噪声的语音语谱图;
图5是相关技术提供的一种估计出的噪声谱图;
图6是本公开实施例提供的一种估计出的噪声谱图;
图7是本公开实施例提供的一种调整后的噪声谱图;
图8是相关技术提供的一种降噪后的目标音频帧的谱图;
图9是本公开实施例提供的一种降噪后的目标音频帧的谱图;
图10是本公开实施例提供的一种音频降噪装置结构示意图;
图11是本公开实施例提供的一种终端的结构示意图;
图12是本公开实施例提供的一种服务器的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
图1是本公开实施例提供的一种音频降噪系统的示意图,参见图1,该音频降噪系统中可以包括语音采集设备110和计算机设备120,也可以单独是计算机设备120。
在音频降噪系统包括语音采集设备110和计算机设备120时,语音采集设备110可以通过网络或数据线与该计算机设备120连接。其中,语音采集设备110可以具有语音采集功能,可以采集待降噪音频。在一种可能实现方式中,本公开实施的应用场景可以为通话系统中环境中比较尖锐的冲击噪声,例如,摔笔或大力敲击键盘这种冲击噪声。当然,也可以为其他应用场景中比较尖锐的冲击噪声。计算机设备120可以具有音频处理功能,可以对该语音采集设备110采集到的待降噪音频进行降噪处理。
在音频降噪系统仅包括计算机设备120时,计算机设备120可以具有语音采集功能和音频处理功能,计算机设备120可以采集多种环境中的待降噪音频、对待降噪音频进行降噪处理。
在一种可能实现方式中,该计算机设备120可以为终端,也可以为服务器,本公开实施例对此不作限定。
图2是本公开实施例提供的一种音频降噪方法流程图,该方法应用于计算机设备,参见图2,该方法包括:
201、根据待降噪音频帧中低频能量和高频能量的比例,确定该待降噪音频帧的噪声存在概率。
202、根据该噪声存在概率,提取该待降噪音频帧的噪声谱。
203、根据该噪声谱,去除该待降噪音频帧中的噪声,得到目标音频帧。
本公开实施例提供的方法,根据冲击噪声低高频分布的特点,确定噪声存在概率,从而提取噪声谱进行降噪步骤,无需很多帧音频信息来分析噪声衰减情况,从而对待降噪音频帧的降噪步骤的延迟较小,能够在较小延迟帧数下有效抑制冲击噪声,因而,上述降噪方法的降噪效果更好。
在一种可能实现方式中,该根据待降噪音频帧中低频能量和高频能量的比例,确定该待降噪音频帧的噪声存在概率,包括:
响应于该待降噪音频帧中低频能量和高频能量的比例大于比例阈值,将第一噪声存在概率确定为该待降噪音频帧的噪声存在概率;
响应于该待降噪音频帧中低频能量和高频能量的比例小于或等于比例阈值,将第二噪声存在概率确定为该待降噪音频帧的噪声存在概率,该第一噪声存在概率小于该第二噪声存在概率。
在一种可能实现方式中,该待降噪音频帧中低频能量和高频能量的比例的确定过程包括:
根据该待降噪音频帧的频谱,获取该待降噪音频帧中低频能量均值和高频能量均值;
将该低频能量均值和高频能量均值的比值确定为该待降噪音频帧中高频能量和低频能量的比例。
在一种可能实现方式中,该根据该噪声谱,去除该待降噪音频帧中的噪声,得到目标音频帧,包括:
根据该噪声谱中高频能量和低频能量的比例,对该噪声谱进行调整;
根据调整后的噪声谱,去除该待降噪音频帧中的噪声,得到目标音频帧。
在一种可能实现方式中,该根据该噪声谱中高频能量和低频能量的比例,对该噪声谱进行调整,包括:
根据该噪声谱中高频能量和低频能量的比例,确定该噪声谱的语音存在概率;
根据该语音存在概率,提取该噪声谱中的噪声,得到调整后的噪声谱。
在一种可能实现方式中,该根据该噪声谱中高频能量和低频能量的比例,确定该噪声谱的语音存在概率,包括:
响应于该噪声谱中高频能量和低频能量的比例大于目标阈值,将高频段对应的语音存在概率确定为第一语音存在概率,将低频段对应的语音存在概率确定为第二语音存在概率,该第一语音存在概率小于该第二语音存在概率。
在一种可能实现方式中,该噪声谱中高频能量和低频能量的比例的确定过程包括:
获取该噪声谱中高频能量均值和低频能量均值;
根据该高频能量均值和低频能量均值的比值作为该噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,该噪声谱中高频能量和低频能量的比例的确定过程包括:
确定该噪声谱的多个频点中每个频点是否存在噪声;
根据该每个频点的噪声存在结果,确定该噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,该根据该每个频点的噪声存在结果,确定该噪声谱中高频能量和低频能量的比例,包括:
根据该每个频点的权重,对该每个频点的噪声存在结果进行加权求和,得到该噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,该确定该噪声谱的多个频点中每个频点是否存在噪声,包括:
获取该噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系;
对于任一频点,响应于该频点的幅值大于或等于幅值阈值,确定该频点包括噪声;
对于任一频点,响应于该频点的幅值小于幅值阈值,确定该频点不包括噪声。
图3是本公开实施例提供的一种音频降噪方法的流程图,参见图3,该方法可以包括:
301、计算机设备获取待降噪音频帧。
本公开实施例中,该计算机设备可以为终端或者服务器。该待降噪音频帧可以是在多种场景下获取的带有噪声的音频中的一帧,例如,在汽车、轮船、飞机等交通工具中,获取到的该待降噪语音中可以包括汽车开窗高速行驶中的风噪或汽车雨天行驶中的雨声噪声;在家居环境中,获取到的该待降噪音频帧中可以包括电视的噪声或洗衣机的转动噪声,本公开实施例对此不进行限定。
计算机设备获取该待降噪音频帧的方式可以有多种,在一种可能实现方式中,该确定过程可以包括下述方式一至方式三中的任一种:
方式一、计算机设备直接获取该待降噪音频帧。
计算机设备可以具有语音采集功能,计算机设备可以直接采集声音,得到该待降噪音频帧。
方式二、计算机设备获取语音采集设备采集的该待降噪音频帧。
计算机设备可以通过网络或数据线与语音采集设备连接,获取由该语音采集设备采集的该待降噪音频帧,该语音采集设备可以是任意种类的具有语音采集功能的设备,本公开实施例对此不进行限定。
方式三、计算机设备可以从数据库中提取该待降噪音频帧。
在该方式三中,可以通过数据库来存储该待降噪音频帧,在计算机设备需要对该待降噪音频帧进行处理时,再从该数据库中提取。
需要说明的是,该计算机设备可以获取得到待降噪音频,从而对待降噪音频的每帧进行降噪,从而得到每帧对应的目标音频帧,进而得到该待降噪音频降噪后的目标音频。在此仅以该计算机设备对一个待降噪音频帧进行降噪的过程进行说明,对其他待降噪音频帧的降噪过程与此同理,在此不多做赘述。
302、计算机设备确定待降噪音频帧中低频能量和高频能量的比例。
对音频帧进行处理时,由于待降噪音频帧中噪声在频域上分布均匀,将其转换到频域进行计算,在减少计算难度的同时,能够更有效地估计出噪声,进而更有效地去除噪声,提高降噪效果。因而,计算机设备可以先获取该待降噪音频帧的频谱,再根据该频谱,去确定上述比例。
计算机设备在获取上述比例时,可以根据该频谱对该待降噪音频帧中的低频能量和高频能量进行分析,从而确定二者的比例。该过程可以通过多种方式来实现,下面提供了一种可能实现方式。
在该实现方式中,计算机设备可以根据该待降噪音频帧的频谱,获取该待降噪音频帧中低频能量均值和高频能量均值,将该低频能量均值和高频能量均值的比值确定为该待降噪音频帧中高频能量和低频能量的比例。
其中,该低频能量均值能够表示该音频帧中低频能量的情况,高频能量均值能够表示该音频帧中高频能量的情况。进而,计算机设备获取二者的比值,即可作为低频能量和高频能量的比例。
例如,计算机设备对待降噪音频帧进行时域-频域转换,将待降噪音频帧的时域信号转换为频谱,假设fft(fastfouriertransform,快速傅立叶变换)长度512,重叠和添加(overlap&add)长度256,采样率16khz为例,音频幅度平方用ya2表示,则计算机设备根据该待降噪音频帧的频谱,可以通过下述公式一和公式二,获取得到低频能量均值elow和高频能量均值ehigh:
计算机设备获取到低频能量均值elow和高频能量均值ehigh后,则可以通过下述公式三,获取二者的比例slope:
slope=elow/ehigh,公式三
上述仅示出了通过能量均值获取比例的方式,例如,该过程也可以通过其他方式实现,例如,通过获取频谱中低频频点的音频幅值的和值,与高频频点的音频幅值的和值,将两个和值的比值作为上述比例。本公开实施例对此不作限定。
303、计算机设备根据待降噪音频帧中低频能量和高频能量的比例,确定该待降噪音频帧的噪声存在概率。
通过上述步骤,计算机设备获取到待降噪音频帧中低频能量和高频能量的比例,该比例可以表示该待降噪音频帧中低频高频能量分布情况,由于冲击噪声一般发生时间短,能量集中,频率分布较均匀,如果低频能量较多,则可以说明人声语音较多,如果高频能量较多,则可以说明冲击噪声更多。因而,通过该比例,计算机设备可以确定待降噪音频帧的噪声存在概率。
在一种可能实现方式中,可以设置比例阈值,通过比较比例和比例阈值的大小关系,来确定噪声存在概率。二者的大小关系可以包括两种,分别可以设置不同的噪声存在概率。
具体地,在该实现方式中,在第一种情况中,计算机设备可以响应于该待降噪音频帧中低频能量和高频能量的比例大于比例阈值,将第一噪声存在概率确定为该待降噪音频帧的噪声存在概率。在第二种情况中,计算机设备可以响应于该待降噪音频帧中低频能量和高频能量的比例小于或等于比例阈值,将第二噪声存在概率确定为该待降噪音频帧的噪声存在概率,该第一噪声存在概率小于该第二噪声存在概率。
该比例阈值可以由相关技术人员根据需求进行设置,可以为一个经验阈值,本公开实施例对其具体取值不作限定。
例如,仍以该比例用slope表示为例,假设比例阈值为t,如果slope>t,则说明信号中低频能量集中,为人声的概率高,因而,噪声存在概率则可以设置低一些。如果slope<t,则说明信号中高频能量集中,为噪声的概率高,因而,噪声存在概率则可以设置高一些。
该噪声存在概率与上述低频能量与高频能量的比例负相关,在一种可能实现方式中,可以预设有多个候选噪声存在概率,在slope>t时,计算机设备可以将噪声存在概率设置为多个候选噪声存在概率中最小的,在slope<t时,可以将噪声存在概率设置为其他较大的候选噪声存在概率。
304、计算机设备根据该噪声存在概率,提取该待降噪音频帧的噪声谱。
计算机设备确定了噪声存在概率,则可以从待降噪音频帧中提取得到噪声谱。该噪声谱的提取过程可以通过多种方式实现,在一种可能实现方式中,该噪声谱的提取过程可以通过最优改进对数谱幅度估计(optimallymodifiedlog-spectralamplitudeestimator,omlsa)计算和改进的最小控制递归平均算法(improvedminimacontrolledrecursiveaveraging,imcra)计算实现。
在上述omlsa和imcra计算过程中,应用上述步骤确定的噪声存在概率,通过该待降噪音频帧与前后的音频帧信息,来提取得到该待降噪音频帧的噪声谱。具体的,计算机设备可以获取到待降噪音频帧平滑后的功率频谱,以及上述前一帧的功率频谱,从而跟踪平滑功率频谱的最小值,从而剑采用噪声存在概率,获知语音存在情况,对噪声谱最小值估计进行补偿,最终获取得到较准确的噪声谱,进而通过omlsa计算,调整该噪声谱。
例如,图4示出了一种含冲击噪声的语音语谱图,如图4所示,冲击噪声一般发生时间短,能量集中,频率分布较均匀。通过相关技术提供的降噪方法,估计出的噪声谱可以如图5所示,该方法在延迟帧数设置为一个较小的值时,很多人声被识别为噪声,并不适应于延迟要求高的应用场景,降噪效果不佳。通过本公开提供的降噪方式,得到的噪声谱可以如图6所示,大量减少了冲击噪声估计中的人声成分,降噪效果更好。
305、计算机设备根据该噪声谱中高频能量和低频能量的比例,对该噪声谱进行调整。
计算机设备获取得到待降噪音频帧对应的噪声谱后,上述噪声谱中还可能包含少部分的人声,例如,[s]、[z]、[dz]、[ts]类型的发音,则可以通过分析该噪声谱中高低频能量的分布,以此来分析该噪声谱中包括的人声语音,从而对该噪声谱进行调整,以将噪声谱中这些人声去除。
在一种可能实现方式中,该计算机设备可以通过下述步骤一和步骤二,来对噪声谱进行调整。
步骤一、根据该噪声谱中高频能量和低频能量的比例,确定该噪声谱的语音存在概率。
在该步骤一中,对于噪声谱中是否包括有人声,可以通过噪声谱中高频能量和低频能量的比例,来表示噪声占比多少,从而确定是否包括大量人声,来得到语音存在概率。
在一种可能实现方式中,可以设置目标阈值,来衡量该噪声谱中的是否高频能量集中,从而判断是否存在[s]、[z]、[dz]、[ts]类型的发音。在该实现方式中,计算机设备可以响应于该噪声谱中高频能量和低频能量的比例大于目标阈值,将高频段对应的语音存在概率确定为第一语音存在概率,将低频段对应的语音存在概率确定为第二语音存在概率,该第一语音存在概率小于该第二语音存在概率。
冲击噪声的高频能量高,因而,可以将高频段对应的语音存在概率设置为较小值,为了避免减少语音损伤,将低频段对应的语音存在概率设置为较大值。
在另一种可能实现方式中,计算机设备可以响应于该噪声谱中高频能量和低频能量的比例大于目标阈值,确定该噪声谱中的噪声存在概率为目标噪声存在概率,该目标噪声存在概率为数值最小的候选噪声存在概率。
其中,该噪声谱中高频能量与低频能量的比例可以通过多种方式获取,下年提供了两种可能实现方式,计算机设备可以采用任一种方式确定该比例,也可以通过其他方式确定该比例,本公开实施例对具体采用哪种方式不作限定。
方式一、计算机设备获取该噪声谱中高频能量均值和低频能量均值,根据该高频能量均值和低频能量均值的比值作为该噪声谱中高频能量和低频能量的比例。
例如,假设上述步骤304中估计出的噪声谱用λt表示。可以通过下述公式四和公式五,获取噪声谱的低频能量均值etlow和高频能量均值ethigh。
计算机设备可以通过下述公式六,获取高频能量均值与低频能量均值的比例slopet:
slopet=ethigh/etlow,公式六
如果slopet>tt,说明此时信号的高频能量集中,为[s]、[z]、[dz]、[ts]类型的发音的概率高,则可以将噪声存在概率设置为最小值
方式二、计算机设备确定该噪声谱的多个频点中每个频点是否存在噪声,根据该每个频点的噪声存在结果,确定该噪声谱中高频能量和低频能量的比例。
在该方式二中,获取上述比例时,可以根据每个频点是否为噪声来进行确定,其中,在确定每个频点是否存在噪声时,计算机设备可以获取该噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系,对于任一频点,响应于该频点的幅值大于或等于幅值阈值,确定该频点包括噪声,对于任一频点,响应于该频点的幅值小于幅值阈值,确定该频点不包括噪声。
例如,对每帧的噪声谱λt,每个频点做一次判断,判断可以通过下述公式七实现:
其中,该tt1为幅度阈值。通过判断每个频点的幅值是否小于幅度阈值,来判断是否存在噪声。
确定了每个频点的噪声存在结果后,计算机设备可以根据该每个频点的权重,对该每个频点的噪声存在结果进行加权求和,得到该噪声谱中高频能量和低频能量的比例。
例如,可以预设有权重数组w_i,i=0,1,…,256,其中0-50的权重需要较小,150-200需要调的较大(比如,0-50频点的权重为0.8,51-100:0.85,101-150:0.95,151-200:0.97,201-256:0.97)。对于确定了每个频点的噪声存在结果,可以通过下述公式八进行加权求和,得到该噪声谱中高频能量和低频能量的比例d。
如果d>td,则说明该帧冲击噪声能量水平较高,因而,可以设置语音存在概率ph1(i)=0.7,i=0,…,126,ph1(i)=0.1,i=127,…,257。其中,td即为目标阈值。其中,tt1和td均可以为经验阈值,前者用来判断某频点的是否包含冲击噪声,后者用来判断当前帧冲击噪声的能量水平。由于冲击噪声高频能量高,因此ph1可设置为较小值,为避免减少语音损伤,低频段对应的ph1值相对较大。
例如,如图7所示,经过该步骤305调整后,调整后的噪声谱去除了更多人声成分,更准确,通过这样的噪声谱进行噪声去除步骤,能够达到更佳的降噪效果。
步骤二、根据该语音存在概率,提取该噪声谱中的噪声,得到调整后的噪声谱。
计算机设备确定了语音存在概率后,可以再次提取噪声,得到调整后的噪声谱,需要说明的是,该过程也可以通过omlsa计算和imcra计算实现,与上述步骤304同理,在此不多做赘述。
306、计算机设备根据调整后的噪声谱,去除该待降噪音频帧中的噪声,得到目标音频帧。
计算机设备获取到调整后的噪声谱,即可去除噪声,得到降噪后的目标音频帧。具体的,计算机设备可以将该调整后的噪声谱作为噪声谱的一部分,对待降噪音频帧进行omlsa计算和imcra计算,得到目标音频帧。与上述步骤304中的计算过程同理,在此不多做赘述。
例如,如图8和图9所示,图8示出了相关技术中直接根据音频帧信息降噪得到的目标音频帧。图9示出了通过本公开提供的降噪方式降噪后得到的目标音频帧。从图中可以看出,本公开提供的降噪方式去除了高频的冲击噪声的同时,更好的保留了人声成分,并未将高频的爆破音等去除,大大降低了语音损伤,降噪效果更好。且本公开提供的降噪方式根据冲击噪声低高频分布的特点进行降噪,无需参考很多帧的音频信息进行降噪,因而能够在较少延迟帧数下有效抑制冲击噪声,且较小损伤语音。
上述步骤305至步骤306为根据该噪声谱,去除该待降噪音频帧中的噪声,得到目标音频帧的过程,上述仅以根据噪声存在概率提取噪声谱后,再基于噪声谱中高低频能量分布进一步调整噪声谱再进行噪声去除为例进行说明,在一种可能实现方式中,计算机设备在步骤304后,还可以直接与步骤304得到的噪声谱进行噪声去除步骤得到目标音频帧。本公开实施例对此不作限定。
本公开实施例提供的方法,根据冲击噪声低高频分布的特点,确定噪声存在概率,从而提取噪声谱进行降噪步骤,无需很多帧音频信息来分析噪声衰减情况,从而对待降噪音频帧的降噪步骤的延迟较小,能够在较小延迟帧数下有效抑制冲击噪声,因而,上述降噪方法的降噪效果更好。
图10是本公开实施例提供的一种音频降噪装置结构示意图,参见图10,该装置包括:
确定模块1001,用于根据待降噪音频帧中低频能量和高频能量的比例,确定该待降噪音频帧的噪声存在概率;
提取模块1002,用于根据该噪声存在概率,提取该待降噪音频帧的噪声谱;
降噪模块1003,用于根据该噪声谱,去除该待降噪音频帧中的噪声,得到目标音频帧。
在一种可能实现方式中,该确定模块1001用于:
响应于该待降噪音频帧中低频能量和高频能量的比例大于比例阈值,将第一噪声存在概率确定为该待降噪音频帧的噪声存在概率;
响应于该待降噪音频帧中低频能量和高频能量的比例小于或等于比例阈值,将第二噪声存在概率确定为该待降噪音频帧的噪声存在概率,该第一噪声存在概率小于该第二噪声存在概率。
在一种可能实现方式中,该确定模块1001还用于:
根据该待降噪音频帧的频谱,获取该待降噪音频帧中低频能量均值和高频能量均值;
将该低频能量均值和高频能量均值的比值确定为该待降噪音频帧中高频能量和低频能量的比例。
在一种可能实现方式中,该降噪模块1003用于:
根据该噪声谱中高频能量和低频能量的比例,对该噪声谱进行调整;
根据调整后的噪声谱,去除该待降噪音频帧中的噪声,得到目标音频帧。
在一种可能实现方式中,该降噪模块1003用于:
根据该噪声谱中高频能量和低频能量的比例,确定该噪声谱的语音存在概率;
根据该语音存在概率,提取该噪声谱中的噪声,得到调整后的噪声谱。
在一种可能实现方式中,该降噪模块1003用于:
响应于该噪声谱中高频能量和低频能量的比例大于目标阈值,将高频段对应的语音存在概率确定为第一语音存在概率,将低频段对应的语音存在概率确定为第二语音存在概率,该第一语音存在概率小于该第二语音存在概率。
在一种可能实现方式中,该降噪模块1003用于:
获取该噪声谱中高频能量均值和低频能量均值;
根据该高频能量均值和低频能量均值的比值作为该噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,该降噪模块1003用于:
确定该噪声谱的多个频点中每个频点是否存在噪声;
根据该每个频点的噪声存在结果,确定该噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,该降噪模块1003用于根据该每个频点的权重,对该每个频点的噪声存在结果进行加权求和,得到该噪声谱中高频能量和低频能量的比例。
在一种可能实现方式中,该降噪模块1003用于:
获取该噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系;
对于任一频点,响应于该频点的幅值大于或等于幅值阈值,确定该频点包括噪声;
对于任一频点,响应于该频点的幅值小于幅值阈值,确定该频点不包括噪声。
本公开实施例提供的装置,根据冲击噪声低高频分布的特点,确定噪声存在概率,从而提取噪声谱进行降噪步骤,无需很多帧音频信息来分析噪声衰减情况,从而对待降噪音频帧的降噪步骤的延迟较小,能够在较小延迟帧数下有效抑制冲击噪声,因而,降噪效果更好。
需要说明的是:上述实施例提供的音频降噪装置在降噪时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频降噪装置与音频降噪方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11是本公开实施例提供的一种终端的结构示意图。该终端1100可以是:智能手机、平板电脑、mp3(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)播放器、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。该终端还可以是安装在中控上的语音智能终端嵌入式设备。
通常,终端1100包括有:一个或多个处理器1101和一个或多个存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1101所执行以实现本公开中方法实施例提供的音频降噪方法。
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
外围设备接口1103可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏1105用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置终端1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在再一些实施例中,显示屏1105可以是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
定位组件1108用于定位终端1100的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件1108可以是基于美国的gps(globalpositioningsystem,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1112可以检测终端1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3d动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时,可以检测用户对终端1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1101授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商logo时,指纹传感器1114可以与物理按键或厂商logo集成在一起。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制显示屏1105的显示亮度。具体地,当环境光强度较高时,调高显示屏1105的显示亮度;当环境光强度较低时,调低显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时,由处理器1101控制显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时,由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图11中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图12是本公开实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(centralprocessingunits,cpu)1201和一个或多个的存储器1202,其中,该一个或多个存储器1202中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器1201加载并执行以实现上述各个方法实施例提供的音频降噪方法。当然,该服务器1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1200还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由处理器执行以完成上述实施例中的音频降噪方法。例如,该计算机可读存储介质可以是只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、只读光盘(compactdiscread-onlymemory,cd-rom)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得计算机设备能够执行上述音频降噪方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除