HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种基于图像识别的语音混响强度估计方法、装置及存储介质与流程

2021-01-28 16:01:09|343|起点商标网

本发明涉及语音处理技术领域,特别是一种基于图像识别的语音混响强度估计方法及其应用该方法的基于图像识别的语音混响强度估计装置及计算机可读存储介质。



背景技术:

混响效应是室内声学的一个重要现象,他是由声音在封闭空间总经多次反射而产生。在免提电话、电视电话会议系统、助听器、人机对话系统等应用中,混响效应是影响语音信号可懂度的重要因素;同时,在立体声影院、立体声汽车音响系统等应用中,它也是影响双耳立体声效果的重要因素。

但是在实践生活中对混响强度的度量方式非常少,常用的混响强度估计方法主要包括:

(1)根据混响时间估计混响强度:

混响时间(表示为rt60)定义为:在特定房屋空间中从声音激励停止时起算,其残余声能经过多次反射后衰减至低于起始观测时能量的60db所经历的时间。混响时间是衡量特定房屋空间混响特性的一个重要指标,并且与解混响算法中后期混响(late-reverberation)功率的计算估计密切相关。

但是,盲源混响时间是学术上的难题,特别是当只用一个信道时,很难精确得到任何环境下混响时间。

(2)根据srmr值估计混响强度:

混响调制能量比(srmr)值是通过计算语音-混响的调节能量比来作为混响强度的一种估计。但是,srmr和文本有关,会受到语音中的元音的影响,可能出现没有混响却返回高混响强度。



技术实现要素:

本发明的主要目的在于提供了一种基于图像识别的语音混响强度估计方法、装置及存储介质,旨在解决混响强度难以准确度量的技术问题。

为实现上述目的,本发明提供了一种基于图像识别的语音混响强度估计方法,其包括以下步骤:

步骤a,将混响语音转换为三维语谱图;

步骤b,通过对所述三维语谱图进行图像检测,得到所述混响语音在所述三维语谱图中的拖尾段;

步骤c,计算所述拖尾段的能量强度,并以该能量强度作为混响强度的初始估计值;

步骤d,对两个以上拖尾段的初始估计值之间进行平滑处理,得到最终估计值,并将该最终估计值作为所述混响语音的混响强度的度量。

优选的,所述的步骤a中,进一步根据语谱能量的强弱对所述三维语谱图进行颜色标记;所述的步骤c中,根据所述颜色标记中的颜色深度来计算所述拖尾段的能量强度。

进一步的,所述颜色标记,是指语谱能量越强则颜色越深,语谱能量越弱则颜色越浅。

优选的,所述的步骤b中,根据所述混响语音的能量损耗规律进行识别所述拖尾段,具体包括:

b1.查找预设的时间区间和预设的频率段上的一个以上的频率点;

b2.计算所述一个以上的频率点中的振幅最高频率点;

b3.移动时间轴,在所述预设的频率段上查找振幅低于所述振幅最高频率点的一个以上的频率点,得到低振幅频率点;

b4.判断所述低振幅频率点之间是否符合能量损耗规律,若是,则所述低振幅频率点对应的时间范围判定为混响时间段;所述混响时间段即所述拖尾段。

优选的,所述的步骤b中,是通过将所述三维语谱图作为神经网络的输入,并通过神经网络的图像检测功能得到所述混响语音在所述三维语谱图中的拖尾段。

进一步的,所述神经网络采用tdnn神经网络或是cnn神经网络。

优选的,所述的步骤d中,是采用log1p函数进行平滑处理;计算方法如下:

log1p=log(x+1);

其中,x为所述拖尾段的初始估计值。

此外,为实现上述目的,本发明还提供一种装置,所述装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于图像识别的语音混响强度估计程序,所述基于图像识别的语音混响强度估计程序被所述处理器执行时实现如上文所述的基于图像识别的语音混响强度估计方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于图像识别的语音混响强度估计程序,所述基于图像识别的语音混响强度估计程序被处理器执行时实现如上文所述的基于图像识别的语音混响强度估计方法的步骤。

本发明的有益效果是:

(1)本发明通过将混响语音转换为三维语谱图;通过对所述三维语谱图进行图像检测,得到所述混响语音在所述三维语谱图中的拖尾段;计算所述拖尾段的能量强度,并以该能量强度作为混响强度的初始估计值;最后对两个以上拖尾段的初始估计值之间进行平滑处理,得到最终估计值,并将该最终估计值作为所述混响语音的混响强度的度量,从而能够极大的提高混响强度度量的抗干扰性和准确性;

(2)本发明的能量强度的计算,采用基于图像识别的颜色标记中的颜色深度来表示,更加直观;

(3)本发明的拖尾段的识别,是采用基于图像识别的频率点的振幅进行判断振幅最高频率点,并在此基础上根据振幅最高频率点来查找低振幅频率点,从而能够快速准确定位所述拖尾段;

(4)本发明的平滑处理算法,能够保证数据的有效性,进而提高混响强度计算结果的准确性。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例对所述技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

混响语音的频谱在语音间隙会出现明显的拖尾,表现在语谱图上时,这些拖尾段与其他原因产生的语谱图存在明显的差异。并且,混响越大,拖尾段的能量越大,我们可以通过图像识别找出这些拖尾段,并计算所述拖尾段的能量强度来作为所述混响语音的混响强度的度量,从而得到本发明的技术方案。

具体的,本发明的一种基于图像识别的语音混响强度估计方法,其包括以下步骤:

步骤a,将混响语音转换为三维语谱图;

步骤b,通过对所述三维语谱图进行图像检测,得到所述混响语音在所述三维语谱图中的拖尾段;

步骤c,计算所述拖尾段的能量强度,并以该能量强度作为混响强度的初始估计值;

步骤d,对两个以上拖尾段的初始估计值之间进行平滑处理,得到最终估计值,并将该最终估计值作为所述混响语音的混响强度的度量。

所述的步骤a中,所述三维语谱图是指时频幅三维图,以帧号(时间)为x轴,频率为y轴,幅度为z轴。本实施例中进一步根据语谱能量的强弱对所述三维语谱图进行颜色标记;所述颜色标记,是指语谱能量越强则颜色越深,语谱能量越弱则颜色越浅。本实施例中,语谱图中的能量的强弱采用红色表示,红色越深表示能量越大。

所述的步骤b中,根据所述混响语音的能量损耗规律进行识别所述拖尾段,具体包括:

b1.查找预设的时间区间和预设的频率段上的一个以上的频率点;

b2.计算所述一个以上的频率点中的振幅最高频率点;

b3.移动时间轴,在所述预设的频率段上查找振幅低于所述振幅最高频率点的一个以上的频率点,得到低振幅频率点;

b4.判断所述低振幅频率点之间是否符合能量损耗规律,若是,则所述低振幅频率点对应的时间范围判定为混响时间段;所述混响时间段即所述拖尾段。

语音混响是多次反射的结果,由于反射会产生能量损耗,因此可以从所述三维语谱图上看到一些拖尾现象。在连续的时间,发现所述振幅最高频率点之后,在相同的频率下又发现振幅较小的频率点,则该振幅较小的频率点即为所述混响语音的拖尾段。

本实施例中,是通过将所述三维语谱图作为神经网络的输入,并通过神经网络的图像检测功能得到所述混响语音在所述三维语谱图中的拖尾段。优选的,所述神经网络采用tdnn神经网络或是cnn神经网络。本实施例将所述三维语谱图及其颜色标记作为神经网络的输入,并输出所述混响语音的拖尾段;同时,输出所述混响段对应的频率和振幅等特征。

tdnn神经网络是指时延神经网络(time-delayneuralnetwork,tdnn),它对每个隐层的输出都在时域进行扩展,即每个隐层接收到的输入不仅是前一层在当前时刻的输出,还有前一层在之前和之后的某些时刻的输出。tdnn神经网络是多层的,每层对特征有较强的抽象能力,并且有能力表达语音特征在时间上的关系,具有时间不变性。tdnn延时神经网络通过在时间维度上共享权值降低学习复杂度,适用于语音和时间序列信号的处理,与本发明的混响语音的时延特性相适应。

cnn神经网络是指卷积神经网络(convolutionalneuralnetwork,cnn),是受语音信号处理中时延神经网络(tdnn)影响而发明的。卷积神经网络是人工神经网络的一种,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。

所述的步骤c中,根据所述颜色标记中的颜色深度来计算所述拖尾段的能量强度。并且,:拖尾越长,能量越低,振幅越小。较长的拖尾段的形成,可能是2至3次反射结果。

所述的步骤d中,是采用log1p函数进行平滑处理;计算方法如下:

log1p=log(x+1);

其中,x为所述拖尾段的初始估计值。

采用所述log1p函数可以对偏度比较大的数据进行转化,使其更加服从高斯分布;并且,log1p函数能够保证了x数据的有效性:当x很小时(如两个数值相减后得到x=10-16),由于太小超过数值有效性;采用log1p函数则计算得到一个很小却不为0的结果,从而提高混响强度计算结果的准确性。

本发明的混响强度的估计方法,可应用于说话环境的推测。具体的,可提供一种说话环境的推测方法:通过获取说话环境的混响语音,采用上述基于图像识别的语音混响强度估计方法,计算所述说话环境的混响语音的混响强度,将所述混响强度输入神经网络模型中进行预测对应的说话环境;所述神经网络模型中预设有每个说话环境对应的混响强度以及其他参数特征。

或者,本发明的混响强度的估计方法,还可应用于录音棚、音乐厅等场所的指标是否达到要求的评估标准之一等,不以此为限。

另外,本发明还提供一种装置,所述装置包括:手机、数码相机或平板电脑等具有拍照功能的装置,或者具有基于图像识别的语音混响强度估计功能的装置,或者具有图像显示功能和语音处理功能的装置。所述装置可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中,存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等;存储数据区可存储根据装置的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息、语音信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,本实施例的输入单元除了包括摄像头,还可包括麦克风以及其他输入装置。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板,可选的,可以采用lcd(liquidcrystaldisplay,液晶显示器)、oled(organiclight-emittingdiode,有机发光二极管)等形式来配置显示面板。

本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入装置中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现基于图像识别的语音混响强度估计方法。所述计算机可读存储介质可以是只读存储器,磁盘或光盘等。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例及存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips