语音增强方法、装置、计算机设备及存储介质与流程
本发明涉及人工智能技术领域,尤其是涉及一种语音增强方法、装置、计算机设备及存储介质。
背景技术:
近年来,随着智能型穿戴设备的快速发展和崛起,通过语音控制的消费类电子产品已成为最新潮流,语音智能需要可靠性强、准确率高的自动语音识别智能系统作为支撑,而前端语音增强技术就是最关键的一环。
目前,在利用前端语音增强技术对噪声进行处理时,通常根据周围环境,依据专家经验对语音增强模块的参数进行调整,以期达到较好的语音识别效果。然而,这种依据专家经验对语音增强参数进行调整的方式,只能一定程度地适应周围环境,改善高语音识别的效果,但是无法保证语音识别的正确率均达到最高。
技术实现要素:
本发明提供了一种语音增强方法、装置、计算机设备及存储介质,主要在于能够自动从预先构建的语音增强参数集中选择与周围环境相匹配的语音增强参数,利用该语音增强参数对待识别语音数据进行语音增强处理后,能够使语音识别准确率达到最高,从而能够在任何环境中达到最优的语音识别效果。
根据本发明的第一个方面,提供一种语音增强方法,包括:
获取待处理的语音数据;
提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
根据本发明的第二个方面,提供一种语音增强装置,包括:
获取单元,用于获取待处理的语音数据;
选取单元,用于提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
处理单元,用于根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待处理的语音数据;
提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取待处理的语音数据;
提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
本发明提供的一种语音增强方法、装置、计算机设备及存储介质,与目前依据专家经验对语音增强模块的参数进行调整的方式相比,本发明能够获取待处理的语音数据;同时提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;之后根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,由此通过确定待处理的语音数据所处的目标环境,能够自动从语音增强参数集中选取与其对应的目标语音增强参数,利用该目标语音增强参数对语音数据进行语音增强处理,不仅能够改善目标环境下的语音增强效果,同时还能够保证目标环境下语音识别的准确率达到最高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种语音增强方法流程图;
图2示出了本发明实施例提供的另一种语音增强方法流程图;
图3示出了本发明实施例提供的一种语音增强装置的结构示意图;
图4示出了本发明实施例提供的另一种语音增强装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,在利用前端语音增强技术对噪声进行处理时,通常根据周围环境,依据专家经验对语音增强模块的参数进行调整,以期达到较好的语音识别效果。然而,这种依据专家经验对语音增强参数进行调整的方式,只能一定程度地适应周围环境,改善高语音识别的效果,但是无法保证语音识别的正确率均达到最高。
为了解决上述问题,本发明实施例提供了一种信贷风险评估方法,如图1所示,所述方法包括:
101、获取待处理的语音数据。
其中,待处理的语音数据可以为在不同环境中采集到语音序列,例如,在街道旁采集到某用户的一段语音序列,或者在工厂中采集到某用户的一段语音序列,对于本发明实施例,为了克服现有技术中依据专家经验对语音增强参数进行调整的缺陷,本发明实施例通过预先构建语音增强参数集,并根据待处理的语音数据所处的目标环境,自动从语音增强参数集中选取相匹配的语音增强参数,由此在任何环境中不仅能够改善语音数据的语音增强效果,同时还能够使语音识别准确率达到最高。本发明实施例适用于语音数据的语音增强处理,本发明实施例的执行主体为能够对语音数据进行语音增强处理的装置或者设备,具体可以设置于客户端或者服务器一侧。
具体地,获取用户在某场景下的一段语音数据,在对该语音数据进行语音增强处理之前,需要对该语音数据进行预处理,具体包括预加重处理、分帧处理和加窗函数处理,由此得到预处理后的语音数据,进一步地,需要确定预处理后的语音数据所处的目标环境,基于语音数据所处的目标环境对其进行语音增强处理。
102、提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数。
其中,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率。对于本发明实施例,预设样本库中存储有在不同环境下采集的样本语音数据,为了确定不同样本语音数据所处的环境,需要对样本语音数据进行聚类处理,得到不同环境下的样本语音数据,并利用不同环境下的样本语音数据对语音增强模型进行训练,即对语音增强模型中的初始语音增强参数进行优化调整,直至经过语音增强处理后的样本语音数据输入至预先构建的语音识别模型中进行语音识别时,能够使语音数据的语音识别准确率达到最高,由此能够得到不同环境下的语音增强参数,并构建语音增强参数集,当语音数据处于某一环境时,利用与该环境对应的语音增强参数对语音数据进行语音增强处理,并将语音增强处理后的语音数据输入至预先构建的语音增强模型,能够使语音数据的语音识别准确率达到最高。
对于本发明实施例,在对语音数据进行语音增强处理之前,需要确定待处理的语音数据所处的目标环境,具体地,提取待处理的语音数据对应的第一语音特征,同时分别提取不同聚类类别(不同环境)下的样本语音数据对应的第二语音特征,之后根据不同聚类类别下样本语音数据对应的第二语音特征,计算不同聚类类别下样本语音数据对应的特征中心,由于相同环境下采集的语音数据对应的语音特征较为相近,因此通过计算第一语音特征与不同特征中心之间的距离,确定待处理的语音数据应归类至哪一聚类类别下的样本语音数据,进而能够确定待处理语音数据所处的目标环境。
进一步地,从预先构建的语音增强参数集中选择目标环境对应的目标增强参数,以便利用该目标语音增强参数对语音数据进行语音增强处理,并将语音增强处理后的语音数据输入至预先构建的语音识别模型中进行语音识别,能够使语音数据的语音识别效率达到最高,由此能够根据待处理的语音数据的语音特征,确定语音数据所处的目标环境,进而自动从语音增强参数集中选择目标环境对应的语音增强参数,对语音数据进行语音增强处理,改善了语音增强效果,同时能够保证经过语音增强处理后的语音数据的语音识别准确率达到最高。
103、根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
对于本发明实施例,语音增强处理主要是指对待处理的语音数据中的语音噪声进行降噪处理,在语音增强处理的过程中可以采用lms自适应滤波器降噪处理算法对语音数据进行语音增强处理,具体利用该算法进行语音增强处理时,首先通过语音端点检测算法(vad)对语音信号进行静音剔除处理,得到合适的声音频谱特征序列x=(x1,x2,…,xn),然后再经过多通道的维纳滤波操作,具体包括波束成形处理得到y=(y1,y2,…,yn),并利用功率谱密度(psd)估计减少残余噪声分量,得到维纳滤波输入分量
本发明实施例提供的一种语音增强方法,与目前依据专家经验对语音增强模块的参数进行调整的方式相比,本发明能够获取待处理的语音数据;同时提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;之后根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,由此通过确定待处理的语音数据所处的目标环境,能够自动从语音增强参数集中选取与其对应的目标语音增强参数,利用该目标语音增强参数对语音数据进行语音增强处理,不仅能够改善目标环境下的语音增强效果,同时还能够保证目标环境下语音识别的准确率达到最高。
进一步的,为了更好的说明上述对语音数据进行语音增强处理的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种语音增强方法方法,如图2所示,所述方法包括:
201、获取待处理的语音数据。
对于本发明实施例,为了能够根据待处理的语音数据所处的环境,自动选择与该环境相匹配的语音增强参数,而使语音数据的语音识别准确率达到最高,需要预先构建不同环境下的语音增强参数,基于此,所述方法包括:利用初始语音增强参数对所述不同环境下的样本语音数据进行语音增强处理,得到不同环境下语音增强处理后的样本语音数据;根据所述样本语音数据,构建不同环境下的语音识别准确率函数;根据所述准确率函数,对所述初始语音增强参数进行优化调整,得到不同环境下的语音增强参数,并基于所述不同环境下的语音增强参数,构建所述语音增强参数集。进一步地,所述根据所述样本语音数据,构建不同环境下的语音识别准确率函数,包括:利用预先构建的语音识别模型对所述语音增强处理后的样本语音数据进行语音识别,得到不同环境下的语音识别结果;根据所述不同环境下的语音识别结果,构建不同环境下的语音识别准确率函数。其中,预先构建的语音识别模型具体可以为神经网络语音识别模型。
例如,首先给定初始语音增强,之后利用该初始语音增强参数对工厂环境中的样本语音数据进行语音增强处理,得到在工厂环境下语音增强处理后的样本语音数据,并将该语音增强处理后的样本语音数据输入至预先构建的语音识别模型进行语音识别处理,得到工厂环境中样本语音数据对应的语音识别结果,接着根据该工厂环境中的语音识别结果,构建工厂环境下的语音识别准确率函数,在语音识别准确率最高的条件下求解该函数,具体搜寻最优解时可以利用遗传算法搜寻不同环境的语音增强参数,具体公式为:
θi=argmaxt(θ)
其中,t(θ)为工厂环境下的语音识别准确率,θi为在工厂环境下的语音增强参数,通过不断对初始语音增强参数优化调整,能够得到语音增强参数θi,语音增强参数θi能够使工厂环境下的语音识别准确率达到最高,由此按照上述方式能够得到不同环境下的语音增强参数,并构建语音增强参数集{θi},进而使不同环境下的语音识别准确率达到最高。
对于本发明实施例,在构建完成语音增强参数集后,可以获取待处理的语音数据,并通过确定待处理的语音数据所处的目标环境,从语音增强参数集中选择相应的语音增强参数对其进行语音增强处理。
202、提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数。
其中,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于最大化不同环境下的语音识别准确率。对于本发明实施例,为了确定待处理的语音数据所处的目标环境,步骤202具体包括:获取不同环境下样本语音数据,并提取所述样本语音数据对应的第二语音特征;根据所述第二语音特征,计算所述不同环境下样本语音数据对应的特征中心;根据所述特征中心和所述第一语音特征,确定所述语音数据所处的目标环境。进一步地,所述根据所述特征中心和所述第一语音特征,确定所述语音数据所处的目标环境,包括:利用预设的欧式距离算法计算所述第一语音特征与不同特征中心之间的欧式距离;从计算的欧式距离中筛选出最小欧式距离,并将所述最小欧式距离对应的样本语音数据所处环境确定为所述目标环境。其中,提取待处理的语音数据和样本语音数据对应的语音特征时,可以采用预设的梅尔倒谱算法计算待处理的样本数据和样本语音数据分别对应的梅尔倒谱系数,并将计算的梅尔倒谱系数确定为待处理的语音数据和样本语音数据分别对应的语音特征。
例如,计算得到街道旁的样本语音数据对应的特征中心为a,工厂环境下的样本语音数据对应的特征中心为b,机场环境下样本语音数据对应的特征中心为c,由于相同环境中语音数据对应的语音特征较为相似,之后分别计算待处理的语音数据对应的第一语音特征与特征中心a,特征中心b和特征中心c之间的欧式距离,并从计算的各个欧式距离中筛选最小欧式距离,如确定特征中心b与第一语音特征之间的欧式距离最小,则确定待处理的语音数据与工厂环境中的样本语音数据较为相近,因此确定待处理的语音数据处于工厂环境中,由此按照上述方式能够确定待处理的语音数据所处的目标环境。
203、根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
对于本发明实施例,为了对语音数据进行语音增强处理,步骤203具体包括:根据所述目标滤波降噪参数,对所述语音数据进行滤波降噪处理,得到降噪处理后的语音数据。具体利用目标滤波降噪参数对语音数据进行降噪处理的方式与步骤103完全相同,在此不再赘述。
204、对所述语音增强处理后的语音数据进行特征提取,得到所述语音数据对应的第三语音特征,并根据所述第三语音特征,确定所述语音数据对应的语音识别结果。
对于本方实施例,在对语音数据进行语音增强处理后,需要进一步对语音增强处理后的语音数据进行语音识别,具体对语音数据进行语音识别时,可以利用预先构建的语音识别模型进行语音识别,该语音识别模型具体可以为神经网络语音识别模型,具体地,将语音增强处理后的语音数据输入至语音识别模型,该语音识别模型中的隐藏层能够提取语音数据对应的第三语音特征,并根据该第三语音特征进行语音识别,从而得到语音数据对应的语音识别结果,此时该语音识别结果的准确率能够达到最高。
本发明实施例提供的另一种语音增强方法,与目前依据专家经验对语音增强模块的参数进行调整的方式相比,本发明能够获取待处理的语音数据;同时提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;之后根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,由此通过确定待处理的语音数据所处的目标环境,能够自动从语音增强参数集中选取与其对应的目标语音增强参数,利用该目标语音增强参数对语音数据进行语音增强处理,不仅能够改善目标环境下的语音增强效果,同时还能够保证目标环境下语音识别的准确率达到最高。
进一步地,作为图1的具体实现,本发明实施例提供了一种语音增强装置,如图3所示,所述装置包括:获取单元31、选取单元32和处理单元33。
所述获取单元31,可以用于获取待处理的语音数据。所述获取单元31是本装置中获取待处理的语音数据的主要功能模块。
所述选取单元32,可以用于提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于最大化不同环境下的语音识别准确率。所述选取单元32是本装置中提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数的主要功能模块,也是核心模块。
所述处理单元33,可以用于根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。所述处理单元33是本装置中根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据的主要功能模块。
进一步地,为了确定所述语音数据所处的目标环境,如图4所示,所述选取单元32,包括提取模块321、计算模块322和确定模块323。
所述提取模块321,可以用于获取不同环境下样本语音数据,并提取所述样本语音数据对应的第二语音特征。
所述计算模块322,可以用于根据所述第二语音特征,计算所述不同环境下样本语音数据对应的特征中心。
所述确定模块323,可以用于根据所述特征中心和所述第一语音特征,确定所述语音数据所处的目标环境。
进一步地,为了确定所述语音数据所处的目标环境,所述确定模块323,包括:计算子模块和确定子模块。
所述计算子模块,可以用于利用预设的欧式距离算法计算所述第一语音特征与不同特征中心之间的欧式距离。
所述确定子模块,可以用于从计算的欧式距离中筛选出最小欧式距离,并将所述最小欧式距离对应的样本语音数据所处环境确定为所述目标环境。
进一步地,为了构建语音增强参数集,所述装置还包括:构建单元34。
所述处理单元33,还可以用于利用初始语音增强参数对所述不同环境下的样本语音数据进行语音增强处理,得到不同环境下语音增强处理后的样本语音数据。
所述构建单元34,可以用于根据所述样本语音数据,构建不同环境下的语音识别准确率函数。
所述构建单元34,还可以用于根据所述准确率函数,对所述初始语音增强参数进行优化调整,得到不同环境下的语音增强参数,并基于所述不同环境下的语音增强参数,构建所述语音增强参数集。
进一步地,为了构建不同环境下的语音识别准确率函数,所述构建单元34,包括:识别模块341和构建模块342。
所述识别模块341,可以用于利用预先构建的语音识别模型对所述语音增强处理后的样本语音数据进行语音识别,得到不同环境下的语音识别结果。
所述构建模块342,可以用于根据所述不同环境下的语音识别结果,构建不同环境下的语音识别准确率函数。
进一步地,为了对语音数据进行语音识别,所述装置还包括:提取单元35和确定单元36。
所述提取单元35,可以用于对所述语音增强处理后的语音数据进行特征提取,得到所述语音数据对应的第三语音特征。
所述确定单元36,可以用于根据所述第三语音特征,确定所述语音数据对应的语音识别结果。
进一步地,为了对语音数据进行语音增强处理,所述处理单元33,具体可以用于根据所述目标滤波降噪参数,对所述语音数据进行滤波降噪处理,得到降噪处理后的语音数据。
需要说明的是,本发明实施例提供的一种语音增强装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待处理的语音数据;提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待处理的语音数据;提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
通过本发明的技术方案,本发明能够获取待处理的语音数据;同时提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;之后根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,由此通过确定待处理的语音数据所处的目标环境,能够自动从语音增强参数集中选取与其对应的目标语音增强参数,利用该目标语音增强参数对语音数据进行语音增强处理,不仅能够改善目标环境下的语音增强效果,同时还能够保证目标环境下语音识别的准确率达到最高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除