HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

基于深度学习的口语训练方法和系统与流程

2021-01-28 13:01:26|302|起点商标网
基于深度学习的口语训练方法和系统与流程

本发明涉及智能教育的技术领域,特别涉及基于深度学习的口语训练方法和系统。



背景技术:

目前,在语音教学实践中,为了使学生能够掌握相应的口语发音技巧,通常都是向学生提供若干不同的口语发音训练素材,以便学生能够反复地对该口语发音训练素材进行跟读,从而使自身的实际口语发音能够接近该口语发音训练素材对应的标准口语发音。但是,上述口语发音训练方式只能依靠学生自身的主观感觉来确定口语发音的训练结果是否符合相应的标准,其无法对学生自身的实际口语发音情况进行定量的和客观的分析判断,这不利于学生针对自身口语发音的实际情况进行有针对性的调整改善,从而大大地降低口语发音训练的准确性、科学性和可靠性。



技术实现要素:

针对现有技术存在的缺陷,本发明提供基于深度学习的口语训练方法和系统,其通过获取若干标准口语语音样本对应的样本声纹信息,并对该样本声纹信息进行第一预处理,再将该第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练,并获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对该实际声纹信息进行第二预处理,再将该第二预处理后的实际声纹信息输入至训练后的该预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果,再根据该卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据该声纹谱能量分布信息,判断该目标对象实际口语发音的正确性;可见,该基于深度学习的口语训练方法和系统能够以预设的若干标准口语语音样本的样本声纹信息作为基础依据,对预设卷积神经网络模型进行训练,以使该预设卷积神经网络模型能够与当前口语语音发音模式相匹配,再通过训练后的预设卷积神经网络模型对目标对象的实际口语语音信息中的实际声纹信息进行分析处理,以此获取与之对应的声纹谱能量分布信息,从而根据该声纹谱能量分布信息对目标对象的实际口语发音进行定量的评判,其有别于现有技术只能对实际口语发音情况进行主观评价,其借助卷积神经网络模型对目标对象的实际声纹信息进行深度学习分析,从而对目标对象的实际口语发音情况进行定量的和客观的分析判断和提高口语发音训练的准确性、科学性和可靠性。

本发明提供基于深度学习的口语训练方法,其特征在于,其包括如下步骤:

步骤s1,获取若干标准口语语音样本对应的样本声纹信息,并对所述样本声纹信息进行第一预处理,再将所述第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练;

步骤s2,获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对所述实际声纹信息进行第二预处理,再将所述第二预处理后的实际声纹信息输入至训练后的所述预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果;

步骤s3,根据所述卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据所述声纹谱能量分布信息,判断所述目标对象实际口语发音的正确性;

进一步,在所述步骤s1中,获取若干标准口语语音样本对应的样本声纹信息,并对所述样本声纹信息进行第一预处理,再将所述第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练具体包括:

步骤s101,获取若干标准口音语音样本数据,并对若干所述标准口语语音样本进行声纹提取处理,从而获得其对应的样本声纹信息;

步骤s102,根据下面公式(1),对所述样本声纹信息进行降噪滤波预处理,以此得到所述样本声纹信息对应的声纹幅值:

在上述公式(1)中,si(a)表示降噪滤波预处理后的第i个样本声纹信息的第a帧声纹幅值,表示第i个样本声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;

步骤s103,将上述步骤s102得到的所有声纹幅值作为训练样本数据,对预设卷积神经网络模型进行训练;

进一步,在所述步骤s2中,获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对所述实际声纹信息进行第二预处理,再将所述第二预处理后的实际声纹信息输入至训练后的所述预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果具体包括:

步骤s201,在目标对象阅读预设文字语段的过程中,对所述目标对象进行多方位录音,以此获得来自所述目标对象的实际口语语音信息,并对所述实际口语语音信息进行声纹提取处理,从而获得其对应的实际声纹信息;

步骤s202,根据下面公式(2),对所述实际声纹信息进行降噪滤波预处理,以此得到所述实际声纹信息对应的声纹幅值:

在上述公式(2)中,s"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;

步骤s203,根据下面公式(3),对上述步骤s202得到的所有声纹幅值进行关于训练后的所述预设卷积神经网络计算处理,从而得到卷积处理结果

在上述公式(3)中,s"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,n表示实际声纹信息的总数量,表示s"i(a)的梯度,表示的一阶范数,表示的二阶范数的平方值;

进一步,在所述步骤s3中,根据所述卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据所述声纹谱能量分布信息,判断所述目标对象实际口语发音的正确性具体包括:

步骤s301,根据下面公式(4),对所述卷积处理结果进行计算,从而确定实际声纹信息对应的声纹谱单帧能量值:

在上述公式(4)中,p(m)表示所述实际声纹信息中第m帧声纹对应的声纹谱单帧能量值,u表示所述实际声纹信息包含的声纹总帧数;

步骤s302,对上述步骤s301得到的所有声纹谱单帧能量值进行求和运算,以及将所述求和运算的结果与预设声纹谱能量总阈值进行比对,若所述求和运算的结果大于或者等于所述预设声纹谱能量总阈值,则确定所述目标对象实际口语发音具有正确性,否则,确定所述目标对象实际口音发音不具有正确性。

本发明还提供基于深度学习的口语训练系统,其特征在于,其包括样本声纹信息获取与预处理模块、卷积神经网络模型训练模块、实际声纹信息获取与处理模块、卷积神经网路模型处理模块、声纹谱能量分布信息确定模块和实际口语发音评判模块;其中,

所述样本声纹信息获取与预处理模块用于获取若干标准口语语音样本对应的样本声纹信息,并对所述样本声纹信息进行第一预处理;

所述卷积神经网络模型训练模块用于将所述第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练;

所述实际声纹信息获取与处理模块用于获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对所述实际声纹信息进行第二预处理;

所述卷积神经网路模型处理模块用于将所述第二预处理后的实际声纹信息输入至训练后的所述预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果;

所述声纹谱能量分布信息确定模块用于根据所述卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息;

所述实际口语发音评判模块用于根据所述声纹谱能量分布信息,判断所述目标对象实际口语发音的正确性;

进一步,所述样本声纹信息获取与预处理模块获取若干标准口语语音样本对应的样本声纹信息,并对所述样本声纹信息进行第一预处理具体包括:

获取若干标准口音语音样本数据,并对若干所述标准口语语音样本进行声纹提取处理,从而获得其对应的样本声纹信息;

再根据下面公式(1),对所述样本声纹信息进行降噪滤波预处理,以此得到所述样本声纹信息对应的声纹幅值:

在上述公式(1)中,si(a)表示降噪滤波预处理后的第i个样本声纹信息的第a帧声纹幅值,表示第i个样本声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;

以及,

所述卷积神经网络模型训练模块将所述第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练具体包括:

将上述得到的所有声纹幅值作为训练样本数据,对预设卷积神经网络模型进行训练;

进一步,所述实际声纹信息获取与处理模块获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对所述实际声纹信息进行第二预处理具体包括:

在目标对象阅读预设文字语段的过程中,对所述目标对象进行多方位录音,以此获得来自所述目标对象的实际口语语音信息,并对所述实际口语语音信息进行声纹提取处理,从而获得其对应的实际声纹信息;

再根据下面公式(2),对所述实际声纹信息进行降噪滤波预处理,以此得到所述实际声纹信息对应的声纹幅值:

在上述公式(2)中,s"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;

以及,

所述卷积神经网路模型处理模块将所述第二预处理后的实际声纹信息输入至训练后的所述预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果具体包括:

根据下面公式(3),对上述步骤s202得到的所有声纹幅值进行关于训练后的所述预设卷积神经网络计算处理,从而得到卷积处理结果

在上述公式(3)中,s"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,n表示实际声纹信息的总数量,表示s"i(a)的梯度,表示的一阶范数,表示的二阶范数的平方值;

进一步,所述声纹谱能量分布信息确定模块根据所述卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息具体包括:

根据下面公式(4),对所述卷积处理结果进行计算,从而确定实际声纹信息对应的声纹谱单帧能量值:

在上述公式(4)中,p(m)表示所述实际声纹信息中第m帧声纹对应的声纹谱单帧能量值,u表示所述实际声纹信息包含的声纹总帧数;

以及,

所述实际口语发音评判模块根据所述声纹谱能量分布信息,判断所述目标对象实际口语发音的正确性具体包括:

对上述得到的所有声纹谱单帧能量值进行求和运算,以及将所述求和运算的结果与预设声纹谱能量总阈值进行比对,若所述求和运算的结果大于或者等于所述预设声纹谱能量总阈值,则确定所述目标对象实际口语发音具有正确性,否则,确定所述目标对象实际口音发音不具有正确性。

相比于现有技术,该基于深度学习的口语训练方法和系统通过获取若干标准口语语音样本对应的样本声纹信息,并对该样本声纹信息进行第一预处理,再将该第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练,并获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对该实际声纹信息进行第二预处理,再将该第二预处理后的实际声纹信息输入至训练后的该预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果,再根据该卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据该声纹谱能量分布信息,判断该目标对象实际口语发音的正确性;可见,该基于深度学习的口语训练方法和系统能够以预设的若干标准口语语音样本的样本声纹信息作为基础依据,对预设卷积神经网络模型进行训练,以使该预设卷积神经网络模型能够与当前口语语音发音模式相匹配,再通过训练后的预设卷积神经网络模型对目标对象的实际口语语音信息中的实际声纹信息进行分析处理,以此获取与之对应的声纹谱能量分布信息,从而根据该声纹谱能量分布信息对目标对象的实际口语发音进行定量的评判,其有别于现有技术只能对实际口语发音情况进行主观评价,其借助卷积神经网络模型对目标对象的实际声纹信息进行深度学习分析,从而对目标对象的实际口语发音情况进行定量的和客观的分析判断和提高口语发音训练的准确性、科学性和可靠性。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的基于深度学习的口语训练方法的流程示意图。

图2为本发明提供的基于深度学习的口语训练系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参阅图1,为本发明实施例提供的基于深度学习的口语训练方法的流程示意图。该基于深度学习的口语训练方法包括如下步骤:

步骤s1,获取若干标准口语语音样本对应的样本声纹信息,并对该样本声纹信息进行第一预处理,再将该第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练;

步骤s2,获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对该实际声纹信息进行第二预处理,再将该第二预处理后的实际声纹信息输入至训练后的该预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果;

步骤s3,根据该卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据该声纹谱能量分布信息,判断该目标对象实际口语发音的正确性。

上述技术方案的有益效果为:该基于深度学习的口语训练方法能够以预设的若干标准口语语音样本的样本声纹信息作为基础依据,对预设卷积神经网络模型进行训练,以使该预设卷积神经网络模型能够与当前口语语音发音模式相匹配,再通过训练后的预设卷积神经网络模型对目标对象的实际口语语音信息中的实际声纹信息进行分析处理,以此获取与之对应的声纹谱能量分布信息,从而根据该声纹谱能量分布信息对目标对象的实际口语发音进行定量的评判,其有别于现有技术只能对实际口语发音情况进行主观评价,其借助卷积神经网络模型对目标对象的实际声纹信息进行深度学习分析,从而对目标对象的实际口语发音情况进行定量的和客观的分析判断和提高口语发音训练的准确性、科学性和可靠性。

优选地,在该步骤s1中,获取若干标准口语语音样本对应的样本声纹信息,并对该样本声纹信息进行第一预处理,再将该第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练具体包括:

步骤s101,获取若干标准口音语音样本数据,并对若干该标准口语语音样本进行声纹提取处理,从而获得其对应的样本声纹信息;

步骤s102,根据下面公式(1),对该样本声纹信息进行降噪滤波预处理,以此得到该样本声纹信息对应的声纹幅值:

在上述公式(1)中,si(a)表示降噪滤波预处理后的第i个样本声纹信息的第a帧声纹幅值,表示第i个样本声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;

步骤s103,将上述步骤s102得到的所有声纹幅值作为训练样本数据,对预设卷积神经网络模型进行训练。

上述技术方案的有益效果为:通过上述公式(1),对该样本声纹信息进行降噪滤波预处理能够有效地降低该样本声纹信息中的背景噪声干扰,从而有效地提高该声纹幅值的提取准确性和有效性,以及便于后续对预设卷积神经网络模型进行有针对性的训练,以保证该预设卷积神经网络模型能够被训练至收敛状态。

优选地,在该步骤s2中,获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对该实际声纹信息进行第二预处理,再将该第二预处理后的实际声纹信息输入至训练后的该预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果具体包括:

步骤s201,在目标对象阅读预设文字语段的过程中,对该目标对象进行多方位录音,以此获得来自该目标对象的实际口语语音信息,并对该实际口语语音信息进行声纹提取处理,从而获得其对应的实际声纹信息;

步骤s202,根据下面公式(2),对该实际声纹信息进行降噪滤波预处理,以此得到该实际声纹信息对应的声纹幅值:

在上述公式(2)中,s"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;

步骤s203,根据下面公式(3),对上述步骤s202得到的所有声纹幅值进行关于训练后的该预设卷积神经网络计算处理,从而得到卷积处理结果

在上述公式(3)中,s"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,n表示实际声纹信息的总数量,表示s"i(a)的梯度,表示的一阶范数,表示的二阶范数的平方值。

上述技术方案的有益效果为:通过上述公式(2),能够对该实际声纹信息进行降噪滤波预处理能够有效地降低该实际声纹信息中的背景噪声干扰,从而有效地提高该声纹幅值的提取准确性和有效性,而通过上述公式(3),对该实际声纹信息中的声纹幅值进行卷积处理,能够对所有帧声纹幅值进行综合分析和平滑化处理,从而对该目标对象的实际口语发音状态进行科学化和定量化的衡量评判。

优选地,在该步骤s3中,根据该卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据该声纹谱能量分布信息,判断该目标对象实际口语发音的正确性具体包括:

步骤s301,根据下面公式(4),对该卷积处理结果进行计算,从而确定实际声纹信息对应的声纹谱单帧能量值:

在上述公式(4)中,p(m)表示该实际声纹信息中第m帧声纹对应的声纹谱单帧能量值,u表示该实际声纹信息包含的声纹总帧数;

步骤s302,对上述步骤s301得到的所有声纹谱单帧能量值进行求和运算,以及将该求和运算的结果与预设声纹谱能量总阈值进行比对,若该求和运算的结果大于或者等于该预设声纹谱能量总阈值,则确定该目标对象实际口语发音具有正确性,否则,确定该目标对象实际口音发音不具有正确性。

上述技术方案的有益效果为:通过上述公式(4),能够该实际声纹信息的声纹谱分布状态进行谱能量层面的分析处理,从而使计算得到的声纹谱单帧能量值能够全面地反映该目标对象实际口音发音状态,以便于进行定量的和客观的分析判断和提高口语发音训练的准确性、科学性和可靠性。

参阅图2,为本发明实施例提供的基于深度学习的口语训练系统的结构示意图。该基于深度学习的口语训练系统包括样本声纹信息获取与预处理模块、卷积神经网络模型训练模块、实际声纹信息获取与处理模块、卷积神经网路模型处理模块、声纹谱能量分布信息确定模块和实际口语发音评判模块;其中,

该样本声纹信息获取与预处理模块用于获取若干标准口语语音样本对应的样本声纹信息,并对该样本声纹信息进行第一预处理;

该卷积神经网络模型训练模块用于将该第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练;

该实际声纹信息获取与处理模块用于获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对该实际声纹信息进行第二预处理;

该卷积神经网路模型处理模块用于将该第二预处理后的实际声纹信息输入至训练后的该预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果;

该声纹谱能量分布信息确定模块用于根据该卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息;

该实际口语发音评判模块用于根据该声纹谱能量分布信息,判断该目标对象实际口语发音的正确性。

上述技术方案的有益效果为:该基于深度学习的口语训练系统能够以预设的若干标准口语语音样本的样本声纹信息作为基础依据,对预设卷积神经网络模型进行训练,以使该预设卷积神经网络模型能够与当前口语语音发音模式相匹配,再通过训练后的预设卷积神经网络模型对目标对象的实际口语语音信息中的实际声纹信息进行分析处理,以此获取与之对应的声纹谱能量分布信息,从而根据该声纹谱能量分布信息对目标对象的实际口语发音进行定量的评判,其有别于现有技术只能对实际口语发音情况进行主观评价,其借助卷积神经网络模型对目标对象的实际声纹信息进行深度学习分析,从而对目标对象的实际口语发音情况进行定量的和客观的分析判断和提高口语发音训练的准确性、科学性和可靠性。

优选地,该样本声纹信息获取与预处理模块获取若干标准口语语音样本对应的样本声纹信息,并对该样本声纹信息进行第一预处理具体包括:

获取若干标准口音语音样本数据,并对若干该标准口语语音样本进行声纹提取处理,从而获得其对应的样本声纹信息;

再根据下面公式(1),对该样本声纹信息进行降噪滤波预处理,以此得到该样本声纹信息对应的声纹幅值:

在上述公式(1)中,si(a)表示降噪滤波预处理后的第i个样本声纹信息的第a帧声纹幅值,表示第i个样本声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;

以及,

该卷积神经网络模型训练模块将该第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练具体包括:

将上述得到的所有声纹幅值作为训练样本数据,对预设卷积神经网络模型进行训练。

上述技术方案的有益效果为:通过上述公式(1),对该样本声纹信息进行降噪滤波预处理能够有效地降低该样本声纹信息中的背景噪声干扰,从而有效地提高该声纹幅值的提取准确性和有效性,以及便于后续对预设卷积神经网络模型进行有针对性的训练,以保证该预设卷积神经网络模型能够被训练至收敛状态。

优选地,该实际声纹信息获取与处理模块获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对该实际声纹信息进行第二预处理具体包括:

在目标对象阅读预设文字语段的过程中,对该目标对象进行多方位录音,以此获得来自该目标对象的实际口语语音信息,并对该实际口语语音信息进行声纹提取处理,从而获得其对应的实际声纹信息;

再根据下面公式(2),对该实际声纹信息进行降噪滤波预处理,以此得到该实际声纹信息对应的声纹幅值:

在上述公式(2)中,s"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;

以及,

该卷积神经网路模型处理模块将该第二预处理后的实际声纹信息输入至训练后的该预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果具体包括:

根据下面公式(3),对上述步骤s202得到的所有声纹幅值进行关于训练后的该预设卷积神经网络计算处理,从而得到卷积处理结果

在上述公式(3)中,s"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,n表示实际声纹信息的总数量,表示s"i(a)的梯度,表示的一阶范数,表示的二阶范数的平方值。

上述技术方案的有益效果为:通过上述公式(2),能够对该实际声纹信息进行降噪滤波预处理能够有效地降低该实际声纹信息中的背景噪声干扰,从而有效地提高该声纹幅值的提取准确性和有效性,而通过上述公式(3),对该实际声纹信息中的声纹幅值进行卷积处理,能够对所有帧声纹幅值进行综合分析和平滑化处理,从而对该目标对象的实际口语发音状态进行科学化和定量化的衡量评判。

优选地,该声纹谱能量分布信息确定模块根据该卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息具体包括:

根据下面公式(4),对该卷积处理结果进行计算,从而确定实际声纹信息对应的声纹谱单帧能量值:

在上述公式(4)中,p(m)表示该实际声纹信息中第m帧声纹对应的声纹谱单帧能量值,u表示该实际声纹信息包含的声纹总帧数;

以及,

该实际口语发音评判模块根据该声纹谱能量分布信息,判断该目标对象实际口语发音的正确性具体包括:

对上述得到的所有声纹谱单帧能量值进行求和运算,以及将该求和运算的结果与预设声纹谱能量总阈值进行比对,若该求和运算的结果大于或者等于该预设声纹谱能量总阈值,则确定该目标对象实际口语发音具有正确性,否则,确定该目标对象实际口音发音不具有正确性。

上述技术方案的有益效果为:通过上述公式(4),能够该实际声纹信息的声纹谱分布状态进行谱能量层面的分析处理,从而使计算得到的声纹谱单帧能量值能够全面地反映该目标对象实际口音发音状态,以便于进行定量的和客观的分析判断和提高口语发音训练的准确性、科学性和可靠性。

从上述实施例内容可知,该基于深度学习的口语训练方法和系统通过获取若干标准口语语音样本对应的样本声纹信息,并对该样本声纹信息进行第一预处理,再将该第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练,并获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对该实际声纹信息进行第二预处理,再将该第二预处理后的实际声纹信息输入至训练后的该预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果,再根据该卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据该声纹谱能量分布信息,判断该目标对象实际口语发音的正确性;可见,该基于深度学习的口语训练方法和系统能够以预设的若干标准口语语音样本的样本声纹信息作为基础依据,对预设卷积神经网络模型进行训练,以使该预设卷积神经网络模型能够与当前口语语音发音模式相匹配,再通过训练后的预设卷积神经网络模型对目标对象的实际口语语音信息中的实际声纹信息进行分析处理,以此获取与之对应的声纹谱能量分布信息,从而根据该声纹谱能量分布信息对目标对象的实际口语发音进行定量的评判,其有别于现有技术只能对实际口语发音情况进行主观评价,其借助卷积神经网络模型对目标对象的实际声纹信息进行深度学习分析,从而对目标对象的实际口语发音情况进行定量的和客观的分析判断和提高口语发音训练的准确性、科学性和可靠性。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips