一种基于音频指纹的发音评测方法及终端与流程

2021-01-28 17:01:49|

432|

起点商标网

本发明涉及计算机辅助教学技术领域，尤其涉及一种基于音频指纹的发音评测方法及终端。

背景技术：

随着人们生活水平的逐渐提高，人们越来越重视孩子的学前教育，汉语拼音、阿拉伯数字和英文字母是学前教育中的语言基础，其标准发音对语言的影响至关重要。

目前，发音教学过程中全部依赖于不同经验水平的老师进行讲解示范，然而我国方言多种多样的现状以及其他人为教学的不可控因素导致发音不标准，使得孩子学习汉语拼音、阿拉伯数字和英文字母时的发音往往不够准确。

技术实现要素：

鉴于上述状况，实有必要提供一种基于音频指纹的发音评测方法及终端，以解决上述问题。

本发明提供了一种基于音频指纹的发音评测方法，所述方法包括：

收集标准发音音频，并提取所述标准发音音频对应的标准发音音频指纹；

获取用户发音音频，并提取所述用户发音音频对应的用户发音音频指纹；

将所述标准发音音频指纹与所述用户发音音频指纹进行匹配；

设定评分阈值，若匹配度达到相应的评分阈值，则对所述用户发音音频进行发音评分。

进一步地，所述方法还包括：

对所述用户发音音频进行发音评分后，当所述发音评分不合格时，将所述标准发音音频推送至用户，获取学习后的发音音频，并提取所述学习后的发音音频对应的学习后的发音音频指纹；

将所述标准发音音频指纹与所述学习后的发音音频指纹进行匹配，进一步进行发音评分，直至所述发音评分合格时为止。

进一步地，提取所述标准发音音频指纹或用户发音音频指纹包括：

将所述标准发音音频或所述用户发音音频进行分帧加窗处理，对每一个短时分析窗进行快速傅里叶变换，得到对应的频谱图；

提取所述频谱图中的局部峰值点；

将所述频谱图和/或所述峰值点作为所述标准发音音频指纹或所述用户发音音频指纹。

进一步地，将所述标准发音音频指纹与所述用户发音音频指纹进行匹配，具体包括：

将所述峰值点进行分组，得到峰值点组合，并计算每个所述峰值点组合对应的哈希值；

根据所述哈希值，对所述标准发音音频指纹与所述用户发音音频指纹进行匹配。

进一步地，每个所述峰值点组合对应的哈希值的计算过程包括：

所述峰值点组合包括一个锚点和n个所述峰值点，根据所述峰值点的频率值、所述锚点的频率值、所述峰值点与所述锚点之间的时间差创建所述峰值点对应的三维数组；

计算所述三维数组的哈希值，作为所述峰值点的哈希值，并建立所述标准发音音频指纹或所述用户发音音频指纹对应的音频指纹哈希表。

进一步地，根据所述哈希值，对所述标准发音音频指纹与所述用户发音音频指纹进行匹配：

对所述标准发音音频的音频指纹哈希表中的所有峰值点的哈希值与所述用户发音音频的音频指纹哈希表中的所有峰值点的哈希值进行匹配，并统计两者能够匹配的哈希值个数。

进一步地，本发明还提供了一种基于音频指纹的发音评测终端，所述终端包括：

存储模块，用于存储发音评分程序与标准发音音频；

采集模块，用于采集用户发音音频；

提取模块，用于提取所述标准发音音频对应的标准发音音频指纹与所述用户发音音频对应的用户发音音频指纹；

评测模块，用于将所述标准发音音频指纹与所述用户发音音频指纹进行匹配，从而对所述用户发音音频进行发音评分；

视听模块，用于播放采集到的所述用户发音音频与相应的所述标准发音音频，并显示发音评分结果。

进一步地，所述提取模块包括：

音频转化模块，用于将所述标准发音音频或所述用户发音音频进行分帧加窗处理，对每一个短时分析窗进行快速傅里叶变换，得到对应的频谱图；

图像处理模块，提取所述频谱图中的局部峰值点；

哈希值计算模块，将所述峰值点进行分组，得到峰值点组合，并计算每个所述峰值点组合对应的哈希值，将所述频谱图和/或所述峰值点作为所述标准发音音频指纹或所述用户发音音频指纹，并建立所述标准发音音频指纹或所述用户发音音频指纹对应的音频指纹哈希表。

进一步地，所述评测模块包括：

匹配统计模块，用于对所述标准发音音频的音频指纹哈希表中的所有峰值点的哈希值与所述用户发音音频的音频指纹哈希表中的所有峰值点的哈希值进行匹配，并统计两者能够匹配的哈希值个数；

匹配打分模块，设定评分阈值，根据所述匹配的哈希值个数，对所述用户发音音频进行发音评分。

进一步地，所述评测模块还用于：

当所述发音评分不合格时，将所述标准发音音频推送至所述视听模块供用户学习所述标准发音音频，直至所述发音评分合格时为止。

本发明提供的一种基于音频指纹的发音评测方法及终端，通过将音频文件转化为频谱图并从所述频谱图中提取峰值点，对所述峰值点进行分组并计算哈希值，将所述频谱图和/或所述峰值点作为所述标准发音音频指纹或所述用户发音音频指纹，根据所述哈希值，对所述标准发音音频指纹与所述用户发音音频指纹进行匹配，若匹配度达到相应的评分阈值，则对所述用户发音音频进行发音评分，实现了用户发音自动评测，用户可以直观的感受发音与标准发音相比是否合格；另外，当发音评分不合格时，推送所述标准发音音频至用户，用户学习所述标准发音音频后，再次进行发音评分直至合格为止，实现了自动指导用户进发音矫正练习，提高了发音教学的自动和精准，避免了人为教学的不可控因素导致发音不标准。

附图说明

图1是本发明的一个实施例中的一种基于音频指纹的发音评测方法的流程图。

图2本发明的一个实施例中的一种基于音频指纹的发音评测方法中步骤s10和/或步骤s20的流程图。

图3本发明的一个实施例中的频谱图的示意图。

图4本发明的一个实施例中的频谱图的峰值点示意图。

图5本发明的一个实施例中的一种基于音频指纹的发音评测方法中步骤s30的流程图。

图6本发明的一个实施例中的对峰值点进行分组示意图。

图7本发明的一个实施例中的当发音评分不合格且学习后的发音评测方法的流程图。

图8是本发明的一个实施例中的一种基于音频指纹的发音评测终端的模块示意图。

图9是本发明的一个实施例中的一种基于音频指纹的发音评测终端中提取模块的组成示意图。

图10是本发明的一个实施例中的一种基于音频指纹的发音评测终端中评测模块的组成示意图。

主要元件符号说明

100终端

110存储模块

120采集模块

130提取模块

131音频转化模块

132图像处理模块

133哈希值计算模块

140评测模块

141匹配统计模块

142匹配打分模块

150视听模块

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

请参阅图1，本发明提供了一种基于音频指纹的发音评测方法，所述一种基于音频指纹的发音评测方法包括以下步骤：

步骤s10、收集标准发音音频，并提取所述标准发音音频对应的标准发音音频指纹。

在本实施例中，所述标准发音音频可以是通过连接互联网并从网络资源中下载权威人士或机构发布的标准发音音频文件，也可以是通过智能终端直接对人工标准发音和/或其他设备播放的标准发音进行录制并生成标准发音音频文件。

进一步地，将所述标准发音音频文件进行整理剪辑，生成音频片段，并将音频片段与相应的音频内容对应。例如，当所述标准发音音频文件中包含26个英文字母a-z连续的标准发音，将所述标准发音音频文件进行整理剪辑成单个英文字母的标准发音音频片段，并将标准发音音频片段与单个英文字母进行两两对应。所述标准发音音频文件也可以仅包含单个英文字母的标准发音。

进一步地，所述标准发音音频文件可以包含英文字母、汉语拼音、阿拉伯数字等任一一种或者多种结合的标准发音。

步骤s20、获取用户发音音频，并提取所述用户发音音频对应的用户发音音频指纹。

在本实施例中，提取所述用户发音音频对应的用户发音音频指纹或所述标准发音音频对应的标准发音音频指纹，具体包括如图2所示的步骤：

步骤s21、将所述标准发音音频或所述用户发音音频进行分帧加窗处理，对每一个短时分析窗进行快速傅里叶变换，得到对应的如图3所示的频谱图。

步骤s22、提取所述频谱图中的局部峰值点。

在本实施例中，提取所述频谱图中的局部峰值点可以是通过opencv技术对所述频谱图进行图像处理，寻找固定时间范围内的局部频率最大值，并按照如图4所示进行峰值点标注。

步骤s23、将所述频谱图和/或所述峰值点作为所述标准发音音频指纹或所述用户发音音频指纹。本发明优选的采用所述峰值点作为音频指纹。

步骤s30、将所述标准发音音频指纹与所述用户发音音频指纹进行匹配。

在本实施例中，将所述标准发音音频指纹与所述用户发音音频指纹进行匹配，具体包括如图5所示的步骤：

步骤s31、将所述峰值点进行分组，得到峰值点组合，并计算每个所述峰值点组合对应的哈希值。

在本实施例中，如图6所示，每个所述峰值点组合对应的哈希值的计算过程包括：将n+1个峰值点进行分组，所述峰值点组合包括一个锚点和n个所述峰值点，所述锚点为所述峰值点中其中一个，例如将6个峰值点组合为一组，通过组合的方式来减少峰值点的储存量和计算量。

进一步地，根据所述峰值点的频率值、所述锚点的频率值、所述峰值点与所述锚点之间的时间差创建所述峰值点对应的三维数组。所述三维数组包含三个信息：该峰值点对应的锚点的频率、该峰值点的频率、该峰值点与对应锚点的时间差。通过哈希计算方式，计算所述三维数组的哈希值，作为所述峰值点的哈希值，并建立所述标准发音音频指纹或所述用户发音音频指纹对应的音频指纹哈希表。在本实施例中哈希计算方式可以是安全散列算法(sha-1)等。

步骤s32、根据所述哈希值，对所述标准发音音频指纹与所述用户发音音频指纹进行匹配。

在本实施例中，对所述标准发音音频指纹与所述用户发音音频指纹进行匹配是通过将所述用户发音音频的所有峰值点的哈希值在所述标准发音音频指纹哈希表中进行搜索，从而对所述标准发音音频的音频指纹哈希表中的所有峰值点的哈希值与所述用户发音音频的音频指纹哈希表中的所有峰值点的哈希值进行匹配，并统计两者能够匹配的哈希值个数。

步骤s40、设定评分阈值，若匹配度达到相应的评分阈值，则对所述用户发音音频进行发音评分。

在本实施例中，通过设定评分阈值，根据所述匹配的哈希值个数，对所述用户发音音频进行发音评分。例如，所述标准音频指纹哈希表中包含100个峰值点及其对应的哈希值，当所述用户发音音频的峰值点的哈希值通过搜索发现有80～100个能够与所述标准音频指纹哈希表中的哈希值相匹配，则判定所述用户发音音频合格，其余均判定为不合格。

当所述用户发音音频的发音评分判定为不合格时，所述基于音频指纹的发音评测方法还包括如图7所示的步骤：

步骤s50、对所述用户发音音频进行发音评分后，当所述发音评分不合格时，将所述标准发音音频推送至用户，获取学习后的发音音频，并提取所述学习后的发音音频对应的学习后的发音音频指纹。

步骤s60、将所述标准发音音频指纹与所述学习后的发音音频指纹进行匹配，进一步进行发音评分，直至所述发音评分合格时为止。

本发明提供的一种基于音频指纹的发音评测方法，通过将音频文件转化为频谱图并从所述频谱图中提取峰值点，对所述峰值点进行分组并计算哈希值，将所述频谱图和/或所述峰值点作为所述标准发音音频指纹或所述用户发音音频指纹，根据所述哈希值，对所述标准发音音频指纹与所述用户发音音频指纹进行匹配，若匹配度达到相应的评分阈值，则对所述用户发音音频进行发音评分，实现了用户发音自动评测，用户可以直观的感受发音与标准发音相比是否合格；另外，当发音评分不合格时，推送所述标准发音音频至用户，用户学习所述标准发音音频后，再次进行发音评分直至合格为止，实现了自动指导用户进发音矫正练习，提高了发音教学的自动和精准，避免了人为教学的不可控因素导致发音不标准。

请参阅图8，作为对上述各图示所示的方法的实现，本发明提供一种基于音频指纹的发音评测终端100，所述终端100包括存储模块110、采集模块120、提取模块130、评测模块140和视听模块150。图8仅示出了所述终端100的部分模块，但是应理解的是，并不要求实施所有示出的模块，可以替代的实施更多或者更少的模块。

在本实施例中，所述终端100可以以各种形式来实施，例如手机、平板电脑、笔记本电脑、掌上电脑、智能手表等移动终端，以及诸如数字电视、台式计算机等固定终端。

所述存储模块110，用于存储发音评分程序与标准发音音频。

在本实施例中，所述存储模块110可以是所述终端100的内部存储单元，例如手机的硬盘或内存，也可以是所述终端的外部存储设备，例如插接式硬盘、智能存储卡、安全数字卡、闪存卡等，还可以是既包括所述内部存储单元还包括所述外部存储设备。

所述采集模块120，用于获取用户发音音频。

在本实施例中，所述采集模块120还可以用于收集所述标准发音音频，直接对人工标准发音和/或其他设备播放的标准发音进行录制并生成标准发音音频文件。

所述提取模块130，用于提取所述标准发音音频对应的标准发音音频指纹与所述用户发音音频对应的用户发音音频指纹。

在本实施例中，如图9所示，所述提取模块130还包括音频转化模块131、图像处理模块132和哈希值计算模块133。其中：

所述音频转化模块131，用于将所述标准发音音频或所述用户发音音频进行分帧加窗处理，对每一个短时分析窗进行快速傅里叶变换，得到对应的频谱图。

所述图像处理模块132，用于提取所述频谱图中的局部峰值点。

在本实施例中，提取所述频谱图中的局部峰值点可以是通过opencv技术对所述频谱图进行图像处理，寻找固定时间范围内的局部频率最大值。

所述哈希值计算模块133，用于将所述峰值点进行分组，得到峰值点组合，并计算每个所述峰值点组合对应的哈希值。每个所述峰值点组合对应的哈希值的计算过程包括：将n+1个峰值点进行分组，所述峰值点组合包括一个锚点和n个所述峰值点，所述锚点为所述峰值点中其中一个，例如将6个峰值点组合为一组，通过组合的方式来减少峰值点的储存量和计算量。

所述评测模块140，用于将所述标准发音音频指纹与所述用户发音音频指纹进行匹配，从而对所述用户发音音频进行发音评分。

在本实施例中，如图10所示，所述评测模块140包括匹配统计模块141和匹配打分模块142。其中：

所述匹配统计模块141，用于根据所述哈希值，对所述标准发音音频指纹与所述用户发音音频指纹进行匹配。

所述匹配打分模块142，用于设定评分阈值，若匹配度达到相应的评分阈值，则对所述用户发音音频进行发音评分。

所述视听模块150，用于播放采集到的所述用户发音音频与相应的所述标准发音音频，并显示发音评分结果。

本发明提供的一种基于音频指纹的发音评分终端，通过将音频文件转化为频谱图并从所述频谱图中提取峰值点，对所述峰值点进行分组并计算哈希值，将所述频谱图和/或所述峰值点作为所述标准发音音频指纹或所述用户发音音频指纹，根据所述哈希值，对所述标准发音音频指纹与所述用户发音音频指纹进行匹配，若匹配度达到相应的评分阈值，则对所述用户发音音频进行发音评分，实现了用户发音自动评测，用户可以直观的感受发音与标准发音相比是否合格；另外，当发音评分不合格时，推送所述标准发音音频至用户，用户学习所述标准发音音频后，再次进行发音评分直至合格为止，实现了自动指导用户进发音矫正练习，提高了发音教学的自动和精准，避免了人为教学的不可控因素导致发音不标准。。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。