一种基于人工智能的英语发音自检系统的制作方法

2021-01-28 16:01:35|

335|

起点商标网

本发明涉及一种基于人工智能的英语发音自检系统。

背景技术：

在英语教学中，最基本也是最重要的是英语单词的发音是否正确标准，即便掌握再多的英语词汇量，如果发音错误，仍旧无法与别人正常进行英语交流，所以，英语发音的教学至关重要。目前英语发音的教学方法，仍旧采用传统的老师面授方式，这种学习方式不但增大老师的工作负担，教学效率较低，而且，不能实现学生的随时学习，学生的学习效率也低，而且，学生的英语发音是否标准深受老师本身的英语发音水平的影响，当老师本身的英语发音存在不标准的情况时，会严重影响学生的英语发音。

技术实现要素：

本发明的目的在于提供一种基于人工智能的英语发音自检系统，用于解决现有的英语发音的教学方式使学生的英语发音的学习效率低的问题。

为了解决上述技术问题，本发明采用以下技术方案：

一种基于人工智能的英语发音自检系统，包括控制主机、存储模块、触摸屏、控制按钮面板、语音信号输出模块和语音采集模块，所述存储模块、触摸屏、控制按钮面板、语音信号输出模块和语音采集模块与所述控制主机信号连接；

所述控制按钮面板包括启动按钮和向前按钮，所述启动按钮用于实现发音自检启动控制，所述向前按钮用于实现当前英语单词和下一个英语单词的显示切换；所述存储模块存储有英语单词数据库，所述英语单词数据库包括至少两个英语单词，以及与各英语单词的标准发音所对应的音频数据；

当控制主机接收到所述启动按钮输出的因所述启动按钮被按下而产生的英语发音自检启动指令之后，从所述存储模块中调取所述英语单词数据库，并按照预设的显示顺序将所述英语单词数据库中的第一英语单词显示在所述触摸屏上；

所述语音采集模块采集与所述第一英语单词相对应的第一实际发音信号，并将采集到的所述第一实际发音信号输出给所述控制主机；

所述控制主机接收到所述第一实际发音信号之后，根据所述第一英语单词得到与所述第一英语单词的标准发音所对应的第一音频数据，并将所述第一音频数据输出至所述语音信号输出模块，所述语音信号输出模块输出所述第一英语单词的标准发音；

所述控制主机比对所述第一实际发音信号与所述第一音频数据，确定是否发音正确，并将发音是否正确的第一判断结果显示在所述触摸屏上，同时将所述第一实际发音信号和第一判断结果输出到所述存储模块中进行存储；

当所述控制主机接收到所述向前按钮输出的因所述向前按钮被按下而产生的英语单词切换指令之后，所述控制主机按照所述预设的显示顺序将所述英语单词数据库中的第二英语单词显示在所述触摸屏上；

所述语音采集模块采集与所述第二英语单词相对应的第二实际发音信号，并将采集到的所述第二实际发音信号输出给所述控制主机；

所述控制主机接收到所述第二实际发音信号之后，根据所述第二英语单词得到与所述第二英语单词的标准发音所对应的第二音频数据，并将所述第二音频数据输出至所述语音信号输出模块，所述语音信号输出模块输出所述第二英语单词的标准发音；

所述控制主机比对所述第二实际发音信号与所述第二音频数据，确定是否发音正确，并将发音是否正确的第二判断结果显示在所述触摸屏上，同时将所述第二实际发音信号和第二判断结果输出到所述存储模块中进行存储。

优选地，所述控制主机比对所述第一实际发音信号与所述第一音频数据，确定是否发音正确，具体包括：

在预设的第一语音坐标系内生成所述第一实际发音信号的语音波形图，得到第一实际语音波形图，以及所述第一音频数据的语音波形图，得到第一标准语音波形图；

通过第一语音特征识别算法提取所述第一实际语音波形图的语音特征曲线，得到第一实际语音特征曲线，以及所述第一标准语音波形图的语音特征曲线，得到第一标准语音特征曲线；

在预设的第一特征坐标上绘制所述第一实际语音特征曲线以及所述第一标准语音特征曲线，并计算所述第一实际语音特征曲线以及所述第一标准语音特征曲线之间相交区域的第一面积；

若所述第一面积小于第一预设面积阈值，则初步判定发音正确；若所述第一面积大于或者等于所述第一预设面积阈值，则判定发音错误；

所述控制主机比对所述第二实际发音信号与所述第二音频数据，确定是否发音正确，具体包括：

在预设的第二语音坐标系内生成所述第二实际发音信号的语音波形图，得到第二实际语音波形图，以及所述第二音频数据的语音波形图，得到第二标准语音波形图；

通过第二语音特征识别算法提取所述第二实际语音波形图的语音特征曲线，得到第二实际语音特征曲线，以及所述第二标准语音波形图的语音特征曲线，得到第二标准语音特征曲线；

在预设的第二特征坐标上绘制所述第二实际语音特征曲线以及所述第二标准语音特征曲线，并计算所述第二实际语音特征曲线以及所述第二标准语音特征曲线之间相交区域的第二面积；

若所述第二面积小于第二预设面积阈值，则初步判定发音正确；若所述第二面积大于或者等于所述第二预设面积阈值，则判定发音错误。

优选地，所述控制主机比对所述第一实际发音信号与所述第一音频数据，确定是否发音正确，还包括：

根据所述第一实际语音波形图得到所述第一实际语音波形图中的语音振幅最大值和语音振幅最小值，得到第一实际语音振幅最大值和第一实际语音振幅最小值；根据所述第一标准语音波形图得到所述第一标准语音波形图中的语音振幅最大值和语音振幅最小值，得到第一标准语音振幅最大值和第一标准语音振幅最小值；

计算得到所述第一实际语音振幅最大值和第一标准语音振幅最大值的振幅差值的绝对值，得到第一高振幅误差值；计算得到所述第一实际语音振幅最小值和第一标准语音振幅最小值的振幅差值的绝对值，得到第一低振幅误差值；

比较所述第一高振幅误差值与预设的第一高振幅波动阈值，以及比较所述第一低振幅误差值与预设的第一低振幅波动阈值；

若所述第一高振幅误差值小于或者等于所述第一高振幅波动阈值，且所述第一低振幅误差值小于或者等于所述第一低振幅波动阈值，且第一英语单词初步判定发音正确，则判定第一英语单词发音正确；

所述控制主机比对所述第二实际发音信号与所述第二音频数据，确定是否发音正确，还包括：

根据所述第二实际语音波形图得到所述第二实际语音波形图中的语音振幅最大值和语音振幅最小值，得到第二实际语音振幅最大值和第二实际语音振幅最小值；根据所述第二标准语音波形图得到所述第二标准语音波形图中的语音振幅最大值和语音振幅最小值，得到第二标准语音振幅最大值和第二标准语音振幅最小值；

计算得到所述第二实际语音振幅最大值和第二标准语音振幅最大值的振幅差值的绝对值，得到第二高振幅误差值；计算得到所述第二实际语音振幅最小值和第二标准语音振幅最小值的振幅差值的绝对值，得到第二低振幅误差值；

比较所述第二高振幅误差值与预设的第二高振幅波动阈值，以及比较所述第二低振幅误差值与预设的第二低振幅波动阈值；

若所述第二高振幅误差值小于或者等于所述第二高振幅波动阈值，且所述第二低振幅误差值小于或者等于所述第二低振幅波动阈值，且第二英语单词初步判定发音正确，则判定第二英语单词发音正确。

本发明具有以下技术效果：当启动按钮被按下时，开始英语发音自检，学生朗读触摸屏显示的第一英语单词，从而产生第一实际发音信号，而且，控制主机控制语音信号输出模块，输出与第一英语单词相对应的标准发音，学生可以根据标准发音以及自己发出的实际发音信号自检是否发音正确，实现人工自检，而且，控制主机对标准发音以及实际发音信号进行比对，确定是否发音正确，并将得到的发音是否正确的判断结果由触摸屏进行显示，学生可以直接获知英语单词是否发音正确。接下来可以通过向前按钮进行后续的各英语单词的发音自检。因此，该英语发音自检系统可以实现人工自检，也可以根据相关的软件程序实现自动自检，使得学生可以自检英语单词的发音情况，并根据标准发音纠正自己发音的错误之处，提升学习效率；能够降低老师的工作负担，提升教学效率；学生的学习进度以及学生效率不再受老师本身的英语能力以及教学能力的影响，避免出现当老师本身的英语发音存在不标准的情况时影响学生的学习发音的情况。

附图说明

图1是本发明提供的基于人工智能的英语发音自检系统的结构组成示意图。

具体实施方式

本实施例提供一种基于人工智能的英语发音自检系统，如图1所示，包括控制主机、存储模块、触摸屏、控制按钮面板、语音信号输出模块和语音采集模块。该英语发音自检系统中的各组成均为硬件模块，其中，控制主机为该英语发音自检系统的数据处理和控制核心，可以为由多个控制芯片构成的控制系统，也可以为单个控制芯片，比如单片机。存储模块可以为常规的存储硬盘或者磁盘，存储模块的存储容量由实际需要进行设置，但是需要满足存储要求。触摸屏可以为常规的触摸屏设备，尺寸大小以及其他参数由实际需要进行设置。控制按钮面板包括启动按钮和向前按钮，其中，启动按钮用于实现发音自检启动控制，向前按钮用于实现当前英语单词和下一个英语单词的显示切换，应当理解，这两个控制按钮所实现的功能作用由控制主机进行配置。语音信号输出模块用于输出语音信号，比如扩音器等设备。语音采集模块用于采集语音信号，比如麦克风等设备。

存储模块、触摸屏、控制按钮面板、语音信号输出模块和语音采集模块与控制主机信号连接，实现与控制主机的信号传输。应当理解，该英语发音自检系统可以由交流电进行供电，也可以由蓄电池进行供电，不再赘述。

存储模块存储有英语单词数据库，英语单词数据库包括至少两个英语单词，以及与各英语单词的标准发音所对应的音频数据。应当理解，英语单词数据库中的各英语单词的个数由实际需要，比如学生所处的年级决定，越高的年级，相应地就包括越多的英语单词，而且，英语单词的难易程度也可以与学生所处的年级相关。与各英语单词的标准发音所对应的音频数据为各个英语单词的标准发音的语音信号，当通过语音信号输出模块输出该语音信号时，就可以听到对应英语单词的标准发音。

学生需要进行英语单词发音自检时，按下启动按钮，从而产生英语发音自检启动指令。控制主机就能够接收到因启动按钮被按下而产生的英语发音自检启动指令。当控制主机接收到英语发音自检启动指令之后，从存储模块中调取英语单词数据库，并按照预设的显示顺序将英语单词数据库中的第一英语单词显示在触摸屏上。应当理解，由于英语单词数据库包括至少两个英语单词，那么，这些英语单词在显示时有一个显示顺序，该显示顺序由实际需要进行设置，比如按照英语单词首字母在26个字母中的排列顺序进行排列。

语音信号输出模块和语音采集模块可以始终处于运行状态，或者，在控制主机接收到英语发音自检启动指令之后，控制主机控制语音信号输出模块和语音采集模块启动运行。本实施例中，控制主机接收到英语发音自检启动指令之后，控制语音信号输出模块和语音采集模块启动运行。

学生在看到触摸屏显示的第一英语单词之后，根据自己对于该第一英语单词的发音的掌握情况，朗读该第一英语单词，产生第一实际发音信号。语音采集模块采集第一实际发音信号，并将采集到的第一实际发音信号输出给控制主机。

控制主机接收到第一实际发音信号之后，根据第一英语单词，从英语单词数据库中得到与第一英语单词的标准发音所对应的第一音频数据，并将第一音频数据输出至语音信号输出模块，语音信号输出模块输出第一英语单词的标准发音。

学生听到第一英语单词的标准发音之后，就能够跟自己实际输出的发音进行比对，判断自己的实际发音是否正确标准，实现自我检查和纠正。而且，控制主机也按照内部预设的比对策略对实际发音与标准发音进行比对，即控制主机比对第一实际发音信号与第一音频数据，确定学生对于第一英语单词是否发音正确。作为一个具体实施方式，以下给出一种具体的比对判断过程：

在预设的第一语音坐标系内生成第一实际发音信号的语音波形图，得到第一实际语音波形图，以及第一音频数据的语音波形图，得到第一标准语音波形图。其中，预设的第一语音坐标系由实际需要进行设置，本实施例中，预设的第一语音坐标系的纵坐标为语音振幅值，横坐标为时间，那么，在预设的第一语音坐标系内生成的第一实际语音波形图以及第一标准语音波形图就是基于时域的语音波形图。

通过第一语音特征识别算法提取第一实际语音波形图的语音特征曲线，得到第一实际语音特征曲线，以及第一标准语音波形图的语音特征曲线，得到第一标准语音特征曲线。其中，第一语音特征识别算法为现有技术已公开的语音特征识别算法，本实施例中，第一语音特征识别算法为傅里叶算法，将语音波形图从时域曲线转换为频域波形，得到对应的语音特征曲线。另外，若转换得到的频域波形为离散波形，则可以通过线性拟合的方式，对离散波形进行线性拟合，输出对应的语音特征曲线。

在预设的第一特征坐标上绘制第一实际语音特征曲线以及第一标准语音特征曲线，并计算第一实际语音特征曲线以及第一标准语音特征曲线之间相交区域的第一面积。应当理解，将第一实际语音特征曲线以及第一标准语音特征曲线绘制在同一特征坐标系上，就能够得到两个曲线之间的关系，即根据这两个曲线之间相交区域的面积来判断两个曲线之间的差异程度。

最后，进行如下判断：若第一面积小于第一预设面积阈值，表示第一实际语音特征曲线以及第一标准语音特征曲线之间重合区域比较多，两个曲线比较相似，即第一英语单词的实际发音与标准发音比较相似，则判定第一英语单词的发音正确，即发音标准；若第一面积大于或者等于第一预设面积阈值，表示第一实际语音特征曲线以及第一标准语音特征曲线之间重合区域比较少，两个曲线相差较大，即第一英语单词的实际发音与标准发音相差较大，则判定第一英语单词发音错误，即发音不标准。应当理解，第一预设面积阈值由实际判断需要进行设置。

上述判断过程可以直接得到第一英语单词的发音是否正确，当然，上述中得到的第一英语单词的发音是否正确的结论还可以仅仅是初步结论，具体是指上述发音正确为初步判定发音正确，进一步地，还可以结合下述过程最终判断第一英语单词的发音是否正确：

根据第一实际语音波形图得到第一实际语音波形图中的语音振幅最大值和语音振幅最小值，得到第一实际语音振幅最大值和第一实际语音振幅最小值；根据第一标准语音波形图得到第一标准语音波形图中的语音振幅最大值和语音振幅最小值，得到第一标准语音振幅最大值和第一标准语音振幅最小值。其中，语音波形图本质上可以理解为分贝波形图，即分贝随着时间的变化而变化的波形图，那么，就能够从语音波形图中得到语音振幅最大值和语音振幅最小值。语音振幅最大值为分贝随着时间的变化波形中的最大分贝值(即分贝波形图中的最大分贝值)，语音振幅最小值为分贝随着时间的变化波形中的最小分贝值(即分贝波形图中的最小分贝值)。

根据第一实际语音波形图得到第一实际语音振幅最大值和第一实际语音振幅最小值，以及根据第一标准语音波形图得到第一标准语音振幅最大值和第一标准语音振幅最小值之后，计算得到第一实际语音振幅最大值和第一标准语音振幅最大值的振幅差值的绝对值，得到第一高振幅误差值；计算得到第一实际语音振幅最小值和第一标准语音振幅最小值的振幅差值的绝对值，得到第一低振幅误差值。

预设有第一高振幅波动阈值和第一低振幅波动阈值，这两个波动阈值由实际需要进行设置，第一高振幅波动阈值大于第一低振幅波动阈值。比较第一高振幅误差值与预设的第一高振幅波动阈值，以及比较第一低振幅误差值与预设的第一低振幅波动阈值。

若第一高振幅误差值小于或者等于第一高振幅波动阈值，表示第一实际语音振幅最大值和第一标准语音振幅最大值相差不大，即第一实际语音波形图和第一标准语音波形图中的语音振幅最大值相差不大；同理，若第一低振幅误差值小于或者等于第一低振幅波动阈值，表示第一实际语音振幅最小值和第一标准语音振幅最小值相差不大，即第一实际语音波形图和第一标准语音波形图中的语音振幅最小值相差不大。因此，若第一高振幅误差值小于或者等于第一高振幅波动阈值，第一低振幅误差值小于或者等于第一低振幅波动阈值，且上文中判断得到：第一英语单词初步判定发音正确，则最终判定第一英语单词发音正确。

控制主机得到第一英语单词的发音是否正确的第一判断结果，即第一英语单词发音是否正确。将第一判断结果显示在触摸屏上，以供学生查看。同时控制主机将第一实际发音信号和第一判断结果输出到存储模块中进行存储。应当理解，可以将第一实际发音信号和第一判断结果构成一个数据包，以第一英语单词作为该数据包的名称，存储在存储模块中。

上述为第一英语单词的发音自检过程，接下来学生可以操作向前按钮进行下一个英语单词的发音自检。当向前按钮被按下时，产生英语单词切换指令。当控制主机接收到英语单词切换指令之后，按照上述预设的显示顺序将英语单词数据库中的第二英语单词显示在触摸屏上。

学生在看到触摸屏显示的第二英语单词之后，根据自己对于该第二英语单词的发音的掌握情况，朗读该第二英语单词，产生第二实际发音信号。语音采集模块采集第二实际发音信号，并将采集到的第二实际发音信号输出给控制主机。

控制主机接收到第二实际发音信号之后，根据第二英语单词，从英语单词数据库中得到与第二英语单词的标准发音所对应的第二音频数据，并将第二音频数据输出至语音信号输出模块，语音信号输出模块输出第二英语单词的标准发音。

学生听到第二英语单词的标准发音之后，就能够跟自己实际输出的发音进行比对，判断自己的实际发音是否正确标准，实现自我检查和纠正。而且，控制主机也按照内部预设的比对策略对实际发音与标准发音进行比对，即控制主机比对第二实际发音信号与第二音频数据，确定学生对于第二英语单词是否发音正确。第二实际发音信号与第二音频数据的比对过程，与上述中的第一实际发音信号与第一音频数据的比对过程同理，具体如下：

在预设的第二语音坐标系内生成第二实际发音信号的语音波形图，得到第二实际语音波形图，以及第二音频数据的语音波形图，得到第二标准语音波形图。其中，预设的第二语音坐标系由实际需要进行设置，本实施例中，第二语音坐标系与第一语音坐标系可以为同一语音坐标系，则第二语音坐标系的纵坐标为语音振幅值，横坐标为时间，那么，在预设的第二语音坐标系内生成的第二实际语音波形图以及第二标准语音波形图就是基于时域的语音波形图。

通过第二语音特征识别算法提取第二实际语音波形图的语音特征曲线，得到第二实际语音特征曲线，以及第二标准语音波形图的语音特征曲线，得到第二标准语音特征曲线。其中，第二语音特征识别算法可以与上述中的第一语音特征识别算法为相同的语音特征识别算法，则第二语音特征识别算法也为傅里叶算法，将语音波形图从时域曲线转换为频域波形，得到对应的语音特征曲线。另外，若转换得到的频域波形为离散波形，则可以通过线性拟合的方式，对离散波形进行线性拟合，输出对应的语音特征曲线。

在预设的第二特征坐标上绘制第二实际语音特征曲线以及第二标准语音特征曲线，并计算第二实际语音特征曲线以及第二标准语音特征曲线之间相交区域的第二面积。应当理解，第二特征坐标可以与上述中的第一特征坐标为相同坐标，则将第二实际语音特征曲线以及第二标准语音特征曲线绘制在同一特征坐标系上，就能够得到两个曲线之间的关系，即根据这两个曲线之间相交区域的面积来判断两个曲线之间的差异程度。

最后，进行如下判断：若第二面积小于第二预设面积阈值，表示第二实际语音特征曲线以及第二标准语音特征曲线之间重合区域比较多，两个曲线比较相似，即第二英语单词的实际发音与标准发音比较相似，则判定第二英语单词的发音正确，即发音标准；若第二面积大于或者等于第二预设面积阈值，表示第二实际语音特征曲线以及第二标准语音特征曲线之间重合区域比较少，两个曲线相差较大，即第二英语单词的实际发音与标准发音相差较大，则判定第二英语单词发音错误，即发音不标准。应当理解，第二预设面积阈值可以与第一预设面积阈值相同。

上述判断过程可以直接得到第二英语单词的发音是否正确，当然，上述中得到的第二英语单词的发音是否正确的结论还可以仅仅是初步结论，具体是指上述发音正确为初步判定发音正确，进一步地，还可以结合下述过程最终判断第二英语单词的发音是否正确：

根据第二实际语音波形图得到第二实际语音波形图中的语音振幅最大值和语音振幅最小值，得到第二实际语音振幅最大值和第二实际语音振幅最小值；根据第二标准语音波形图得到第二标准语音波形图中的语音振幅最大值和语音振幅最小值，得到第二标准语音振幅最大值和第二标准语音振幅最小值。

根据第二实际语音波形图得到第二实际语音振幅最大值和第二实际语音振幅最小值，以及根据第二标准语音波形图得到第二标准语音振幅最大值和第二标准语音振幅最小值之后，计算得到第二实际语音振幅最大值和第二标准语音振幅最大值的振幅差值的绝对值，得到第二高振幅误差值；计算得到第二实际语音振幅最小值和第二标准语音振幅最小值的振幅差值的绝对值，得到第二低振幅误差值。

预设有第二高振幅波动阈值和第二低振幅波动阈值，这两个波动阈值由实际需要进行设置，第二高振幅波动阈值大于第二低振幅波动阈值。比较第二高振幅误差值与预设的第二高振幅波动阈值，以及比较第二低振幅误差值与预设的第二低振幅波动阈值。

若第二高振幅误差值小于或者等于第二高振幅波动阈值，表示第二实际语音振幅最大值和第二标准语音振幅最大值相差不大，即第二实际语音波形图和第二标准语音波形图中的语音振幅最大值相差不大；同理，若第二低振幅误差值小于或者等于第二低振幅波动阈值，表示第二实际语音振幅最小值和第二标准语音振幅最小值相差不大，即第二实际语音波形图和第二标准语音波形图中的语音振幅最小值相差不大。因此，若第二高振幅误差值小于或者等于第二高振幅波动阈值，第二低振幅误差值小于或者等于第二低振幅波动阈值，且上文中判断得到：第二英语单词初步判定发音正确，则最终判定第二英语单词发音正确。

控制主机得到第二英语单词的发音是否正确的第二判断结果，即第二英语单词发音是否正确。将第二判断结果显示在触摸屏上，以供学生查看。同时控制主机将第二实际发音信号和第二判断结果输出到存储模块中进行存储。应当理解，可以将第二实际发音信号和第二判断结果构成一个数据包，以第二英语单词作为该数据包的名称，存储在存储模块中。

上述为第二英语单词的发音自检过程，应当理解，之后可以操作向前按钮进行后续每一个英语单词的发音自检，当触摸屏上显示之后的每一个英语单词时，按照上述自检过程进行自检，然后操作向前按钮使得触摸屏显示下一个英语单词。应当理解，可以根据实际需要进行设定个数的英语单词的发音自检，比如设定需要进行10个英语单词的发音自检，当第10个英语单词发音自检完成之后，结束发音自检。本实施例中，控制按钮面板还可以包括关机按钮，当发音自检完成之后，按下关机按钮，该英语发音自检系统关机，结束发音自检。

应当理解，第二英语单词的发音自检过程中的各预设阈值可与第一英语单词的发音自检过程中的各预设阈值对应相等，比如：第一预设面积阈值可以与第二预设面积阈值相等，第一高振幅波动阈值可以与第二高振幅波动阈值相等，第一低振幅波动阈值可以与第二低振幅波动阈值相等。

上述实施方式给出了所要求保护的技术方案的一种具体实现过程，对于该实施方式的任何等同替换及不脱离本发明精神和范围的修改或局部替换，其在本发明的保护范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。