一种本地离线智能语音识别模组识别率检测系统及方法与流程

2021-01-28 12:01:45|

355|

起点商标网

本发明属于人工智能技术领域，具体涉及一种本地离线智能语音识别模组识别率检测系统及方法。

背景技术：

语音识别是一门交叉学科，涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。语音识别和自然语言理解相结合，已成为全球互联网切实可用的新接口。而且，语音技术还会与触控、体感等操控方式相结合，创造出更人性化的交互体验。近年来，语音识别技术取得显著进步，开始从实验室进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域及市场。

自苹果公司在iphone4s上推出的siri语音助手之后，包括微软、谷歌、亚马逊，以及国内的百度、讯飞等等也推出了各自基于语音交互的产品。语音识别根其对网络的依赖分为在线识别和本地离线识别，相对于在线识别而言，本地离线识别打消了用户对隐私和安全的顾虑，且用户使用时不依赖于网络，本地离线语音识别市场正逐步增长扩大。

目前，语音识别主要有以下几个问题：1)语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。2)语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。3)单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。4)环境噪声和干扰对语音识别有严重影响，致使识别率低。受以上因素的影响，在对本地语音模组进行识别率测试时，各使用者或评价者之间很难在识别率上达成一致。

技术实现要素：

为提供一种对本地语音模组的更加客观公正的评价方式，本发明公开了一种本地离线智能语音识别模组识别率检测系统及方法。

本发明所述本地离线智能语音识别模组识别率检测系统,包括待测语音识别模组的麦克风安放区和语音数据库，所述语音数据库内存储有多个音频数据及与音频数据唯一对应的标准文本；

还包括与语音数据库连接的音频数据播放器和比较模块，所述比较模块连接有文本转化串口和统计输出模块。

优选的，所述音频数据播放器具有音量调节装置，所述检测系统还包括声压检测装置，所述声压检测装置与所述音量调节装置控制连接，所述声压检测装置设置在所述麦克风安放区。

优选的，所述声压检测装置还连接有环境噪音检测器。

优选的，所述音频数据播放器为高保真喇叭或人工嘴。

优选的，还包括噪音播报器。

优选的，所述语音数据库和比较模块之间连接有延时模块，所述延时模块与所述文本转化串口控制连接。

本发明还公开了一种本地离线智能语音识别模组识别率检测方法，包括如下步骤：

s1.进行初始设置；

s2.音频数据播放器按顺序播放语音数据库中的音频文件，待测语音识别模组对播放的音频文件进行识别并输出识别结果，通过文本转化串口输入比较模块；

s3.比较模块从语音数据库调取标准文本并与文本转化串口的输出识别文本进行比较，输出比较结果到统计输出模块；

s4.统计输出模块输出多组数据的比较结果并计算识别率。

优选的，所述初始设置包括以下工作：将多组音频文件和对应标准文本输入到语音数据库；将待测语音识别模组接入系统，所述待测语音识别模组主要需要与所述文本转化串口连接；调节待测语音识别模组与音频数据播放器之间的距离。

优选的，所述步骤s1中，还需要对音频数据播放器和/或噪音播放器进行音量调节，直至使安装在麦克风安放区的声压检测装置检测到的声压符合设定要求。

优选的，所述步骤s3中，比较模块从语音数据库调取标准文本的时机为延时模块收到语音识别模组输出的识别完成信号时。

采用本发明所述本地离线智能语音识别模组识别率检测系统及方法，通过记录播报命令词文本和收集语音识别模组文本结果，进行匹配后给出结果判定，提高了测试的效率，保证了测试结果的一致性及可复现性。

附图说明

图1为本发明所述检测系统的一种具体实施方式示意图;

图2为本发明所述检测方法的一种具体实施流程示意图;

图3为本发明所述检测系统的一种软件实施方式的操作界面示意图；

图4为本发明所述检测系统的一种软件实施方式的输出数据示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

还包括与语音数据库连接的音频数据播放器和比较模块，所述比较模块连接有文本转化串口和统计输出模块。

使用前，将待测的语音识别模组设置于待测语音识别模组安放区，待测语音识别模组的音频采集设备，通常是其连接的麦克风与所述音频数据播放器的空间距离d根据测试要求自行调节，一般在1-5米范围内。

开启语音识别模组，音频数据播放器从所述语音数据库调取连续音频数据并播报，播报出的音频信息被待测语音识别模组识别并输出识别结果，通过文本转化串口转化成与所述数据库中标准文本格式相同的识别文本文件，所述比较模块比较标准文本和识别文本并输出比较结果，比较结果一般分三种：正确，错误和漏识别。

所述检测系统的一种更佳的实施方式为：所述音频数据播放器具有音量调节装置，所述检测系统还包括声压检测装置，所述声压检测装置与所述音量调节装置控制连接，所述声压检测装置设置在所述待测语音识别模组的安放区。

由于声压与声源距离远近和声源输出的音频信号强度有关，采用这种方式，可以根据检测到的声压调节播放器输出的音量，从而模拟各种不同环境下的语音识别状态，主要是人在距离设备不同远近和人发声的高低不同时的识别正确率，例如模拟人在距离语音识别设备的麦克风不同距离1米、3米、5米时的语音识别率；或模拟人在正常说话、低声和高声时的语音识别率。

所述声压检测装置还可以连接环境噪音检测器，通过检测环境噪音，可以对音频数据播放器设置不同音量，检测环境噪音强度也是为了更好的模拟真实的语音应用环境，例如人在嘈杂状态下，一般会下意识的提高声音或靠近语音识别设备；而在安静环境下，例如环境噪音低于四十分贝时，则会降低说话声音。

所述音频数据播放器一般采用高保真喇叭或人工嘴。

也可以设置一个噪音播报器，通过播放噪音音频模拟噪音环境，通常在距离待测语音识别模组的麦克风1-1.5米处放置噪音播报器，噪音源根据实际产品应用场景选取，如电视剧声、新闻声、抽油烟机工作的噪声、厨房炒菜切菜声等。在噪音模拟环境下，声压检测装置通常调节音量使接收到的声压高于正常环境和安静环境，以更好的模拟人在噪音环境下潜意识提高说话音量的情形。

图1所示的具体实施方式中，所述语音数据库和比较模块之间连接有延时模块，所述延时模块与所述文本转化串口控制连接，延时模块的作用在于：当语音识别模组完成识别并输出结果到文本转化串口后，文本转化串口接收到语音识别结果，延时模块才从数据库中调取标准文本文件。

例如将一组对应的音频文件和标准文本文件存入内存中，音频数据播放器调取音频文件播放和识别过程完成后，比较模块才能读取内存中暂存的标准文本，调取后下一组数据才会进入内存，从时间的同步性上保证识别结果是与音频数据对应的标准文本互相比较，而不是与其他音频数据的标准文本比较。

采用上述本地离线智能语音识别模组识别率检测系统进行检测的方法可以包括如下步骤：

s1.进行初始设置；

所述初始设置通常包括以下工作：

将多组音频文件和对应标准文本输入到语音数据库；将待测语音识别模组接入系统，所述待测语音识别模组主要需要与所述文本转化串口连接；

调节待测语音识别模组与音频数据播放器之间的距离；

s3.比较模块从语音数据库调取标准文本并与文本转化串口的输出识别文本进行比较，输出比较结果到统计输出模块；

s4.统计输出模块输出多组数据的比较结果并计算识别率。

需要进行声压检测时，在步骤s1的初始设置中，还需要对音频数据播放器进行音量调节，直至使安装在麦克风安放区的声压检测装置检测到的声压符合设定要求。

需要进行噪音模拟时，在步骤s1的初始设置中，则可以打开噪声播放源并调整其音量，使声压检测装置检测到的噪声声压符合设定要求。

为更好的保证对比的同步性，所述步骤s3中，比较模块从语音数据库调取标准文本的时机为延时模块收到语音识别模组输出的识别完成信号时。

以下给出本发明的两个具体实施方式。

具体实施例1

在环境噪音约45db的安静环境中的识别率检测。将接好麦克风和电源的语音识别模组用串口工具与系统连接，并确认语音识别模组工作正常。将高保真音响的音频线接到电脑上，在1-5米范围调节音响与语音识别模组的距离；调节音响播报音量，使语音模组麦克处的声压计测试值在60-70db范围，以模拟人的正常说话。

将上述检测系统以软件编程形式编译实现的一种具体实施方式的操作界面如图3所示；将预先处理好的音频文件和对应标准文本拷贝到语音数据库，开始检测。待所有音频播报完成后，检测结束，统计输出模块自动计算并给出检测结果，如图4所示。如：当音频数据播放器播报的测试音频为“打开空调”时，如果比较模块获取的识别结果文本为“打开空调”，则识别结果为正确识别；如果检比较模块获取的识别结果文本为“关闭空调”或其他文本，则识别结果为错误识别；如果比较模块未获取到识别结果文本，则识别结果为漏识别，如图4所示，统计输出模块输出的识别率等于识别正确的次数占全部识别次数的百分比。

具体实施例2

打开噪音播放器或在环境噪音约60-80db的嘈杂环境中进行识别率检测。将接好麦克和电源的语音识别模组用串口工具与电脑检测软件系统连接，并确认语音识别模组工作正常。将高保真音响的音频线接到电脑上，在1-5米范围调节音响与语音识别模组的距离；调节音响播报音量，使语音识别模组麦克风处的声压计测试值在60-85db范围。

在距离语音模组麦克1-1.5米处放置噪音播放器，噪音播放器播放的噪音根据实际产品应用场景选取，如电视剧声、新闻声、抽油烟机工作的噪声、厨房炒菜切菜声等等，调节噪声音量，使语音识别模组麦克风处的声压计测试值在60-80db（即噪音下人高声说话）范围。将音频文件和对应标准文本拷贝到语音数据库，开始检测。待所有音频文件播报和识别完成后，测试结束，同时统计输出模块自动计算并给出测试结果。

采用本发明所述本地离线智能语音识别模组识别率检测系统及方法，通过记录播报命令词文本和收集语音识别模组文本结果，进行匹配后给出结果判定，提高了测试的效率，保证了测试结果的一致性及可复现性。。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除