在线考生语音认证识别与状态保持系统、及识别方法与流程
本发明属于语音识别技术领域,具体涉及在线考生语音认证识别与状态保持系统、及识别方法。
背景技术:
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolatedwordrecognition),关键词识别(或称关键词检出,keywordspotting)和连续语音识别。其中,孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。
语音识别方法主要是模式匹配法。在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
语音识别主要有以下五个问题:⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。⒉语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。⒊语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。⒋单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。⒌环境噪声和干扰对语音识别有严重影响,致使识别率低。
技术实现要素:
本发明的主要目的在于提供在线考生语音认证识别与状态保持系统、及识别方法,其通过两种不同的识别方法进行交叉识别,对识别结果进行共识别,提升了识别的准确率。同时,针对采集到的语音信号进行语音滤波降噪,进一步提升了后续的识别效率。
为达到上述目的,本发明的技术方案是这样实现的:
在线考生语音认证识别与状态保持系统,所述系统包括:语音采集单元、语音预处理单元、交叉语音识别单元和状态保持单元;所述语音采集单元,配置用于周期性采集原始的话音信号,将采集到的话音信号进行存储;所述语音预处理单元,配置用于调取存储的原始的话音信号,对原始的话音信号进行滤波降噪处理,同时将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;所述交叉语音识别单元,配置用于对关键语音部分分别使用两种不同的识别方法进行交叉识别,分别得到第一识别部分和第二识别部分,并比较第一识别部分和第二识别部分,找到相同的共识别部分,将共识别部分作为最终的识别结果;所述状态保持单元,配置用于周期性调取识别结果,根据识别结果,判断是被是否通过,若识别通过保持当前通过状态,若识别不通过,则改变当前状态为不通过。
进一步的,所述语音预处理单元包括:滤波降噪处理子单元和话音信号分离子单元;所述滤波降噪处理子单元配置用于对原始的话音信号进行滤波降噪处理,具体包括:对话音信号进行分解,获得噪声话音信号、误差话音信号和基础话音信号;以及对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号;首先,将接收到的话音信号用如下公式表示:pp=asincos(0.5wt+1.5kx);其话音信号能密度为:
进一步的,所述话音信号分离子单元,配置用于将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;具体包括:对预先采集到的话音信号进行分析,得到话信号的无关语音时间间隔、关键语音时间间隔和累计概率的变化关系;利用得到的变化关系,将降噪后的话音信号进行分离。
进一步的,所述交叉语音识别单元包括:第一识别子单元、第二识别子单元和共识别子单元;所述第一识别子单元配置用于对关键语音部分使用匹配识别方法进行识别,得到第一识别部分;所述第二识别子单元配置用于对关键语音部分使用深度学习识别方法进行识别,得到第二识别部分;所述共识别部分,配置用于比较第一识别部分和第二识别部分,找到相同的共识别子单元,将共识别部分作为最终的识别结果;所述第一识别子单元对关键语音部分使用匹配识别方法进行识别,得到第一识别部分的方法执行以下步骤:将关键语音部分转化为语谱图,通过傅里叶变换将原始关键语音部分转化到频域,进而得到关键语音部分在随着频率变化,波形变化的频率谱;以及随着时间变化,波形变化的时间谱;再在频率谱的基础上分析关键语音部分的波形的波峰和波谷变化;将分析得到的波峰和波谷变化进行匹配识别,得到识别结果。
进一步的,所述第二识别子单元对关键语音部分使用深度学习识别方法进行识别,得到第二识别部分的方法执行以下步骤:将关键语音部分转化为语谱图,通过短时傅里叶变换将原始关键语音部分转化为时频分析图,具体包括:利用短时傅里叶变换对关键语音部分进行处理,将关键语音部分用三维图谱的方式显示,其中,横轴表示时间,纵轴表示频率,颜色深浅表示局部时频交叉域能量的大小;制作语谱图数据集,对语谱图的局部有效区域进行标注,具体包括:利用标注工具对变换的语谱图中的有效交叉区域进行标注,得到每个有效区域的边界框信息并保存,制作成为数据集,再将数据集分为训练集和验证集;将有标注的语谱图训练集作为输入,对检测模型进行有监督的训练,所述监测模型使用如下公式进行表示:eθ(v,h)=-∑iaivi-∑jbjhj-∑ijviwijhj,其中θ={w,a,b};其中,ai表示深度学习网络的可见层节点的i的偏置,bj表示深度学习网络的隐藏层节点的j的偏置,wij可见层节点i和隐藏层节点j之间的连接权重;θ={w,a,b}表示深度学习网络的参数集合;vi表示可见层节点i的权重,bj表示隐藏层节点j的权重。
一种在线考生语音认证识别方法,所述方法执行以下步骤:步骤s1:周期性采集原始的话音信号,将采集到的话音信号进行存储;步骤s2:调取存储的原始的话音信号,对原始的话音信号进行滤波降噪处理,同时将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;步骤s3:对关键语音部分分别使用两种不同的识别方法进行交叉识别,分别得到第一识别部分和第二识别部分,并比较第一识别部分和第二识别部分,找到相同的共识别部分,将共识别部分作为最终的识别结果;步骤s4:周期性调取识别结果,根据识别结果,判断是被是否通过,若识别通过保持当前通过状态,若识别不通过,则改变当前状态为不通过。
进一步的,对原始的话音信号进行滤波降噪处理,具体包括:对话音信号进行分解,获得噪声话音信号、误差话音信号和基础话音信号;以及对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号。
进一步的,所述对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号包括:将接收到的话音信号用如下公式表示:pp=asincos(0.5wt+1.5kx);其话音信号能密度为:
进一步的,所述将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;具体包括:对预先采集到的话音信号进行分析,得到话信号的无关语音时间间隔、关键语音时间间隔和累计概率的变化关系;利用得到的变化关系,将降噪后的话音信号进行分离。
进一步的,所述步骤s3包括:对关键语音部分使用匹配识别方法进行识别,得到第一识别部分;对关键语音部分使用深度学习识别方法进行识别,得到第二识别部分;比较第一识别部分和第二识别部分,找到相同的共识别子单元,将共识别部分作为最终的识别结果;所述对关键语音部分使用匹配识别方法进行识别,得到第一识别部分的方法执行以下步骤:将关键语音部分转化为语谱图,通过傅里叶变换将原始关键语音部分转化到频域,进而得到关键语音部分在随着频率变化,波形变化的频率谱;以及随着时间变化,波形变化的时间谱;再在频率谱的基础上分析关键语音部分的波形的波峰和波谷变化;将分析得到的波峰和波谷变化进行匹配识别,得到识别结果。
本发明的在线考生语音认证识别与状态保持系统、及识别方法,具有如下有益效果:其通过两种不同的识别方法进行交叉识别,对识别结果进行共识别,提升了识别的准确率。同时,针对采集到的语音信号进行语音滤波降噪,进一步提升了后续的识别效率。主要通过以下过程实现:1.对采集到的话音信号进行滤波降噪:对话音信号进行分解,获得噪声话音信号、误差话音信号和基础话音信号;以及对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号;最终的话音信号其有效部分占比更多,滤除了干扰噪声的影响;2.将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;具体包括:对预先采集到的话音信号进行分析,得到话信号的无关语音时间间隔、关键语音时间间隔和累计概率的变化关系;利用得到的变化关系,将降噪后的话音信号进行分离;使得进行识别时,只需要针对关键语音进行识别,提升了识别的效率;3.对关键语音部分分别使用两种不同的识别方法进行交叉识别,分别得到第一识别部分和第二识别部分,并比较第一识别部分和第二识别部分,找到相同的共识别部分,将共识别部分作为最终的识别结果;两种不同的识别方法的识别结果相同的部分,其准确率将显著高于使用一种方法得出的识别结果。
附图说明
图1为本发明的实施例提供的在线考生语音认证识别与状态保持系统的系统结构示意图;
图2为本发明的实施例提供的在线考生语音认证识别方法的方法流程示意图;
图3为本发明的实施例提供的在线考生语音认证识别方法的语音交叉识别方法的流程示意图;
图4为本发明的实施例提供的在线考生语音认证识别方法的语音交叉识别方法的原理示意图;
图5为本发明的实施例提供的在线考生语音认证识别与状态保持系统及识别方法的话音信号分离原理曲线示意图;
图6为本发明的实施例提供的在线考生语音认证识别与状态保持系统、及识别方法的话音信号时域图和频谱图;
图7为本发明的实施例提供的在线考生语音认证识别与状态保持系统、及识别方法的话音信号语谱图;
图8为本发明的实施例提供的在线考生语音认证识别与状态保持系统、及识别方法的识别准确率随着信噪比变化的实验曲线示意图与现有技术的对比实验示意图;
图9为本发明的实施例提供的基于深度学习的数据识别系统及方法的在线考生语音认证识别与状态保持系统、及识别方法的识别准确率随着声音强度变化的实验曲线示意图与现有技术的对比实验示意图。
具体实施方式
以下结合具体实施方式和附图对本发明的技术方案作进一步详细描述:
实施例1
如图1所示,在线考生语音认证识别与状态保持系统,所述系统包括:语音采集单元、语音预处理单元、交叉语音识别单元和状态保持单元;所述语音采集单元,配置用于周期性采集原始的话音信号,将采集到的话音信号进行存储;所述语音预处理单元,配置用于调取存储的原始的话音信号,对原始的话音信号进行滤波降噪处理,同时将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;所述交叉语音识别单元,配置用于对关键语音部分分别使用两种不同的识别方法进行交叉识别,分别得到第一识别部分和第二识别部分,并比较第一识别部分和第二识别部分,找到相同的共识别部分,将共识别部分作为最终的识别结果;所述状态保持单元,配置用于周期性调取识别结果,根据识别结果,判断是被是否通过,若识别通过保持当前通过状态,若识别不通过,则改变当前状态为不通过。
采用上述技术方案,其通过两种不同的识别方法进行交叉识别,对识别结果进行共识别,提升了识别的准确率。同时,针对采集到的语音信号进行语音滤波降噪,进一步提升了后续的识别效率。主要通过以下过程实现:1.对采集到的话音信号进行滤波降噪:对话音信号进行分解,获得噪声话音信号、误差话音信号和基础话音信号;以及对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号;最终的话音信号其有效部分占比更多,滤除了干扰噪声的影响;2.将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;具体包括:对预先采集到的话音信号进行分析,得到话信号的无关语音时间间隔、关键语音时间间隔和累计概率的变化关系;利用得到的变化关系,将降噪后的话音信号进行分离;使得进行识别时,只需要针对关键语音进行识别,提升了识别的效率;3.对关键语音部分分别使用两种不同的识别方法进行交叉识别,分别得到第一识别部分和第二识别部分,并比较第一识别部分和第二识别部分,找到相同的共识别部分,将共识别部分作为最终的识别结果;两种不同的识别方法的识别结果相同的部分,其准确率将显著高于使用一种方法得出的识别结果。
实施例2
在上一实施例的基础上,所述语音预处理单元包括:滤波降噪处理子单元和话音信号分离子单元;所述滤波降噪处理子单元配置用于对原始的话音信号进行滤波降噪处理,具体包括:对话音信号进行分解,获得噪声话音信号、误差话音信号和基础话音信号;以及对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号;首先,将接收到的话音信号用如下公式表示:pp=asincos(0.5wt+1.5kx);其话音信号能密度为:
实施例3
在上一实施例的基础上,所述话音信号分离子单元,配置用于将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;具体包括:对预先采集到的话音信号进行分析,得到话信号的无关语音时间间隔、关键语音时间间隔和累计概率的变化关系;利用得到的变化关系,将降噪后的话音信号进行分离。
参考图5,无关语音时间间隔和关键语音时间间隔周期变化,且随着时间的增加,其累计概率将显著提升。这样可以根据预先建立的模型或者变化关系,对话音信号进行分离。分离后的话音信号,可以得到关键语音部分。在后续针对关键语音部分进行识别,可以显著提升语音识别的效率。
实施例4
在上一实施例的基础上,所述交叉语音识别单元包括:第一识别子单元、第二识别子单元和共识别子单元;所述第一识别子单元配置用于对关键语音部分使用匹配识别方法进行识别,得到第一识别部分;所述第二识别子单元配置用于对关键语音部分使用深度学习识别方法进行识别,得到第二识别部分;所述共识别部分,配置用于比较第一识别部分和第二识别部分,找到相同的共识别子单元,将共识别部分作为最终的识别结果;所述第一识别子单元对关键语音部分使用匹配识别方法进行识别,得到第一识别部分的方法执行以下步骤:将关键语音部分转化为语谱图,通过傅里叶变换将原始关键语音部分转化到频域,进而得到关键语音部分在随着频率变化,波形变化的频率谱;以及随着时间变化,波形变化的时间谱;再在频率谱的基础上分析关键语音部分的波形的波峰和波谷变化;将分析得到的波峰和波谷变化进行匹配识别,得到识别结果。
参考图4,对关键语音部分分别使用两种不同的识别方法进行交叉识别,分别得到第一识别部分和第二识别部分,并比较第一识别部分和第二识别部分,找到相同的共识别部分,将共识别部分作为最终的识别结果;两种不同的识别方法的识别结果相同的部分,其准确率将显著高于使用一种方法得出的识别结果。
实施例5
在上一实施例的基础上,所述第二识别子单元对关键语音部分使用深度学习识别方法进行识别,得到第二识别部分的方法执行以下步骤:将关键语音部分转化为语谱图,通过短时傅里叶变换将原始关键语音部分转化为时频分析图,具体包括:利用短时傅里叶变换对关键语音部分进行处理,将关键语音部分用三维图谱的方式显示,其中,横轴表示时间,纵轴表示频率,颜色深浅表示局部时频交叉域能量的大小;制作语谱图数据集,对语谱图的局部有效区域进行标注,具体包括:利用标注工具对变换的语谱图中的有效交叉区域进行标注,得到每个有效区域的边界框信息并保存,制作成为数据集,再将数据集分为训练集和验证集;将有标注的语谱图训练集作为输入,对检测模型进行有监督的训练,所述监测模型使用如下公式进行表示:eθ(v,h)=-∑iaivi-∑jbjhj-∑ijviwijhj,其中θ={w,a,b};其中,ai表示深度学习网络的可见层节点的i的偏置,bj表示深度学习网络的隐藏层节点的j的偏置,wij可见层节点i和隐藏层节点j之间的连接权重;θ={w,a,b}表示深度学习网络的参数集合;vi表示可见层节点i的权重,bj表示隐藏层节点j的权重。
参考图6和图7,语音信号在频域和时间域将呈现不同的变化特性,针对每个域进行分析进行识别,可以提升识别的准确率。
实施例6
如图2所示,一种在线考生语音认证识别方法,所述方法执行以下步骤:步骤s1:周期性采集原始的话音信号,将采集到的话音信号进行存储;步骤s2:调取存储的原始的话音信号,对原始的话音信号进行滤波降噪处理,同时将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;步骤s3:对关键语音部分分别使用两种不同的识别方法进行交叉识别,分别得到第一识别部分和第二识别部分,并比较第一识别部分和第二识别部分,找到相同的共识别部分,将共识别部分作为最终的识别结果;步骤s4:周期性调取识别结果,根据识别结果,判断是被是否通过,若识别通过保持当前通过状态,若识别不通过,则改变当前状态为不通过。
实施例7
在上一实施例的基础上,对原始的话音信号进行滤波降噪处理,具体包括:对话音信号进行分解,获得噪声话音信号、误差话音信号和基础话音信号;以及对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号。
具体的,对采集到的话音信号进行滤波降噪:对话音信号进行分解,获得噪声话音信号、误差话音信号和基础话音信号;以及对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号;最终的话音信号其有效部分占比更多,滤除了干扰噪声的影响。
实施例8
在上一实施例的基础上,所述对噪声话音信号部分进行噪声话音信号抑制,对误差话音信号部分进行话音信号补偿,在原有的基础话音信号的基础上,得到最终的话音信号包括:将接收到的话音信号用如下公式表示:pp=asincos(0.5wt+1.5kx);其话音信号能密度为:
实施例9
在上一实施例的基础上,所述将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;具体包括:对预先采集到的话音信号进行分析,得到话信号的无关语音时间间隔、关键语音时间间隔和累计概率的变化关系;利用得到的变化关系,将降噪后的话音信号进行分离。
具体的,将降噪后的话音信号进行分离,分别得到关键语音部分和无关语音部分;具体包括:对预先采集到的话音信号进行分析,得到话信号的无关语音时间间隔、关键语音时间间隔和累计概率的变化关系;利用得到的变化关系,将降噪后的话音信号进行分离;使得进行识别时,只需要针对关键语音进行识别,提升了识别的效率。
实施例10
在上一实施例的基础上,所述步骤s3包括:对关键语音部分使用匹配识别方法进行识别,得到第一识别部分;对关键语音部分使用深度学习识别方法进行识别,得到第二识别部分;比较第一识别部分和第二识别部分,找到相同的共识别子单元,将共识别部分作为最终的识别结果;所述对关键语音部分使用匹配识别方法进行识别,得到第一识别部分的方法执行以下步骤:将关键语音部分转化为语谱图,通过傅里叶变换将原始关键语音部分转化到频域,进而得到关键语音部分在随着频率变化,波形变化的频率谱;以及随着时间变化,波形变化的时间谱;再在频率谱的基础上分析关键语音部分的波形的波峰和波谷变化;将分析得到的波峰和波谷变化进行匹配识别,得到识别结果。
具体的,对关键语音部分分别使用两种不同的识别方法进行交叉识别,分别得到第一识别部分和第二识别部分,并比较第一识别部分和第二识别部分,找到相同的共识别部分,将共识别部分作为最终的识别结果;两种不同的识别方法的识别结果相同的部分,其准确率将显著高于使用一种方法得出的识别结果。
以上所述仅为本发明的一个实施例子,但不能以此限制本发明的范围,凡依据本发明所做的结构上的变化,只要不失本发明的要义所在,都应视为落入本发明保护范围之内受到制约。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除