一种基于基音特征的近场遥控器语音端点检测方法及系统与流程
本发明涉及语音检测领域,具体的说,是一种基于基音特征的近场遥控器语音端点检测方法及系统。
背景技术:
近年来,随着人工智能的快速发展,大大加速了语音信号处理的进程,说话人识别,自动语音识别和语音合成等技术逐渐开始落地,如微信app的声纹锁,智能音箱天猫精灵等。同样,伴随着产品技术需求,作为预处理技术的语音端点检测技术也逐渐成为研究的热点之一,准确检测语音的起始点和结束点,可以极大地提高语音处理系统效率,更是可以优化语音处理系统的准确率。
基于电视载体的语音说话人识别技术中,近场语音采集都是通过遥控器来进行的,而人按键的力量大小不同,按键的起伏会在语音信号开始和末尾产生按键声。常规语音端点检测都是通过语音信号的前几帧估计噪声进行门限设置,但按键声的不确定,会影响噪声估计,无法适用。同时,无法去除噪声干扰,对后续的语音说话人识别具有一定的影响,语音拒绝率会增加,进一步影响用户交互体验。因此,如何有效区分近场遥控器语音端点检测成为了一个关键的问题。
技术实现要素:
本发明的目的在于提供一种基于基音特征的近场遥控器语音端点检测方法及系统,用于解决电视遥控器的按键声影响的技术问题,准确地实现了语音端点检测,提高说话人系统的效率和准确性的技术效果。
本发明通过下述技术方案解决上述问题:
一种基于基音特征的近场遥控器语音端点检测方法,包括以下步骤:
步骤1)声音信号预处理,构建声音帧,提取出短时稳定的声音信号ⅰ,所述声音帧内至少包含声音波形信息;
步骤2)计算所述声音帧的基音特征,并根据人耳听觉范围映射到不同区间,组合叠加映射值,得到去除噪声和按键声的声音信号ⅱ;
步骤3)计算声音信号ⅱ的声音帧的能熵比特征,并计算得到门限阀值;
步骤4)构建阀值队列,将所述声音信号ⅱ的能熵比特征依次添加进阀值队列内,判断阀值队列内的声音帧能熵比特征与所述门限阀值大小,先区分阀值队列内每个声音帧是否为语音,再统计阀值队列内含声音帧长度确定语音信号的起止点。
优选地,所述步骤1)中的声音信号预处理包括:声音信号直流分量去除处理、声音信号预加重、声音信号最大值最小值归一化处理和声音信号分帧加窗。
优选地,所述步骤2)声音帧的基音特征计算:先对声音信号ⅰ进行自相关运算,然后根据周期信号自相关最大值对应的周期,从而搜索到第二极值点作为基音特征。
本发明还提供了一种基于基音特征的近场遥控器语音端点检测系统,用于实现所述的一种基于基音特征的近场遥控器语音端点检测方法,包括预处理模块、语音去噪模块和语音端点检测模块;
所述预处理模块对声音信号进行预处理,提取出短时稳定的声音信号ⅰ,构建出声音帧;
所述语音去噪模块计算所述声音帧的基音特征,并根据人耳听觉范围映射到不同区间,组合叠加映射值,得到去除噪声和按键声的声音信号ⅱ;
所述语音端点检测模块计算声音信号ⅱ的语音帧的能熵比特征,并计算得到门限阀值;构建阀值队列,将所述声音信号ⅱ的能熵比特征依次添加进阀值队列,判断阀值队列内的声音帧能熵比特征与门限阀值大小,先区分阀值队列内每个声音帧是否为语音,再统计阀值队列内含声音帧长度确定语音信号的起止点。
本发明与现有技术相比,具有以下优点及有益效果:
本发明提出了语音去噪和语音端点检测联合的两步法思想,第一步去噪声过程是先通过不同声音的基音特征范围区别,预先区分按键声、噪声和语音,并加权声音信号,突出增强语音信息,得到无噪声和按键声的声音信号。第二步语音端点检测过程是利用能熵比特征,可以准确判断语音的端点位置,切割掉噪音段提高后续语音处理效率,进一步优化语音识别系统准确性,提高用户的体验感,提高产品的适用性和实用性,降低语音识别的误差,提高效率。
附图说明
图1为本发明检测方法的流程图。
图2为本发明系统的结构示意图。
图3为本发明声音信号示意图。
图4为本发明预处理结果示意图。
图5为本发明声音帧的基音特征子带划分图。
图6为本发明声音信号ⅰ组合叠加处理后示意图。
图7为本发明能熵特征示意图。
图8为本发明语音信号起止点检测结果示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合图1和图3所示,一种基于基音特征的近场遥控器语音端点检测方法,包括以下步骤:步骤1)声音信号预处理具体涉及声音信号直流分量消除、声音信号预加重、声音信号最大值最小值归一化处理、声音信号分帧加窗等技术。其中,声音信号直流分量消除是首先计算出所有声音信号振幅的均值,将所有声音信号的振幅减去声音信号振幅的均值得到直流分量去除的结果。声音预加重,通过一阶线性滤波函数实现声音信号高频抬升,确保声音信号频带平滑,可以消除声带和嘴唇发声影响,补偿对应高频信息,突出对应高频共振峰,一般滤波器系数取值为0.97。声音信号最大值最小值归一化处理,主要选用最大值归一化处理,即每个声音振幅数值都除以最大值,处理结果如图4所示,幅值归一化到了-1,防止数值溢出,更便于数据处理。声音信号分帧加窗,主要是通过以汉明窗或矩形窗为窗函数,滑动切割语音信号,保证语音信号短时平稳性,一般窗函数为25毫秒,步长为10毫秒,处理结果如图4所示,声音信号按帧叠加显示,结果更密集。
预处理完成以后,构建声音帧,提取出短时稳定的声音信号ⅰ,所述语音帧内至少包含声音波形信息。
步骤2)计算所述声音帧的基音特征,先对步骤1)构建出的声音信号ⅰ进行自相关运算,根据周期信号自相关最大值对应周期,从而搜索第二极值点作为所述声音帧的基音特征。并根据人耳听觉范围映射到不同区间,线性比例划分每个区间内的权重值,一般来说人类发声基音特征周期范围在40hz(低男音)到600hz(高女音或儿童音)之间,根据人类发声基音特征周期范围进行子带划分,具体数值可以根据对应线性函数关系划分。本实施列为了兼顾效率,采用了0到50hz,50到100hz,100hz到500hz,500hz以上对应的四个频带,并设置了与之对应的权重为0、0.5、0.5、0,如图5所示。然后对基音特征进行加权平均处理,0-50hz和500hz以上乘以权重0得到计算结果为0,50-500hz乘以权重0.5得到相应的计算结果,降低噪声和按键声能量权重,得到消除按键声和噪声的声音信号ⅱ,如图6所示。
步骤3)计算声音信号ⅱ的声音帧的能熵比特征,能熵比特征的计算主要是通过声音信号ⅱ内每帧声音帧的短时能量和谱熵信息比值,然后再取比值的均方根结果,从而得到能熵比特征。计算时可以添加一个常量因子0.0001,防止数值比过小。因为对于语音和静音,短时能量可以有效区分。但是对于含噪声语音,短时能量无能为力。因此,引进谱熵信息,谱熵信息反应的是紊乱程度。对于杂乱无章的噪声,谱熵值很高,而对于共振峰清晰的语音来说,值反而低。而两种之间的比值,往往可以放大语音和噪声之间的差异,进一步区分噪声信息,从而更有效的去除噪声。并计算得到门限阀值,一般声音采集设备会默认采集未含语音的背景噪声,故本实施列取声音信号ⅱ开始前几帧均值(一般为5帧)作为一个基准门限阀值,基准门限阀值再加上所有声音帧的能熵比特征的最大值乘以经验值0.01得到门限阀值
为了确定声音信号ⅱ开始的起止点,步骤4)构建一个阀值队列,将所述声音信号ⅱ的能熵比特征依次添加进阀值队列,判断阀值队列内的声音帧的能熵比特征与门限阀值大小,区分出阀值队列内每个声音帧是否为语音,再统计阀值队列内语音帧长度,从而确定语音信号的起止点。例如,设置三帧作为阀值队列长度,利用阀值队列先进先出特性,依次添加所述声音信号ⅱ的能熵比特征进入阀值队列,当第一帧的能熵比特征添加进阀值队列,阀值队列未填满,继续添加声音帧的能熵比特征,直到第一帧、第二帧和第三帧的能熵比特征均进入阀值队列,阀值队列被填满时,判断阀值队列内每个声音帧对应的能熵比特征与门限阀值的大小,大于门限阀值的为语音帧,小于门限阀值的为非语音帧,统计阀值队列内含语音帧的长度。若三帧声音帧的能熵比特征均大于门限阀值,则阀值队列内含语音帧的长度等于阀值队列的长度,则第一帧声音帧为语音信号的端点,否则第一帧声音帧不为语音信号的端点。若第一帧声音帧不为语音信号的端点时,添加第四帧声音帧进入阀值队列,而阀值队列会自动删除第一帧,仅包含第二帧声音帧到第四帧声音帧,若第二帧声音帧到第四帧声音帧的能熵比特征均大于门限阀值,则第二帧声音帧为语音信号的端点,否则第二帧声音帧不为语音信号的端点;若第二帧声音帧不为语音信号的端点时,依次往后,添加第五帧声音帧的能熵比特征进入阀值队列中进行比较,直到找到进入阀值队列内所有声音帧的能熵比特征均大于门限阀值的队列,从而精确地确定语音信号的开始点。然后,对所述声音信号ⅱ的声音帧采用双向搜索,即倒转声音帧采用相同的方法反向搜索,从而精确地确定语音信号的结束点。
结合图2所示,一种基于基音特征的近场遥控器语音端点检测系统,用于实现所述的一种基于基音特征的近场遥控器语音端点检测方法,包括预处理模块、语音去噪模块和语音端点检测模块;
所述预处理模块对声音信号进行预处理,提取出短时稳定的声音信号ⅰ,构建出声音帧;
所述语音去噪模块计算所述声音帧的基音特征,并根据人耳听觉范围映射到不同区间,组合叠加映射值,得到去除噪声和按键声的声音信号ⅱ;
所述语音端点检测模块计算声音信号ⅱ的语音帧的能熵比特征,并计算得到门限阀值;构建阀值队列,将所述声音信号ⅱ的能熵比特征依次添加进阀值队列,判断阀值队列内的声音帧能熵比特征与门限阀值大小,先区分阀值队列内每个声音帧是否为语音,再统计阀值队列内含声音帧长度确定语音信号的起止点。
本发明提出了语音去噪和语音端点检测联合的两步法思想,第一步去噪声过程是先通过不同声音的基音特征范围区别,预先区分按键声、噪声和语音,并加权声音信号,突出增强语音信息,得到无噪声和按键声的声音信号。第二步语音端点检测过程是利用能熵比特征,可以准确判断语音的端点位置,切割掉噪音段提高后续语音处理效率,进一步优化语音识别系统准确性,提高用户的体验感,提高产品的适用性和实用性,降低语音识别的误差,提高效率。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除