一种音频采集和位置识别的方法及装置与流程
本发明涉及音频采集定位技术领域,尤其涉及一种音频采集和位置识别的方法及装置。
背景技术:
随着人工智能技术的高速应用发展,围绕人的语音定位识别技术应用越来越多,像银行的智能柜台,通常使用语音识别模块完成一些智能化业务的办理。而采集的音频信号的质量的高低对后续的语音识别有着至关重要的作用。
例如,中国专利文献cn201320497411.7公开了“一种语音采集装置及带语音采集的电视系统”,包括至少两个阵列排列的麦克风、安装所述麦克风的基座、无线通信单元,所述麦克风在所述基座上的位置分开设置,所述无线通信单元将所述语音采集装置的语音信号传送出去或者传送到电视终端。上述语音采集装置无法对声源进行定位,且其是通过增加与发声设备之间的距离来减小发声设备自身的噪声影响。
技术实现要素:
本发明主要解决原有的音频采集装置无法对声源进行定位以及采集音频信号质量差的技术问题;提供一种音频采集和位置识别的方法及装置,通过对声源的定位以及形成定向拾音波束定向采集音频信号,能够在复杂的噪声环境中准确的对音频信号进行采集,且定向拾音波束能够对波束以外的噪声进行抑制,提升采集的音频信号的质量,进而保证后续的音频信号识别效果。
本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明的一种音频采集和位置识别的方法,包括下列步骤:
步骤1、使用麦克风阵列采集并输出多路音频信号;
步骤2、利用步骤1中麦克风阵列采集的音频信号进行声源定位;
步骤3、根据步骤2中的声源定位结果,形成定向拾音波束,定向采集音频信号;
步骤4、对步骤3采集的音频信号进行语音增强,并作为最终结果输出。
当装置进入到音频采集的工作模式后,依据麦克风阵列采集的多路音频信号进行声源定位,在根据声源定位的结果形成定向拾音波束进行定向采集音频信号,并对定向采集的音频信号进行语音增强,获取输出纯净的音频信号。通过对声源的定位以及形成定向拾音波束定向采集音频信号,能够在复杂的噪声环境中准确的对音频信号进行采集,且定向拾音波束能够对波束以外的噪声进行抑制,提升采集的音频信号的质量,进而保证后续的音频信号识别效果。对定向采集的音频信号进行语音增强,进一步提升采集的音频信号的质量,提高了音频识别的效果。
作为优选,所述的步骤1中声源定位的具体方法为:
依据麦克风阵列中每个麦克风的位置和接收到音频信号的时间差确定声源定位。
声源定位方法可以采用tdoa方法,该种方法对网络的要求想对较低,并且定位精度较高。
作为优选,所述的步骤1和步骤2之间还包括步骤a:对音频信号进行语音交互检测,判断是否出现语音交互信号,如果是,则执行步骤2,如果否,则重复步骤1。
本发明通过语音交互检测来判断装置是否进入音频采集的工作模式,进而能够降低装置数据处理的计算量,从而减少能量损耗。
作为优选,所述的步骤a具体包括:
步骤a1、选取麦克风阵列最先采集到的一路音频信号;
步骤a2、筛选出音频信号中声源的发声起点以及发声结束点;
步骤a3、判断位于发声起点至发声结束点之间的信号中是否存在语音交互信号,如果是,则执行步骤2,如果否,则重复步骤1。
音频信号的强度在空气中传播会随着距离的延长而逐渐衰减,音频信号的传播路径越短到达麦克风阵列的时间就越短,因此麦克风阵列最先采集到的一路音频信号其强度是麦克风阵列所采集到的多路音频信号中最强的一路,选取该音频信号用于判断是否存在语音交互信号,结果更为准确。筛选出音频信号中声源的发声起点以及发声结束点,判断位于发声起点至发声结束点之间的信号中是否存在语音交互信号,缩小了判断的音频信号区间,提高了结果的准确性,减少了判断过程中的数据处理量。
作为优选,所述的步骤4中语音增强具体为:对通过定向拾音波束定向采集的音频信号进行降噪、回声消除以及信号放大。
对定向采集的音频信号进行降噪、回声消除以及信号放大,进一步提升采集的音频信号的质量,提高了音频识别的效果。
本发明的一种音频采集和位置识别的装置,包括麦克风阵列和音频采集处理终端,所述音频采集处理终端包括adc数据采集模块和处理模块,所述麦克风阵列的信号输出端与adc数据采集模块的信号输入端连接,所述adc数据采集模块的信号输出端与处理模块的信号输入端连接,所述麦克风阵列用于采集音频信号,所述adc数据采集模块用于接收处理麦克风阵列传输的音频信号,所述处理模块用于回声消除、降噪、语音增强以及声源定位处理。
处理模块用于对adc数据采集模块输出的数字信号进行分析,并进行回声消除、降噪、语音增强、声源定位的计算与处理。处理模块内部集成有回声消除、降噪、语音增强、声源定位等相关算法,解决传统语音采集环境噪声大、通话有回声、声源定位不准确或无法定位等问题,同时将多种算法集中在同一处理器中减小了整个装置的体积,也便于装配。
作为优选,所述的麦克风阵列包括后盖板、前盖板、若干麦克风和pcb板,所述前盖板和后盖板固定连接构成空腔,所述前盖板设有安装孔,所述麦克风设置于安装孔内,所述麦克风与pcb板电性连接,所述pcb板设置于空腔内,所述麦克风上设有橡胶套。
橡胶套能阻止灰尘进入麦克风,起到防风降噪的作用,提升采集的音频信号的质量。
作为优选,所述的麦克风阵列还包括橡胶套形变调整装置,所述橡胶套形变调整装置包括主控单元、弹簧、压板以及电源模块,所述压板设置于前盖板与橡胶套之间,所述弹簧和电源模块设置于前盖板内,所述前盖板与压板相接触的面上设有弹簧通孔,所述弹簧的一端与压板相连,所述弹簧的另一端与前盖板相连,所述弹簧与电源模块电性相连,所述主控模块设置于所述pcb板上,所述主控单元与电源模块相连。
每个麦克风外侧安装有橡胶套,橡胶套处于麦克风与前盖板之间,橡胶套具有一定厚度,在外力作用下,会有一定程度变形,变形太多容易引起共振,变形太少又会失去应有的作用。为使得橡胶套处于合适的变形范围内,可以通过调节流经弹簧的电流的大小以此改变弹簧的形变大小(在初始安装时,弹簧就具有初始形变),从而调节压板施加于橡胶套上的压力,达到使橡胶套处于合适形变范围的目的。
作为优选,所述的橡胶套形变调整装置还包括若干个分别对应各橡胶套的压电薄膜传感器,所述压电薄膜传感器设置于压板与橡胶套之间,所述压电薄膜传感器与所述主控单元相连。
通过读取薄膜压力传感器的数据可以实时监测压板施加于橡胶套上的压力是否处于橡胶套合适变形范围内,防止在调节压力时超过范围。
作为优选,所述的空腔内设有用于降噪的隔音海绵。
采用隔音海绵进行物理降噪,减弱除麦克风前方区域的其他区域对麦克风采集音频信号的噪声污染。
本发明的有益效果是:1)通过对声源的定位以及形成定向拾音波束定向采集音频信号,能够在复杂的噪声环境中准确的对音频信号进行采集,且定向拾音波束能够对波束以外的噪声进行抑制,提升采集的音频信号的质量,进而保证后续的音频信号识别效果;2)通过语音交互检测来判断装置是否进入音频采集的工作模式,进而能够降低装置数据处理的计算量,从而减少能量损耗;3)通过调节流经弹簧的电流的大小以此改变弹簧的形变大小(在初始安装时,弹簧就具有初始形变),从而调节压板施加于橡胶套上的压力,达到使橡胶套处于合适形变范围的目的,防止橡胶套变形太多容易引起共振,变形太少又会失去应有的作用。
附图说明
图1是本发明方法的一种流程图。
图2是本发明装置的一种结构示意框图。
图3是本发明麦克风阵列的一种正视结构示意图。
图4是本发明麦克风阵列的一种侧视结构剖面图。
图5是本发明麦克风阵列的一种正视结构剖面图。
图中1、麦克风阵列,2、音频采集处理终端,21、adc数据采集模块,22、arm/dsp处理器,23、ddr存储器,24、nand闪存存储器,25、串口/usb通信,3、pcb板,4、前盖板,5、橡胶套,6、麦克风,7、主控单元,8、压电薄膜传感器,9、压板,10、电源模块,11、弹簧,12、后盖板,13、隔音海绵。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种音频采集和位置识别的方法,如图1所示,包括下列步骤:
步骤1、使用麦克风阵列采集并输出多路音频信号;
步骤2、对音频信号进行语音交互检测,判断是否出现语音交互信号,如果是,则执行步骤3,如果否,则重复步骤1;
步骤3、利用步骤1中麦克风阵列采集的音频信号进行声源定位;
步骤4、根据步骤3中的声源定位结果,形成定向拾音波束,定向采集音频信号;
步骤5、对步骤4采集的音频信号进行语音增强,并作为最终结果输出。
本发明通过语音交互检测来判断装置是否进入音频采集的工作模式,进而能够降低arm/dsp处理器数据处理的计算量,从而减少能量损耗。当装置进入到音频采集的工作模式后,依据麦克风阵列采集的多路音频信号进行声源定位,在根据声源定位的结果形成定向拾音波束进行定向采集音频信号,并对定向采集的音频信号进行语音增强,获取输出纯净的音频信号。通过对声源的定位以及形成定向拾音波束定向采集音频信号,能够在复杂的噪声环境中准确的对音频信号进行采集,且定向拾音波束能够对波束以外的噪声进行抑制,提升采集的音频信号的质量,进而保证后续的音频信号识别效果。对定向采集的音频信号进行语音增强,进一步提升采集的音频信号的质量,提高了音频识别的效果。
步骤2具体包括:
步骤21、选取麦克风阵列最先采集到的一路音频信号;
步骤22、筛选出音频信号中声源的发声起点以及发声结束点;
步骤23、判断位于发声起点至发声结束点之间的信号中是否存在语音交互信号,如果是,则执行步骤3,如果否,则重复步骤1。
音频信号的强度在空气中传播会随着距离的延长而逐渐衰减,音频信号的传播路径越短到达麦克风阵列的时间就越短,因此麦克风阵列最先采集到的一路音频信号其强度是麦克风阵列所采集到的多路音频信号中最强的一路,选取该音频信号用于判断是否存在语音交互信号,结果更为准确。筛选出音频信号中声源的发声起点以及发声结束点,判断位于发声起点至发声结束点之间的信号中是否存在语音交互信号,缩小了判断的音频信号区间,提高了结果的准确性,减少了判断过程中的数据处理量。
步骤3中声源定位的具体方法为:依据麦克风阵列中每个麦克风的位置和接收到的音频信号的时间差确定声源定位。声源定位方法可以采用tdoa方法,该种方法对网络的要求想对较低,并且定位精度较高。
步骤4中语音增强具体为:对通过定向拾音波束定向采集的音频信号进行降噪、回声消除以及信号放大。对定向采集的音频信号进行降噪、回声消除以及信号放大,进一步提升采集的音频信号的质量,提高了音频识别的效果。
本实施例的一种音频采集和位置识别的装置,如图2~5所示,包括麦克风阵列1和音频采集处理终端2。其中音频采集处理终端包括adc数据采集模块21和处理模块,处理模块包括arm/dsp处理器22、ddr存储器23和nand闪存存储器24。
麦克风阵列用于采集环境中的音频信号,麦克风阵列的信号输出端与adc数据采集模块的信号输入端电性相连。
adc数据采集模块用于接收麦克风阵列的传输的音频信号,并将音频信号从模拟信号转换成数字信号后传输至arm/dsp处理器,adc数据采集模块的信号输出端与arm/dsp处理器的信号输入端连接。
arm/dsp处理器用于对adc数据采集模块输出的数字信号进行分析,并进行回声消除、降噪、语音增强、声源定位的计算与处理。arm/dsp处理器内部集成有回声消除、降噪、语音增强、声源定位等相关算法,解决传统语音输入环境噪声大、通话有回声、声源定位不准确或无法定位等问题,同时将多种算法集中在同一处理器中减小了整个装置的体积,也便于装配。arm/dsp处理器通过串口/usb通信25与上位机相互通讯,arm/dsp处理器与ddr存储器和nand闪存存储器双向通讯。
ddr存储器和nand闪存存储器均用于存储数据信息,其中ddr存储器为内存存储器,存取速度快,使装置的运行更加流畅;nand闪存存储器编程速度快、擦除时间短,无需采用任何粘结逻辑,可直接从处理器存取指令、地址和数据。
麦克风阵列包括后盖板12、前盖板4、4个麦克风6、pcb板3和隔音海绵13,前盖板呈“凸”字型,后盖板呈“u”字型,隔音海绵呈“凹”字型。前盖板和后盖板通过螺钉固定连接构成空腔,前盖板上开有用于放置麦克风的安装孔,一个安装孔放置一个麦克风,4个安装孔呈线状等距排布。隔音海绵放置在空腔中,隔音海绵的底侧和左右两侧与后盖板相接触,隔音海绵的顶侧以及凹槽与前盖板相配合接触。pcb板放置在隔音海绵的凹槽内,pcb板与麦克风电性连接。采用隔音海绵进行物理降噪,减弱除麦克风前方区域的其他区域对麦克风采集音频信号的噪声污染。
安装孔呈“y”字型,安装孔开口大的一侧朝向空腔内部。由于安装孔的开口大的一侧朝向空腔内部,即安装孔开口大的一侧作为安装口,在安装的过程中,起到导向的作用,不用精确对准麦克风,便于前盖板的安装。
麦克风上套设有橡胶套5,阻止灰尘进入麦克风,起到防风降噪的作用,提升采集的音频信号的质量。
麦克风阵列还包括橡胶套形变调整装置,橡胶套形变调整装置包括主控单元7、4个呈环形的压板9、压电薄膜传感器8、电源模块10和若干弹簧11。压板设置于前盖板与橡胶套之间,每个压板的内环面(与橡胶套所接触的一面)粘接设有压电薄膜传感器,每个压板的外环面(与前盖板所接触的一面)固定连接有4个弹簧,4个弹簧之间相互间隔90°,弹簧的一端与压板的外环面连接,弹簧的另一端通过前盖板上开设的弹簧通孔与前盖板的内壁固定连接,弹簧位于前盖板的内部,弹簧与位于前盖板内部的电源模块电性连接,电源模块与压电薄膜传感器均与设置于pcb板上的主控单元通讯相连。
每个麦克风外侧安装有橡胶套,橡胶套处于麦克风与前盖板之间,橡胶套具有一定厚度,在外力作用下,会有一定程度变形,变形太多容易引起共振,变形太少又会失去应有的作用。为使得橡胶套处于合适的变形范围内,主控单元通过读取薄膜压力传感器的数据可以知道现阶段压板施加于橡胶套上的压力,若压力不位于橡胶套合适变形范围内,则主控单元发送调节控制指令至电源模块,通过调节流经弹簧的电流的大小以此改变弹簧的形变大小(在初始安装时,弹簧就具有初始形变),从而调节压板施加于橡胶套上的压力,达到使橡胶套处于合适形变范围的目的。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除