一种商户用蓝牙设备的音频识别方法与流程
本发明涉及音频识别技术领域,尤其涉及一种商户用蓝牙设备的音频识别方法。
背景技术:
随着科技的发展,移动支付平台的兴起促进了消费,消费者通过扫描商户的收款码进行支付,商户将收款的通讯终端与蓝牙设备进行连接,可以接收并播放收款语音播报信息,方便快捷,但是现有技术的蓝牙设备接收的通讯终端常用手机、平板电脑、笔记本电脑等设备,这些设备常具备多媒体功能,不仅限于收款语音播放,如果商户无意中操作了手机、平板电脑、笔记本电脑等设备进行app音乐或视频播放,蓝牙设备仅具备音频播放功能,蓝牙设备难以分辨出接收音频内容,app的声音会通过蓝牙设备直接播出,常常会造成尴尬的场面发生。
技术实现要素:
本发明的目的在于提供一种商户用蓝牙设备的音频识别方法,在蓝牙设备中增加了音频识别模型,通过音频识别模型识别接收的音频内容,自动过滤无关信息。
蓝牙设备如蓝牙音箱芯片计算能力弱,本发明的提出的算法适用于低算力低内存芯片。
为实现上述目的,本发明采用以下技术方案:
一种商户用蓝牙设备的音频识别方法,应用于与通讯终端相连接的蓝牙设备,包括以下步骤:
s1、获取商户收款用提示音频,进行分类并存储在音频数据库;
s2、蓝牙设备获取并保存连接具有通用唯一识别码uuid信息的通讯终端;
s3、通讯终端与蓝牙设备基于蓝牙协议分别进行音频的发送和接收,蓝牙设备获取通讯终端的音频信号;
s4、构建音频识别模型,蓝牙设备通过音频识别模型对音频信号进行扫描,获取待识别样本;
s5、从音频数据库中提取商户收款用提示音频,利用音频识别模型的时域基音检测算法及过零率原始、一阶与二阶差分直方图分别提取商户收款用提示音频与待识别样本的特征序列;
s6、将获取的商户收款用提示音频与待识别样本的特征序列进行比对,相似度超过预设定阈值,判定为正在播报商户收款提示,蓝牙设备播放后续指定长度的内容,低于预设定阈值,蓝牙设备过滤该音频。
进一步地,所述步骤s1中的商户收款用提示音频采用具有支付、收款及转账功能的软件的提示音。
进一步地,所述通讯终端为具有蓝牙通讯的电子终端设备,采用手机、平板设备、pc及银行收款设备。
进一步地,所述步骤s3中获取到的音频信号为蓝牙设备对音频解码后的pcm信号,所述步骤s4中获取待识别样本具体为音频识别模型选取1s-5s的滑动窗口在pcm信号上进行扫描,选取1s-5s的待识别样本。
进一步地,所述滑动窗口采用1s的滑动窗口。
进一步地,所述音频识别模型的时域基音检测算法对商户收款用提示音频与待识别样本的特征序列进行短时分析的分帧处理,提取10-40ms的帧长,并在帧长与帧间隔上分别设置取样点。
进一步地,所述帧长采用30ms,帧长与帧间隔上均设置120个取样点。
进一步地,所述音频识别模型还包括用于动态调整商户收款用提示音频与待识别样本的算法,通过算法计算商户收款用提示音频与待识别样本取样点之间的距离并动态规划出两者之间的最短距离,通过对比并判断商户收款用提示音频与待识别样本的相似度。
进一步地,所述算法采用dtw算法。
进一步地,所述过零率原始、一阶与二阶差分信号直方图采用10ms的长度进行统计,重叠50%,原始、一阶、二阶直方图各有200个值,使得直方图有足够波动性来区分待测音频和样本音频的相似度。
进一步地,所述蓝牙协议采用a2dp协议。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明构建音频数据库及音频识别模型,蓝牙设备将接收到通讯终端的音频进行扫描截取待识别样本,从音频数据库提取商户收款用提示音频,通过音频识别模型对商户收款用提示音频与待检测样本,分别利用时域基音检测算法及过零率直方图进行特征序列的提取,通过对比两者的特征序列,相似度超过预设的阈值的判断为符合播报要求的内容,否则则过滤该音频;在蓝牙设备中增加了音频识别模型,通过音频识别模型识别接收的音频内容,自动过滤无关信息,避免了尴尬场面的发生,而采用时域上的基音检测和过零率直方图算法复杂度低,对蓝牙设备芯片的cpu和内存要求低,可以做到实时计算。
附图说明
图1为本发明工作流程示意图;
图2为本发明蓝牙协议工作流程示意图;
图3为本发明待识别样本与商户收款用提示音频的基音周期对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
配合图1至图3所示,本发明公开了一种商户用蓝牙设备的音频识别方法,应用于与通讯终端相连接的蓝牙设备,包括以下步骤:
s1、获取商户收款用提示音频,进行分类并存储在音频数据库。
s2、蓝牙设备获取并保存连接具有通用唯一识别码uuid信息的通讯终端。
s3、通讯终端与蓝牙设备基于蓝牙协议分别进行音频的发送和接收,蓝牙设备获取通讯终端的音频信号。
s4、构建音频识别模型,蓝牙设备通过音频识别模型对音频信号进行扫描,获取待识别样本。
s5、从音频数据库中提取商户收款用提示音频,利用音频识别模型的时域基音检测算法及过零率原始、一阶与二阶差分直方图分别提取商户收款用提示音频与待识别样本的特征序列。
s6、将获取的商户收款用提示音频与待识别样本的特征序列进行比对,相似度超过预设定阈值,判定为正在播报商户收款提示,蓝牙设备播放的后续固定长度的音频内容,低于预设定阈值,蓝牙设备过滤该音频。
在对音频信号进行分析和处理之前,必须对其进行预加重、分帧、加窗等预处理操作,这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对音频信号质量的影响,尽可能保证后续音频处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高音频处理质量。
步骤s1中的商户收款用提示音频优选具有支付、收款及转账功能的软件的提示音;步骤s3中的蓝牙协议优选a2dp协议,其中通讯终端通过音频发送单元(sendaudiostream)对音频进行编码(encoding)和加密(encryption(optional)),通过avdtp定义蓝牙设备之间数据流句柄的参数协商,建立和传输过程一级相互交换的信令实体形式,该协议是a2dp框架的基础协议,通过通讯终端的l2cap发送音频,蓝牙设备音频接收单元(receiveaudiostream)的l2cap接收音频进行解密(dncryption(optional))和解码(dncoding)。
步骤s3中获取到的音频信号为蓝牙设备对音频解码后的pcm信号,步骤s4中获取待识别样本具体为音频识别模型选取1s-5s的滑动窗口在pcm信号上进行扫描,选取1s-5s的待识别样本;滑动窗口优选1s的滑动窗口。
参考图3所示,商家收款提示音频和待识别样本的时域图并提取基音周期,分别标注样本和测试并分别提取139hz、153hz及206hz的基音周期,待识别样本的基音周期与商户收款用提示音频的基音周期进行相似度对比;基音周期是语音的一个非常重要的特征参数,由于语音信号是非平稳的时变信号,只有其中的浊音部分能够看作是准周期的,浊音的周期为基音周期,短时基音周期的估计也称为基音检测,利用基音周期检测算法提取出参考和待检测各一个特征序列,计算两个序列相似度。
音频识别模型的时域基音检测算法对商户收款用提示音频与待识别样本的特征序列进行短时分析的分帧处理,分帧贯穿于音频识别分析全过程的是“短时分析技术”,语音信号具有时变特性,但是在一个短时间范围内,一般认为在10-40ms的短时间内,其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音音频信号具有短时平稳性,任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为10-40ms;并在帧长与帧间隔上分别设置取样点;本实施例帧长选取20-30ms,特别是帧长优选30ms,帧长与帧间隔上均设置120个取样点。
音频识别模型还包括用于动态调整商户收款用提示音频与待识别样本的算法,通过算法计算商户收款用提示音频与待识别样本取样点之间的距离并动态规划出两者之间的最短距离,通过对比并判断商户收款用提示音频与待识别样本的相似度,其中的算法优选dtw算法。
通讯终端为具有蓝牙通讯的电子终端设备,采用手机、平板设备、pc及银行收款设备。
本实施例在基于a2dp蓝牙协议的基础上构建音频数据库及音频识别模型,蓝牙设备将接收到通讯终端的音频进行扫描截取待识别样本,从音频数据库提取商户收款用提示音频,通过音频识别模型对商户收款用提示音频与待检测样本,分别利用时域基音检测算法进行特征序列的提取,通过对比两者的特征序列,相似度超过预设的阈值,其中阈值根据实际需求设定,可采用75-95%,优选相似度85%,判断为符合播报要求的内容,进行播报,否则过滤该音频;本实施例使用时域信号分析计算,采用基音周期及原始、一阶、二阶过零率直方图结合的技术实时检测预先采集的1秒到5秒的样本,如送入蓝牙设备的实时音频流中以样本开头,则蓝牙设备播放预设长度的音频流,其他的音频全部过滤,可用于微信及支付宝蓝牙收款音箱。
为了增加样本的区分度,本发明在基音周期的基础上还增加了过零率直方图计算,一秒音频的过零率直方图的区分度不够,因为直方图完全抹去了时序信息,假设语音采样率16000hz,每20ms即320个样本统计一次过零率,只有50个统计值,并且这些值的范围基本都会在0—50之间,通过引入一阶、二阶差分信号直方图,以10ms长度来统计,重叠50%,这样原始、一阶、二阶直方图各有200个值,直方图具有足够波动性来区分度待检测的样本。
本实施例在蓝牙设备中增加了音频识别模型,通过音频识别模型识别接收的音频内容,自动过滤无关信息,所采用的模型算法复杂度低,适用于低算力的蓝牙设备芯片;而采用时域上的基音检测和过零率直方图算法复杂度低,对蓝牙设备芯片的cpu和内存要求低,可以做到实时计算。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除