一种音频监测方法及系统与流程
本发明涉及监测技术领域,尤其涉及一种音频监测方法及系统。
背景技术:
随着人工智能和深度神经网络在图像,视频和语音等领域的发展,ai在音频领域,包括声音监测,网络音视频推荐等应用也越来越多。
目前,基于图像识别的视频监控技术在交通,公共安全、室内监控、网络监测的部分领域已经有比较成熟的应用,但依然存在一些普遍问题。
目前应用在安防领域的视频监控主要有以下两点缺陷:
(1)监控类别单一
视频监测的敏感事件种类较少,事件比较粗糙,例如路人求救,室内异常等通过现有技术还没有较为完善的应用。
(2)监控死角
摄像头存在死角,在实际生活中,例如婴儿啼哭,卫生间老人摔倒求救等事件受限于场景的隐私性而无法安装摄像头,导致无法监测。
为了扩大安防监控的监控领域,并弥补监控的死角,发明人发现基于声音事件检测技术以达到辅助监控完成更好的监测任务。发明人在实现本申请过程中发现几个关键问题:
在获取不同种类的敏感声音时,发现声音片段中具有明确
起始点的声音种类标签较难获得,而只包含声音种类不包含顺序和起始时间的弱标签比较容易获得;
为了降低监测时的虚警率,使用二级判别模型来对一级模型的结果做二次判别。
因此,有必要提供一种新的音频监测方法及系统,以解决上述技术问题。
技术实现要素:
本发明的主要目的在于提供一种音频监测方法及系统,旨在解决相关技术中,声音监测难于实现,且虚警率高的技术问题。
为实现上述目的,本发明提供的音频监测方法,包括如下步骤:
收集敏感训练数据,该数据的事件种类包含求救、哭喊、色情、枪声和吸收5种;
根据事件的种类给定对应的弱标签,通过一级定位模型来获取一段音频中每一帧发生各类敏感事件的定位概率;
然后根据定位概率在第一指定阈值范围下的持续时长来判断敏感事件的种类。
优选地,还包括如下步骤:
通过基于循环神经网络的判别模型来完成二次判定,最后验证判别模型输出的置信度是否处于第二指定阈值范围,以输出最后的检测结果。
为解决上述技术问题,本发明还提供一种音频监测系统,包括:
数据处理及特征提取模块,该模块用于:
数据处理:收集用于训练的敏感事件声音数据,收集的数据的种类包含求救、哭喊、色情、枪声及吸收;其中,不同应用场景下出现概率较高的数据作为吸收类数据,不包含求救、哭喊、色情、枪声的数据作为吸收类数据;
训练数据只需满足每条包含一个事件种类即可,单条数据的长度在5至20秒;
随机对训练数据添加环境噪声,混响,变速变调,以达到增加模型鲁棒性的效果;
特征处理:预加重,以25ms为一帧,10ms为帧移保持一部分重叠的分帧,使用汉明窗以平滑输入的语音信号以及快速傅里叶变换得到频域特征,利用梅尔滤波组对信号进行滤波,得到fbank特征;
在获得每一帧的特征后,为了获取时序信号的上下相关性,进行单位为5的拼帧,以降低运算的复杂度,每拼5帧后可以跳1帧进行下一段拼帧;
一级定位模型及判定逻辑模块,该模块用于:
定位模型:这一阶段主要由用于提取时序特征的rnn循环神经网络和聚合函数组成;
使用的训练数据是弱标签数据,因此在定位阶段,为了让模型区分不同种类的事件,通过一种线性聚合函数,对于出现某种事件的帧概率有放大作用,其余部分具有抑制的效果;
判断逻辑:在获得一条语音信号每一帧的定位概率p后,使用中值滤波来平滑事件的预测。
优选地,还包括:
二级判别模型及交叉验证模块,该模块用于:
判别模型:经过一级定位模型的判断后,模型会存在一部分数据误判,为了降低模型的虚警率;使用循环神经网络训练一个多对一的二级判别模型,使用和一级模型相同的训练数据,以实现并获得较高的准确率,对降低虚警率;
交叉验证:一级定位模型的输出概率值在满足判定逻辑的条件下,模型将其中被定为敏感事件的音频片段切出,单独输入到二级判别模型,如果对某条数据输出的判别概率在第二阈值范围内,那么才可以最终判定该数据属于某一种敏感事件。
本发明提供的一种本发明提供的音频监测方法及系统,包括如下步骤:收集敏感训练数据,该数据的事件种类包含求救、哭喊、色情、枪声和吸收5种;根据事件的种类给定对应的弱标签,通过一级定位模型来获取一段音频中每一帧发生各类敏感事件的定位概率;然后根据定位概率在第一指定阈值范围下的持续时长来判断敏感事件的种类。
本发明的检测方法具有检测范围广,覆盖率高,隐私性好等优点。对训练数据标签要求低,人工打标的成本低,易于实现,使用二级判定模型,可以降低虚警率。
(1)基于声音事件检测技术的敏感音频监测系统,其训练数据来源真实广泛,并且无需投入太多人力进行数据标注,节约了人力成本,提高了更新系统以检测更多种类敏感声音的效率。
测试表明,音频监测系统对于在不同场景下的目标声音均具有良好的监测效果,对提高各类安防监控的丰富性有较好的辅助作用。
(2)针对现实生活中获取音频的场景可能会比较复杂,在不同的应用场景下,吸收类的数据侧重点就不一样,例如在公共交通场景下,吸收类中的数据就要侧重车流声、鸣笛声、引擎声,最终模型才能具备对应场景下较好的监测能力。
(3)为了进一步提高模型的效果,一级定位模型要最大程度识别敏感事件,二级判别模型则是为了阻止音频中的相似音、误判音,通过两级模型的过滤,才能获得较好的监测性能。
(4)本发明主要是为了辅助现有的基于图像识别的视频监控系统,拓宽了监控系统的监测范围,从必须“眼见为实”升级到“耳听亦可为实”的多感官监控。
(5)本发明亦可单独使用在比较私密的隐私空间,例如公共交通枢纽的卫生间,室内婴儿自动看护等,对提高公共安全、个人安全都能起到一定的作用。
附图说明
图1为本发明提供的音频监测系统的流程结构图;
图2为本发明提供的音频监测系统的音频定位图;
图3为本发明提供的音频监测系统的一级模型训练过程图;
图4为本发明提供的音频监测系统的一级模型的判定逻辑图;
图5为本发明提供的音频监测系统的模型内部结构图;
图6为本发明提供的音频监测系统的敏感声音定位图;
图7为本发明提供的音频监测系统的二级模型的错误率图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为实现上述目的,本发明的一实施例中,提出一种音频监测方法,包括如下步骤:
收集敏感训练数据,该数据的事件种类包含求救、哭喊、色情、枪声和吸收5种;
根据事件的种类给定对应的弱标签,通过一级定位模型来获取一段音频中每一帧发生各类敏感事件的定位概率;
然后根据定位概率在第一指定阈值范围下的持续时长来判断敏感事件的种类。
还包括如下步骤:
通过基于循环神经网络的判别模型来完成二次判定,最后验证判别模型输出的置信度是否处于第二指定阈值范围,以输出最后的检测结果。
本发明还提供一种音频监测系统。
请参阅图1,音频监测方法系统包括:
数据处理及特征提取模块,该模块用于:
数据处理:收集用于训练的敏感事件声音数据,收集的数据的种类包含求救、哭喊、色情、枪声及吸收;其中,不同应用场景下出现概率较高的数据作为吸收类数据;不包含求救、哭喊、色情、枪声的数据作为吸收类数据
训练数据只需满足每条包含一个事件种类即可,单条数据的长度在5至20秒;
随机对训练数据添加环境噪声,混响,变速变调,以达到增加模型鲁棒性的效果;
吸收类数据可以是,例如:室内环境的人声,电视背景音,室外环境的车辆引擎声,鸣笛声等。最后,随机对训练数据添加环境噪声,混响,变速变调以达到增加模型鲁棒性的效果。
特征处理:预加重,以25ms为一帧,10ms为帧移保持一部分重叠的分帧,使用汉明窗以平滑输入的语音信号以及快速傅里叶变换得到频域特征,利用梅尔滤波组对信号进行滤波,得到fbank特征;
在获得每一帧的特征后,为了获取时序信号的上下相关性,进行单位为5的拼帧,以降低运算的复杂度,每拼5帧后可以跳1帧进行下一段拼帧;
一级定位模型及判定逻辑模块,该模块用于:
定位模型:这一阶段主要由用于提取时序特征的rnn循环神经网络和聚合函数组成;
使用的训练数据是弱标签数据,因此在定位阶段,为了让模型区分不同种类的事件,通过一种线性聚合函数,对于出现某种事件的帧概率有放大作用,其余部分具有抑制的效果;
具体的,由于本发明使用的训练数据是弱标签数据,因此在定位阶段,为了让模型区分不同种类的事件,本发明通过一种线性聚合函数,对于出现某种事件的帧概率有放大作用,其余部分具有抑制的效果,从概率定位图2中能看出模型的定位效果。如图所示,音频的静音部分与非静音部分被明显区分开,对于目标音频,模型判断其前一时刻的概率yi的值趋向于0,对于事件发生时刻的概率yi+k判断趋向于1,这也是本发明的核心技术体现。
图3展示了一级定位模型的训练过程。如图所示,fbank特征在拼帧后输入rnn模型,得到每一帧信号的定位概率
对应的交叉熵损失函数为:
loss=-tlogy-(1-t)log(1-y)
其中t为真实标签,y为聚合函数的输出。
判断逻辑:在获得一条语音信号每一帧的定位概率p后,使用中值滤波来平滑事件的预测。
但对于发生时间较短的声音事件需要谨慎使用。
为了降低音频中的一些噪声和相似声音对定位效果的影响,本发明还需要经过如下图所示的判断逻辑,进一步通过约束敏感声音的持续时长来保证模型的准确性。
请参阅图4,本发明的一级定位模型需要保证较高的召回率,二级模型需要较高的准确率,因此对于每一帧判定概率阈值较低,我们设为0.6,从第一帧开始判断是否大于阈值,如果大于0.6则事件可能发生,接着持续帧数是否大于mintarget,若是则将首次大于0.6的时间帧设为起始点,判断信号是否结束的依据是小于0.6的持续帧数是否大于maxsilence,若是,则确定起始点后首次小于0.6的时间帧为事件结束时刻,并缓存当前持续帧数,按照上述逻辑重新计算小于0.6的持续帧数后与缓存帧数相加,判断累计帧数是否大于合并时长1.5s,若是,则切出对应的缓存片段到当前结束帧的音频。
此外,若小于0.6的持续帧数小于maxsilence,则认为该短暂的停顿片段依旧属于该目标事件,即目标信号依旧在进行。如此反复执行,就可以得到不同敏感事件在一条音频上的起始点信息,这些音频片段作为二级判别模型的输入,来完成进一步过滤。
所述音频监测系统还包括:
二级判别模型及交叉验证模块,该模块用于:
判别模型:经过一级定位模型的判断后,模型会存在一部分数据误判,为了降低模型的虚警率;使用循环神经网络训练一个多对一的二级判别模型,使用和一级模型相同的训练数据,以实现并获得较高的准确率,对降低虚警率;
交叉验证:一级定位模型的输出概率值在满足判定逻辑的条件下,模型将其中被定为敏感事件的音频片段切出,单独输入到二级判别模型,如果对某条数据输出的判别概率在第二阈值范围内,以最终判定该数据属于某一种敏感事件。
请参阅图5,数据处理及特征提取模块,进一步地,具体的训练数据标签除了四类敏感事件‘porn’,‘gun’,‘cry’,‘scream’以外,还包括一个吸收类‘others’,对其中每一类的数据,对其添加环境噪声、加混响、变速变调等扩增的数据各占原始数据的10%。
在提取fbank特征后,选择的拼帧长度与音频中发生事件的长短有关,如哭声、色情声往往会有较长的持续时间,拼帧长度略长可以捕获更加完整的短时连续性,而枪声、尖叫声发生时,持续时间可能很短,使用较短的拼帧才不会丢失信息。
本发明在实验对比不同的拼帧长度后最终采用长度为5的拼帧,对不同时长的训练数据都有较好的效果。
一级定位模型及判定逻辑模块。
语音信号经过特征提取模块后,特征被送入rnn模型中来对敏感声音检测和定位,得到预测概率矩阵,通过判断逻辑后再对其做2次判别。一段10s的语音信号在经过上述特征处理后,模型的输入就是998*130,定位模型的结构是两层rnn和一层全链接,输出目标为5类,输出就是998*5的概率矩阵,每一列代表对应声音事件的定位概率。
如图6所示,在一条语音数据中,同时出现了3类敏感声音数据,分别‘cry’,‘gun’,‘porn’,事件发生的起始点非常明显,模型对不同的数据各自都有明显的定位效果,这也为准确切出敏感音并做二次判别提供了保证。
由于在定位时使用的概率是帧概率,粒度较小,而很多声音在较短的时间片段内具有很高的混淆性,例如:色情声和婴儿哭声,枪声和汽车引擎声,为了提高判定的准确率,敏感声音的持续时间需要满足一定时长,才能提高定位模型的拒识率。
二级判别模型及交叉验证模块
经过判定逻辑的过滤后,依然会有部分从未出现在训练数据里的未知声音会被误判,为了降低这一部分数据带来的误识,基于循环神经网络的多对一结构来训练二级判别模型就显得至关重要。根据判别逻辑将每一类事件发生的片段单独切出,再通过判别模型对输入片段给出其属于某类敏感音的置信度,才能最终确定敏感事件是否正在发生。
如图7所示,判别模型的等错误率eer在阈值为0.8是时约为0.078,等错误率的值越小,意味着判别模型对负样本的虚警率和正样本的漏检率就越小,模型的过滤效果就越好。
基于声音事件检测技术的敏感音频监测系统,其训练数据来源真实广泛,并且无需投入太多人力进行数据标注,节约了人力成本,提高了更新系统以检测更多种类敏感声音的效率。
测试表明,音频监测系统对于在不同场景下的目标声音均具有良好的监测效果,对提高各类安防监控的丰富性有较好的辅助作用。
(2)针对现实生活中获取音频的场景可能会比较复杂,在不同的应用场景下,吸收类的数据侧重点就不一样,例如在公共交通场景下,吸收类中的数据就要侧重车流声、鸣笛声、引擎声,最终模型才能具备对应场景下较好的监测能力。
(3)为了进一步提高模型的效果,一级定位模型要最大程度识别敏感事件,二级判别模型则是为了阻止音频中的相似音、误判音,通过两级模型的过滤,才能获得较好的监测性能。
(4)本发明主要是为了辅助现有的基于图像识别的视频监控系统,拓宽了监控系统的监测范围,从必须“眼见为实”升级到“耳听亦可为实”的多感官监控。
(5)本发明亦可单独使用在比较私密的隐私空间,例如公共交通枢纽的卫生间,室内婴儿自动看护等,对提高公共安全、个人安全都能起到一定的作用。
在本发明的其他实施例中:
(1)在定位模型中,为了提高模型提取深层特征的能力,可以在rnn模块之前增加卷积神经网络cnn,但会对模型的运行速度及效率都有一定程度的影响
(2)如果不考虑数据标注成本,使用强监督的标签数据,也就是明确事件发生顺序以及起始点的标签,本发明可以尝试使用ctc损失函数来训练模型,同样可以达到检测敏感事件的效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。
在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第x实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除