一种基于迁移学习的暴恐音频检测方法与流程
2021-01-28 16:01:23|366|起点商标网
本发明涉及网络传播的音视频中暴恐音频的检测问题,尤其是涉及一种基于迁移学习的暴恐音频检测方法。
背景技术:
::随着近年来互联网与电影行业的快速发展,网络上包含的音视频信息与日俱增,为用户所共享的音视频中不乏包含有暴力恐怖音视频,这些暴恐音视频将产生不良的网络环境,对缺乏判断力的未成年人产生负面影响。通常情况下,对网络暴力元素的检测可以使用视频或音频特征,也可以两者相结合,由于音频在处理速度上较快于视频处理速度,对于实时性要求比较高的场景,使用音频特征的检测更具优势。目前学术界关于暴恐音频的检测方法主要基于传统的机器学习算法,采用svm分类器或knn分类器。但由于传统的机器学习算法在训练数据较多的时候,需要计算的核矩阵大小也会增大,将会使训练效率降低,而较少的训练数据又限制了检测效果。于是本发明将卷积神经网络(cnn)应用于暴恐音频的检测中,但暴恐音频来源受限并且数量较少,而cnn往往需要希望有足够多的数据训练,于是本发明将迁移学习技术引入暴恐音频的检测中。迁移学习的核心是利用已有的知识,去解决不同但相关领域的问题,即以一个环境中学到的知识为基础解决另一个环境中的学习任务,考虑到本发明属于有监督到有监督的类型,于是采用fine-tune的迁移学习方法。在训练方法中fine-tune基于一个预训练好的模型,采用相同的网络结构,使用不同于预训练好模型的数据,根据所要完成任务的要求,调整输出,在预训练好的模型参数上进行再训练,是一种解决小数据库训练的方法。技术实现要素:本发明提出了一种基于迁移学习的暴恐音频检测方法,首先预训练网络得到预训练模型,然后使用暴恐音频数据集在预训练模型上继续训练,并改进迁移学习网络结构。本发明通过以下技术方案来实现上述目的:(1)提取音频对数梅尔频谱特征;(2)将tut音频数据集作为源音频数据,在步骤(1)后,预训练网络得到预训练模型;(3)将暴恐音频数据集作为目标音频数据,在步骤(1)后,微调步骤(2)的网络结构,继续训练预训练模型得到微调后的模型;(4)在步骤(3)的网络结构中添加辅助网络,并将辅助网络部分的输出特征与输入特征聚合在一起共同输入分类层。附图说明图1基于迁移学习的暴恐音频检测方法总体框架图;图2添加辅助网络结构的迁移学习方法框图。具体实施方式下面结合附图对本发明作进一步说明:提取音频对数梅尔频谱特征的具体方法如下:通过预加重、分帧、加窗、快速傅里叶变换、取绝对值、梅尔滤波、取对数提取音频对数梅尔频谱特征。本发明产生对数梅尔频谱图的参数为:音频信号的采样率为44.1khz,预加重系数为0.97,采用汉明窗进行分帧,快速傅里叶变换窗口长度为50ms,相邻窗之间的距离为20ms,每帧包含2205个采样点,梅尔滤波器的个数为200,最终每个10秒长的音频转化为数组形式,维度为200行、500列。得到预训练模型的具体方法如下:搭建预训练网络结构,在提取tut数据集中音频的对数梅尔频谱特征后,将每段音频输入卷积神经网络进行预训练,搭建的预训练网络结构采用三层卷积层,输入层是200×500的特征图,第一层卷积层使用200×50大小的卷积核,通道数为100,第二层和第三层卷积层均使用1×1大小的卷积核,通道数分别为100和15,预训练网络结构学习率为0.01,交叉熵作为损失函数,批大小为64,600次迭代,采用全局平均池化层替代全连接层。迁移预训练模型与网络的过程如下:微调预训练网络结构,具体做法是保留预训练网络结构的前两层卷积层,第三层采用1×1大小的卷积核,通道数为2,降低学习率,学习率为0.001,交叉熵作为损失函数,批大小为64,减少迭代次数,迭代300次,提取暴恐音频数据集中音频的对数梅尔频谱特征,在预训练模型上继续训练。添加辅助网络结构的迁移学习方法如下:以迁移学习网络模型作为基础网络,在截断的基础网络的末尾追加了几个特征层,这部分称为辅助结构,辅助网络部分采用三个连续的滤波器大小为1×50、1×1、1×1的卷积层,将这一部分得到的特征图与输入特征图聚合在一起,共同输入分类层:f2=ω3(σ(ω2σ(ω1f1)))(1)f3=concatenate(f1,f2)(2)其中公式(1)中f1是基础网络的输出,也是辅助网络的输入,f2是辅助网络的输出,σ为激活函数,ωi(i=1,2,3)为辅助结构中三个卷积层权重,采用均匀分布初始化权重。公式(2)表示的意思是采用keras中concatenate函数,实现了原始cnn网络特征图与辅助网络特征图的数据叠加。下面说明引入辅助网络的原理。假设οn是网络第n层的输出特征图,in是n层的输入也是第n-1层的输出,每一层输出特征图的计算公式如下:on=fn(in,ωn,bn)(3)辅助网络跨越多层,将输入通过恒等映射转换成输出,此时每一层的梯度计算公式如下:由公式(4)可见在网络中加入辅助网络,可以使得梯度在反向传播时永远大于或等于1,这样就不会影响深层网络的训练。为了验证本发明的提出的基于迁移学习的暴恐音频检测方法的有效性,预训练网络部分使用tut数据集,迁移学习网络部分训练与测试数据集组成如下:从youtube中下载了网友录制的一些恐怖袭击现场音频,同时也选取了少部分电影中的暴恐镜头音频,根据枪声、尖叫声、爆炸声、警报声、打斗声等截取音频。正常音频包括综艺节目片段、电影片段与生活场景音频,包含了笑声、说话声、鼓掌声、音乐声等。建立的数据集共699个音频片段,由于音频段时长各异,制作数据集时统一将尺寸设定为每个音频10秒,其中正常音频片段348个,250个正常音频用于训练,98个正常音频用于测试,暴恐音频片段351个,250个暴恐音频用于训练,101个暴恐音频用于测试。音频库分布如表1。表1音频分布表tab.1thetableofaudiodistribution利用最终得到的暴恐音频检测模型在测试集的199个音频片段上进行测试,得到未使用迁移学习与使用迁移学习,以及未改进cnn与改进cnn后得到的检测效果分别如表2所示,同时使用传统svm分类器进行比较。表2实验结果tab.2experimentalresult由实验一结果与实验二结果对比可得,传统机器学习方法对于暴恐音频的检测不如深度学习方法,而使用fine-tune的迁移学习方法比未使用迁移学习的方法在暴恐音频测试集上获得了更高的检测率。同时,实验四表明叠加辅助网络结构后对于暴恐音频和正常音频的检测率都有所提高,平均检测率相比于未添加辅助网络的提高了1.01%,可见叠加的辅助网络可以得到更加可靠的特征提取效果。当前第1页1 2 3 当前第1页1 2 3 
背景技术:
::随着近年来互联网与电影行业的快速发展,网络上包含的音视频信息与日俱增,为用户所共享的音视频中不乏包含有暴力恐怖音视频,这些暴恐音视频将产生不良的网络环境,对缺乏判断力的未成年人产生负面影响。通常情况下,对网络暴力元素的检测可以使用视频或音频特征,也可以两者相结合,由于音频在处理速度上较快于视频处理速度,对于实时性要求比较高的场景,使用音频特征的检测更具优势。目前学术界关于暴恐音频的检测方法主要基于传统的机器学习算法,采用svm分类器或knn分类器。但由于传统的机器学习算法在训练数据较多的时候,需要计算的核矩阵大小也会增大,将会使训练效率降低,而较少的训练数据又限制了检测效果。于是本发明将卷积神经网络(cnn)应用于暴恐音频的检测中,但暴恐音频来源受限并且数量较少,而cnn往往需要希望有足够多的数据训练,于是本发明将迁移学习技术引入暴恐音频的检测中。迁移学习的核心是利用已有的知识,去解决不同但相关领域的问题,即以一个环境中学到的知识为基础解决另一个环境中的学习任务,考虑到本发明属于有监督到有监督的类型,于是采用fine-tune的迁移学习方法。在训练方法中fine-tune基于一个预训练好的模型,采用相同的网络结构,使用不同于预训练好模型的数据,根据所要完成任务的要求,调整输出,在预训练好的模型参数上进行再训练,是一种解决小数据库训练的方法。技术实现要素:本发明提出了一种基于迁移学习的暴恐音频检测方法,首先预训练网络得到预训练模型,然后使用暴恐音频数据集在预训练模型上继续训练,并改进迁移学习网络结构。本发明通过以下技术方案来实现上述目的:(1)提取音频对数梅尔频谱特征;(2)将tut音频数据集作为源音频数据,在步骤(1)后,预训练网络得到预训练模型;(3)将暴恐音频数据集作为目标音频数据,在步骤(1)后,微调步骤(2)的网络结构,继续训练预训练模型得到微调后的模型;(4)在步骤(3)的网络结构中添加辅助网络,并将辅助网络部分的输出特征与输入特征聚合在一起共同输入分类层。附图说明图1基于迁移学习的暴恐音频检测方法总体框架图;图2添加辅助网络结构的迁移学习方法框图。具体实施方式下面结合附图对本发明作进一步说明:提取音频对数梅尔频谱特征的具体方法如下:通过预加重、分帧、加窗、快速傅里叶变换、取绝对值、梅尔滤波、取对数提取音频对数梅尔频谱特征。本发明产生对数梅尔频谱图的参数为:音频信号的采样率为44.1khz,预加重系数为0.97,采用汉明窗进行分帧,快速傅里叶变换窗口长度为50ms,相邻窗之间的距离为20ms,每帧包含2205个采样点,梅尔滤波器的个数为200,最终每个10秒长的音频转化为数组形式,维度为200行、500列。得到预训练模型的具体方法如下:搭建预训练网络结构,在提取tut数据集中音频的对数梅尔频谱特征后,将每段音频输入卷积神经网络进行预训练,搭建的预训练网络结构采用三层卷积层,输入层是200×500的特征图,第一层卷积层使用200×50大小的卷积核,通道数为100,第二层和第三层卷积层均使用1×1大小的卷积核,通道数分别为100和15,预训练网络结构学习率为0.01,交叉熵作为损失函数,批大小为64,600次迭代,采用全局平均池化层替代全连接层。迁移预训练模型与网络的过程如下:微调预训练网络结构,具体做法是保留预训练网络结构的前两层卷积层,第三层采用1×1大小的卷积核,通道数为2,降低学习率,学习率为0.001,交叉熵作为损失函数,批大小为64,减少迭代次数,迭代300次,提取暴恐音频数据集中音频的对数梅尔频谱特征,在预训练模型上继续训练。添加辅助网络结构的迁移学习方法如下:以迁移学习网络模型作为基础网络,在截断的基础网络的末尾追加了几个特征层,这部分称为辅助结构,辅助网络部分采用三个连续的滤波器大小为1×50、1×1、1×1的卷积层,将这一部分得到的特征图与输入特征图聚合在一起,共同输入分类层:f2=ω3(σ(ω2σ(ω1f1)))(1)f3=concatenate(f1,f2)(2)其中公式(1)中f1是基础网络的输出,也是辅助网络的输入,f2是辅助网络的输出,σ为激活函数,ωi(i=1,2,3)为辅助结构中三个卷积层权重,采用均匀分布初始化权重。公式(2)表示的意思是采用keras中concatenate函数,实现了原始cnn网络特征图与辅助网络特征图的数据叠加。下面说明引入辅助网络的原理。假设οn是网络第n层的输出特征图,in是n层的输入也是第n-1层的输出,每一层输出特征图的计算公式如下:on=fn(in,ωn,bn)(3)辅助网络跨越多层,将输入通过恒等映射转换成输出,此时每一层的梯度计算公式如下:由公式(4)可见在网络中加入辅助网络,可以使得梯度在反向传播时永远大于或等于1,这样就不会影响深层网络的训练。为了验证本发明的提出的基于迁移学习的暴恐音频检测方法的有效性,预训练网络部分使用tut数据集,迁移学习网络部分训练与测试数据集组成如下:从youtube中下载了网友录制的一些恐怖袭击现场音频,同时也选取了少部分电影中的暴恐镜头音频,根据枪声、尖叫声、爆炸声、警报声、打斗声等截取音频。正常音频包括综艺节目片段、电影片段与生活场景音频,包含了笑声、说话声、鼓掌声、音乐声等。建立的数据集共699个音频片段,由于音频段时长各异,制作数据集时统一将尺寸设定为每个音频10秒,其中正常音频片段348个,250个正常音频用于训练,98个正常音频用于测试,暴恐音频片段351个,250个暴恐音频用于训练,101个暴恐音频用于测试。音频库分布如表1。表1音频分布表tab.1thetableofaudiodistribution利用最终得到的暴恐音频检测模型在测试集的199个音频片段上进行测试,得到未使用迁移学习与使用迁移学习,以及未改进cnn与改进cnn后得到的检测效果分别如表2所示,同时使用传统svm分类器进行比较。表2实验结果tab.2experimentalresult由实验一结果与实验二结果对比可得,传统机器学习方法对于暴恐音频的检测不如深度学习方法,而使用fine-tune的迁移学习方法比未使用迁移学习的方法在暴恐音频测试集上获得了更高的检测率。同时,实验四表明叠加辅助网络结构后对于暴恐音频和正常音频的检测率都有所提高,平均检测率相比于未添加辅助网络的提高了1.01%,可见叠加的辅助网络可以得到更加可靠的特征提取效果。当前第1页1 2 3 当前第1页1 2 3 
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
热门咨询
tips