基于卷神经网络的年龄识别方法、装置及终端与流程
本发明涉及信息处理技术领域,具体涉及为一种基于卷神经网络的年龄识别方法、装置及终端。
背景技术:
在日常的工作生活中,普遍采用面部识别的方式进行年龄识别,而在一些特定的情况下,由于面部信息无法获取,导致无法通过面部识别的方式进行年龄识别。
而语音信息,在某些特定的任务和环境中,可以被用来采集和识别,以便获取有价值的信息。例如,在刑侦案中,由于获取嫌疑人的信息量较少,可以通过获取的音频信息识别嫌疑人的年龄段,缩小警察的排除范围。在申请号为201910076388.6的专利申请中,公开了一种基于预设神经网络的年龄识别装置,其通过迭代训练,至预测误差小于设定阈值,完成网络模型的训练。
现有的年龄识别方法往往需要采集大量的数据信息,而采集的信息的差异又会给数据的识别带来干扰,导致年龄识别不准确。
技术实现要素:
鉴于上述状况,实有必要提供一种识别效率高且识别结果准确的基于卷神经网络的年龄识别方法、装置及终端,以解决上述问题。
本发明提供了一种基于卷神经网络的年龄识别方法,包括:
采集不同年龄段的音频数据,根据音频数据的年龄段的不同将采集到的数据分为n个类别;
构建多分类的卷神经网络年龄段分类模型,依据不同年龄段的发音习惯差异、频率的变化特征,采用合适的分类器对所述音频数据进行分类;
利用卷神经网络进行分类模型的训练,对音频数据进行划分,分为训练集和测试集,对音频数据做vad处理并进行特征提取,构建网络结构并进行模型训练,若干次迭代后得到训练好的模型;
输入测试音频,先提取测试音频的音频特征,然后输入至训练好的网络模型中进行测试;
输出年龄段信息,根据训练好的网络模型输出的信息进行结果的匹配,判断结果属于哪一个年龄段,并输出年龄段信息。
进一步地,所述利用卷神经网络进行分类模型的训练包括:
对所述音频数据进行划分,取出所有的收集的音频数据的80%为训练集,20%为测试集;
对所述音频数据进行vad处理,切除所述音频数据的静音段,对经过vad处理后的音频数据进行截取,截取成4s每段;
特征提取,对经vad处理后的音频数据提取stft特征,底层声学特征采用257维stft特征;
构建网络结构并进行模型训练,输出层采用n个节点softmax层,利用独热码one-hot表示所属年龄段;
网络参数的更新,网络采用损失函数为交叉熵损失,采用adam算法进行网络参数的更新,通过若干次迭代得到训练好的模型。
进一步地,所述网络结构具体包括:
第一层:dnn层,第二层:dnn层,第三层:dnn层,第四层:cnn层,第五-七层:cnn层,第八层:池化层,第九层:全连接层。
进一步地,在构建网络结构并进行模型训练中加入dropout操作,防止模型过拟合。
进一步地,所述采集不同年龄段的音频数据包括:
输入所述音频信息;
进行前端预处理,包括信号处理和特征提取;
基于声学模型和语言模型对所述音频信息进行后端处理;
输出语音识别结果。
进一步地,所述音频信息的特征提取包括:
对所述音频信息进行预处理;
对每一帧音频信息进行信号变换得到幅度谱;
对幅度谱加mel滤波器组;
对滤波器输出做对数运算,再做一步离散余弦变换得mfcc特征。
本申请还提出了一种基于卷神经网络的年龄识别装置,包括:
音频采集模块,用于采集不同年龄段的音频数据信息;
分类模型构建模块,用于构建多分类的卷神经网络年龄段分类模型;
分类模型训练模块,利用卷神经网络进行分类模型的训练;
测试音频输入模块,用于提取测试音频的音频特征;
年龄段信息输出模块,判断结果属于哪一个年龄段,并输出年龄段信息。
进一步地,所述音频采集模块包括:
预处理模块,用于进行信号处理和特征提取;
后端处理模块,用于对所述音频信息进行后端处理。
本申请还提出了一种终端设备,包括存储器和处理器,其特征在于,所述处理器用于执行所述计算机程序时实现本申请方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本申请所述方法的步骤。
本发明提供的基于卷神经网络的年龄识别方法,通过采集音频数据,并对音频数据进行处理,进一步提取音频数据的特征,保证采集的不同音频数据的同一性,不受无关因素的干扰;通过构建多分类的卷神经网络年龄段分类模型,并进行模型训练,若干次迭代后得到训练好的模型,进一步判断结果并输出年龄段信息。相对于现有技术,本申请能够准确识别音频数据,采用本申请的卷神经网络模型,基于音频数据对于年龄识别,识别结果准确,效率更高。
附图说明
图1是本发明的一个实施例中的基于卷神经网络的年龄识别方法具体流程示意图。
图2是本发明一个实施例中的基于卷神经网络的模型训练示意图。
图3是本发明一个实施例中的音频数据的采集具体流程示意图。
图4是本发明的一个实施例中的音频信息的特征提取示意图。
图5是本发明的一个实施例中的音频信息的信号变换示意图图。
图6是本发明的基于卷神经网络的年龄识别装置具体结构框图。
图7是本发明的一个实施例中的音频采集模块的结构框图。
图8是本发明的一个实施例的终端具体结构框图。
主要元件符号说明
终端100
音频采集模块11
预处理模块111
后端处理模块11
分类模型构建模块120
分类模型训练模块130
测试音频输入模块140
年龄段信息输出模块150
处理器21
存储器22
ram221
高速缓存222
存储系统223
程序模块224
i/o接口230
网络适配器240
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
另外还需要说明的是,为了便于描述,附图中仅出示了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描绘成顺序的处理,但是其中的很多操作可以被并行地、并发地或者同时实施。此外,各种操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
请参阅图1,本发明提供了一种基于卷神经网络的年龄识别方法,本实施例的方法可以通过基于卷神经网络的年龄识别装置来执行,该装置可通过硬件或软件的方式来实现,并一般可集成于设备中,例如服务器等。本实施例的方法具体包括:
s100、采集不同年龄段的音频数据。
在本实施例中,采集音频数据后,依据所述音频数据所属的年龄段,将数据分为n个类别。
s200、构建多分类的卷神经网络年龄段分类模型。
在本实施例中,依据不同年龄段的发音习惯差异、频率的变化特征,采用合适的分类器对所述音频数据进行分类。
s300、利用卷神经网络进行分类模型的训练。
在本实施例中,首先对音频数据进行划分,分为训练集和测试集,对音频数据做vad处理并进行特征提取,构建网络结构并进行模型训练,经若干次迭代后得到训练好的模型。
s400、输入测试音频。
在输入测试音频前,先提取测试音频的音频特征,然后输入至训练好的网络模型中进行测试。
s500、输出年龄段信息。
根据训练好的网络模型输出的信息进行结果的匹配,判断结果属于哪一个年龄段,并输出年龄段信息。
本发明实施例提供的基于卷神经网络的年龄识别方法,通过采集音频数据,构建卷神经网络分类模型,进一步进行年龄段的识别,识别结果准确,识别效率高。
图2给出了基于卷神经网络的模型训练示意图。如图2所示,利用卷神经网络进行分类模型的训练包括:
s310、对所述音频数据进行划分。
在本实施例中,取出所有的收集的音频数据的80%为训练集,20%为测试集。
s320、对所述音频数据进行vad处理。
切除所述音频数据的静音段,对经过vad处理后的音频数据进行截取,截取成4s每段。
需要说明的是采用vad处理,即语音端点检测技术,把静音和实际语音分离开,进一步对实际语音进行截取处理。
s330、特征提取。
对经vad处理后的音频数据提取stft特征,底层声学特征采用257维stft特征;
在本实施例中,采用短时傅里叶变换(stft),也就是采用一系列加窗傅里叶变换提取音频数据特征。
s340、构建网络结构并进行模型训练。
在本实施例中,所述网络结构具体为:
进一步地,在网络结构上,模型中加入了dropout操作,防止模型过拟合。
其中,输出层采用n个节点softmax层,利用独热码one-hot表示所属年龄段。示例性地,年龄段排列顺序为:0-5岁、5-10岁、10-15岁、15-20岁…,则0-5岁表示为:1000…,5-10岁表示为:0100…,10-15岁表示为:0010…。
s350、网络参数的更新。
在本实施例中,网络采用损失函数为交叉熵损失,采用adam算法进行网络参数的更新,通过若干次迭代得到训练好的模型。
进一步地,adam算法通过初始化、迭代处理、计算加权平均数、修正偏差、更新权重等步骤进行网络参数的更新,通过若干次迭代后得到训练好的模型。
在本实施例中,通过对采集的音频数据进行vad处理,并进一步提取音频数据的数据特征,构建网络结构进行模型训练,进一步的采用adam算法进行网络参数的更新,保证音频数据采集后的识别度,提高本发明的年龄识别的准确度。
图3是音频数据的采集具体流程示意图。如图3所示,所述采集不同年龄段的音频数据包括:
输入所述音频信息;
进行前端预处理,包括信号处理和特征提取;
基于声学模型和语言模型对所述音频信息进行后端处理;
输出语音识别结果。
在本实施例中,采用声学模型和语言模型相结合,将声学和发音学的信息相整合,以采集到的音频数据为初入,得到音频的识别结果。
图4是音频信息的特征提取示意图。请参阅图4,所述音频信息的特征提取包括:
对所述音频信息进行预处理;
对每一帧音频信息进行信号变换得到幅度谱;
对幅度谱加mel滤波器组;
对滤波器输出做对数运算,再做一步离散余弦变换得mfcc特征。
在本实施例中,音频信息的预处理为分帧处理,即将语音流分成一段一段来处理。其中,预加重是在发送端实现对语音信号的高帧分量进行补偿,从而减少尖锐噪声的影响,提升高频部分。
预处理后,对音频信息进行傅里叶信号变换,具体可参见图5。在本实施例中,每帧音频通过傅里叶变换可以得到一个向量,对应各频点的大小。基于此,通过将多个帧放在一起,即可得到幅度谱图。
进一步地,得到幅度谱图后,对幅度谱加滤波器组,对滤波器组输出做对数运算,进一步通过离散余弦变换得到动态特征,从而输出特征向量。
本实施例提供的音频信息的特征提取,能够快速高效的处理音频信息,并进一步输出特征向量,有效提高了基于卷神经网络的年龄识别的效率。
图6是本发明的基于卷神经网络的年龄识别装置具体结构框图。如图6所示,所述装置包括:
音频采集模块110,用于采集不同年龄段的音频数据信息;
分类模型构建模块120,用于构建多分类的卷神经网络年龄段分类模型;
分类模型训练模块130,利用卷神经网络进行分类模型的训练;
测试音频输入模块140,用于提取测试音频的音频特征;
年龄段信息输出模块150,判断结果属于哪一个年龄段,并输出年龄段信息。
进一步地,如图7所示,所述音频采集模块包括:
预处理模块111,用于进行信号处理和特征提取;
后端处理模块112,用于对所述音频信息进行后端处理。
本实施例提供的基于卷神经网络的年龄识别装置,通过采集音频数据,构建卷神经网络分类模型,进一步进行年龄段的识别,识别结果准确,识别效率高。
图8为本发明实施例提供的一种终端的结构框图。图8给出的终端100适于用来实现本发明的实施方式。图8显示的终端100仅仅是一个示例,不应对本发明实施例的功能和适用范围带来任何限制。
如图8所示,终端100的组件可以包括但不限于:一个或者多个处理器16,系统存储器220。在本实施例中,终端100包括多种计算机系统可读介质。这些介质可以是任何能够被终端100访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器220可以包括易失性存储器形式的计算机系统可读介质,例如随机存储存储器(ram221)和或/高速缓存存储器222。存储器220可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块224,这些程序模块被配置以执行本发明各实施例的功能。
所述终端100可与一个或多个使得用户能与该终端100交互的终端通信,这种通信可通过输入/输出(i/o)接口230进行。所述终端100还可以通过网络适配器240与一个或多个网络(例如局域网、广域网及英特网等)通信。
所述处理器210通过运行存储在存储器220中的程序,从而执行各项功能应用以及数据处理,例如本发明实施例所提供的基于卷神经网络的年龄识别方法。
本发明的实施例还提供了一种计算机可读的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的基于卷神经网络的年龄识别方法。在本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。
本实施例的计算机可读的存储介质可以是电、磁、光或半导体的系统、装置或器件,或任意以上的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或器件使用或者与其结合使用。
在本发明的实施例中,可以以一种或多种程序设计语言或其组合来编写用于本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如java、smalltalk、c++,还包括常规的过程式设计语言。程序代码可完全地、部分地或者远程地在计算机上执行。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除