HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种语音情感识别方法、系统、计算机设备和存储介质与流程

2021-01-28 17:01:45|430|起点商标网
一种语音情感识别方法、系统、计算机设备和存储介质与流程
本发明涉及语音情感识别
技术领域:
,尤其是一种语音情感识别方法、系统、计算机设备和存储介质。
背景技术:
:随着人们对于智能生活的要求不断提高,人机交互已经成为了当今ai研究的趋势之一。如何可以更好地实现人机交互,是一个值得深究的问题,在不断地语音识别研究中,人们发现情感信息对一个人的语义理解有着极大的帮助。为了使计算机可以像人一样与人类“交流”,语音情感识别逐渐成为了智能人机交互领域的研究热点。目前情感识别研究领域中,最主要的途径就是通过对人的生理信息,例如声音信号、脉搏信号、脑电信号、面部表情、身体形态等一种信号分析或多种信号的多模分析,利用识别技术进行训练学习和类型识别判断。所以通过对语音进行情感研究是合理且有效的。现有技术中,在原始数据的预处理过程中,大多数情况下只针对数据的清洗和降噪,对于情感和语义的信息数据并没有做任何的改变,这导致预处理后的效果并没有得到明显的提升。对于情感识别来说,语义部分所携带的大量信息都是对情感识别没有帮助的,甚至会影响情感的准确识别,导致情感识别率低。技术实现要素:本发明提供一种语音情感识别方法、系统、计算机设备和存储介质,用于克服现有技术中情感识别率较低等缺陷。为实现上述目的,本发明提出一种语音情感识别方法,包括:构建语音情感数据集;所述语音情感数据集包括被标记的声音数据;获取所述声音数据的相位数据和能量谱,将所述相位数据和能量谱输入预先设置的情感识别模型;所述情感识别模型包括:双向循环神经网络和支持向量机;利用所述能量谱对所述双向循环神经网络进行训练,并利用训练好的双向循环神经网络对所述能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;根据所述情感能量谱和所述相位数据,得到情感特征;利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型;将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。为实现上述目的,本发明还提出一种语音情感识别系统,包括:数据集构建模块,用于构建语音情感数据集;所述语音情感数据集包括被标记的声音数据;相位数据和能量谱获取模块,用于获取所述声音数据的相位数据和能量谱,将所述相位数据和能量谱输入预先设置的情感识别模型;语义和情感分离模块,用于利用所述能量谱对所述双向循环神经网络进行训练,并利用训练好的双向循环神经网络对所述能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;情感特征获取模块,用于根据所述情感能量谱和所述相位数据,得到情感特征;支持向量机训练模块,用于利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型;语音情感识别模块,用于将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。为实现上述目的,本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。为实现上述目的,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。与现有技术相比,本发明的有益效果有:本发明提供的语音情感识别方法,首先获取声音数据的相位数据和能量谱,再利用双向循环神经网络将能量谱中的语义与情感进行分离,去除语义部分并将情感部分与相位数据混合获得情感特征,然后利用该情感特征训练支持向量机,该支持向量机用于情感特征类别的识别。本发明的方法通过将语义与情感分离,并单独取情感部分进行情感识别可有效提高情感识别的准确度。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1为本发明提供的语音情感识别方法流程图;图2为本发明中双向循环神经网络的结构图;图3a为直接采用默认核参数的支持向量机对casia汉语情感语料库中的声音数据进行情感识别的结果图;图3b为利用双向循环神经网络对casia汉语情感语料库中的声音数据进行语义与情感的分离并采用默认核参数的支持向量机对声音数据进行情感识别的结果图;图3c为直接采用最优核参数的支持向量机对casia汉语情感语料库中的声音数据进行情感识别的结果图;图3d为利用双向循环神经网络对casia汉语情感语料库中的声音数据进行语义与情感的分离并采用最优核参数的支持向量机对声音数据进行情感识别的结果图;图4a为直接采用默认核参数的支持向量机对柏林数据集中的声音数据进行情感识别的结果图;图4b为利用双向循环神经网络对柏林数据集中的声音数据进行语义与情感的分离并采用默认核参数的支持向量机对声音数据进行情感识别的结果图;图4c为直接采用最优核参数的支持向量机对柏林数据集中的声音数据进行情感识别的结果图;图4d为利用双向循环神经网络对柏林数据集中的声音数据进行语义与情感的分离并采用最优核参数的支持向量机对声音数据进行情感识别的结果图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。本发明提出一种语音情感识别方法,如图1所示,包括:101:构建语音情感数据集;该语音情感数据集包括被标记的声音数据;语音情感数据集为mir1k数据集,该mir1k数据集拥有准确地混合音频和有单独的情感和语义的音频,可很好的用于情感识别模型训练。102:获取声音数据的相位数据和能量谱,将相位数据和能量谱输入预先设置的情感识别模型;该情感识别模型包括:双向循环神经网络和支持向量机;声音数据包括相位数据和频率,以频率为能量谱。103:利用能量谱对双向循环神经网络进行训练,并利用训练好的双向循环神经网络对能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;可以将步骤102的全部能量谱用于双向循环神经网络训练,并利用训练好的双向循环神经网络对全部的能量谱进行语义和情感分离。也可以为将步骤102的一部分能量谱用于双向循环神经网络训练,另一部分能量谱进行语义和情感分离。104:根据情感能量谱和相位数据,得到情感特征;情感能量谱只能跟与之对应的声音数据中分离的相位数据一起,才能获得相对应的情感特征。105:利用情感特征对支持向量机进行训练,得到训练好的情感识别模型;106:将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。情感类别包括害怕、开心、悲伤、生气、惊喜等,情感类别根据情感特征的值大小进行判断。本发明提供的语音情感识别方法,首先获取声音数据的相位数据和能量谱,再利用双向循环神经网络将能量谱中的语义与情感进行分离,去除语义部分并将情感部分与相位数据混合获得情感特征,然后利用该情感特征训练支持向量机,该支持向量机用于情感特征类别的识别。本发明的方法通过将语义与情感分离,并单独取情感部分进行情感识别可有效提高情感识别的准确度。在其中一个实施例中,对于步骤105,利用情感特征对支持向量机进行训练,得到训练好的情感识别模型,包括:201:利用蛙跳算法确定支持向量机的最优核参数;202:利用情感特征对设置了最优核参数的支持向量机进行训练,得到训练好的情感识别模型。本实施例中选用的支持向量机经过训练后能够很好的识别情感数据中的情感类别,而支持向量机中核参数选择是对情感识别率产生影响的重要参数,因此本实施例选用蛙跳算法寻找支持向量机的最优核参数,通过蛙跳算法的自动寻优可快速、准确的寻找到支持向量机的最优核参数,以使支持向量机能够准确、高效的进行语音情感识别。在另一个实施例中,对于步骤201,利用蛙跳算法确定支持向量机的最优核参数,包括:301:对蛙跳算法初始化;设定m和n的值,m为子群的数量,n为每个子群中青蛙的数量。种群规模f=m*n,支持向量机(libsvm)核函数c,g的取值范围为:c为[0.1,10],g为[0.01,1],核参数包含两个参数。302:在可行解空间生成一个初始种群;所述初始种群包含多只青蛙,每只所述青蛙的当前位置对应于支持向量机分类问题中核函数解空间的一个候选解;在核函数可行解空间生成f只青蛙u(1),u(2),.....,u(f),每个青蛙的当前位置pwt对应于支持向量机分类问题中核函数解空间的一个候选解:其中d为解的维度。计算出u(i)的性能f(i)(具体计算方式为:将每一个青蛙的解作为核参数的值代入支持向量机对情感进行分类,得到的识别率作为性能好坏的评价标准,从而选出f只性能好的青蛙),并利用公式i=1,2,3,...m进行反向学习,其中为反向学习之后的解;rands(i,d)为用于不同个体i的对应维度d上(-1,1)之间的一个随机数;mind,maxd分别为在所有初始解中第d维的最小值和在所有初始解中第d维的最大值;cd为一个确定值,其维度由解的维度决定,作为是否进行此次反向学习的阈值,当cd<rand()值,进行此维度的反向解求解,反之,则不进行任何操作;rand()为一个(0,1)之间的解。反向学习后的m只青蛙和前面选出的f只青蛙分别计算性能以后,按性能好坏排序,只保留性能最好的f只青蛙,组成初始种群。反向学习后的青蛙不一定向好的结果迈进,因此还需与原来的f只青蛙进行性能比较,m与f数值相同。303:对青蛙进行等级划分,获得多个子群;将初始种群中的f只青蛙按照性能f(i)的好坏依次排列,生成数组并记录种群中最好青蛙位置pg=u(1),并将青蛙分组(分组方式为将前s只青蛙依次作为每一个子群的第一只青蛙,第s~2s只青蛙依次作为每一个子群的第二只青蛙,以此类推,直到所有的青蛙都完成分组),放入不同的子群中。304:对子群执行子群进化,获得初始种群中最好的青蛙,该最好的青蛙对应的支持向量机分类问题中核函数在解空间的解为最优核参数。在每一个子群中,每一只青蛙收到其他青蛙位置的影响,通过子群进化,使每一只青蛙朝着目标位置逼近。在下一个实施例中,对于步骤304,对所述子群执行子群进化,获得所述初始种群中最好的青蛙,包括:401:设定最大进化次数;402:计算获得所述子群中第i只青蛙所带的电荷,式中,qi为第i只青蛙所带的电荷;n为子群数量的一半或者子群数量;xi为当前子群中第i只青蛙的解;xg为当前子群中最优青蛙的解;xk为当前子群中每一只青蛙的解,k为当前子群中第k只青蛙;为初始种群中最优青蛙的解;为各个子群中最优青蛙的解;m为单个子群中青蛙的数量;m′为子群数量;p为初始种群中第p个子群;403:根据所述电荷获得作用在所述子群中最差青蛙上的分力,式中,fiw为作用在子群中最差青蛙上的分力;为子群最差目标值青蛙所带电荷;pwt为子群中最差目标值青蛙的当前位置;404:根据所述分力调整所述子群中最差目标值青蛙的位置,pwt+1=w*pwt+da(dmax>=da>=-dmax)+fiw(3)w=(ws-we)*(1+a/maxgen)(4)da=rand*(pwt-pb)(5)式中,pwt+1为调整后子群中最差目标值青蛙的位置;w为惯性参数,初始值为0.9,由ws和we控制,ws和we的值分别为0.9和0.4;da为本次移动的随机步长;dmax为一次跳跃的最大步长;maxgen为设定的最大进化次数;a为当前的总进化次数;pb为当前子群中的最优青蛙;rand为(0,1)的随机值;405:若调整后子群中最差目标值青蛙的位置pwt+1优于子群中最差目标值青蛙的原位置pwt,则用调整后子群中最差目标值青蛙的位置pwt+1取代所述原位置pwt;否则,用初始种群中最好的青蛙的解pg代替子群最优青蛙的解pb并重新计算调整后子群中最差目标值青蛙的解,如果优于所述原位置pwt,则用调整后子群中最差目标值青蛙的位置取代所述原位置pwt;若重新调整获得的子群中最差目标值青蛙的位置还是没有优于所述原位置pwt,则在子群中随机生成一个新位置用于取代所述原位置pwt;406:若当前的进化次数≥每个子群中青蛙的数量,则检查终止条件,如果迭代终止条件满足,则终止(终止条件为达到最大迭代次数并且每一个子群中一半以上的青蛙的解相同);否则,重新进行青蛙等级划分和子群进化;407:若当前的进化次数<每个子群中青蛙的数量,同时若子群计数变量<子群数量,则重新进行电荷计算至最差青蛙的位置调整的步骤;否则将每个子群进行子群之间的跳跃,并将各个子群合并,将合并后的青蛙重新进行等级划分,更新初始种群中最好的青蛙,检查终止条件,如果迭代终止条件满足,则终止;否则,重新进行青蛙等级划分和子群进化;所述子群进行子群之间的跳跃具体为:将子群计数变量清零并且执行公式:pg'=w*pg+rands*pg(6)w=we+(ws-we)*(my/m)(7)式中,pg'为更新后的初始种群中最好的青蛙的解;w为惯性参数;pg为初始种群中最好的青蛙的解;rands为[-1,1]之间的随机数,维度由pg的维度决定;m为子群数量;my为第y个子群,y=1,2,.....,m。在另一个实施例中,对于步骤102,获取声音数据的相位数据和能量谱,包括:501:对声音数据进行短时傅里叶变换,获得频域;通过短时傅里叶变换将时域转到频域。502:从频域中分离获得频率和相位数据,并将频率作为能量谱。在下一个实施例中,对于步骤104,根据情感能量谱和相位数据,得到情感特征,包括:601:将情感能量谱和相位数据混合,对混合后的数据进行反向快速傅里叶变化,获得情感数据;情感能量谱只有与相位数据结合才能进行反向快速傅里叶变化。情感数据仅包含情感部分。通过反向快速傅里叶变化又将频域转到时域。602:对情感数据进行情感特征提取,得到情感特征。情感特征的提取参考:梁瑞宇,赵力,魏昕《语音信号处理实验教程》pp.234机械工业出版社。情感特征及对应标签如表1所示,该标签与步骤101中的声音数据的标记一一对应。表1情感特征及对应标签特征标签特征名称1-4短时能量的最大值,最小值,均值,方差5-7短时能量的抖动,线性回归系数和线性回归系数的均方误差80~255hz频段能量占总能量的百分比9-12基因频率的最大值,最小值,均值,方差13-14基因频率的一阶抖动,二阶抖动15-18浊音帧差分基音的最大值,最小值,均值,方差19-23第一共振峰频率的最大值,最小值,均值,方差和一阶抖动23-27第二共振峰频率的最大值,最小值,均值,方差和一阶抖动28-32第三共振峰频率的最大值,最小值,均值,方差和一阶抖动33-36第二共振峰频率比率的最大值,最小值。均值37-880~12阶梅尔倒谱参数的最大值,最小值,均值,方差89-1400~12阶梅尔倒谱参数一阶差分的最大值,最小值,均值,方差在下一个实施例中,双向循环神经网络如图2所示,包括4层双向循环神经网络(ht1、ht2、ht3、ht4),4层双向循环神经网络对输入的能量谱进行逐层的语义与情感分离,最终从ht4输出初始语义能量谱和初始情感能量谱并进入输出层进行输出处理,以保证双向循环神经网络最终输出的情感能量谱与输入双向循环神经网络的能量谱数据范围相同,这样才能实现情感能量谱与相位的结合。本实施例采用的双向循环神经网络能够实现单声道变双声道的功能,从而实现对输入的能量谱中语义与情感的分离,并分别对初始语义能量谱和初始情感能量谱进行输出处理,获得与输入的能量谱数据范围相同的情感能量谱。在另一个实施例中,双向循环神经网络的输出层包括门参数层和掩蔽效应层,输出层的激活函数为softplus函数:softplus(x)=log(1+ex)(8)门参数层中的门参数公式如下:式中,分别为人声和伴奏声的预测值;zt(f)为双向循环神经网络的输出层数据;ht1、ht2分别为双向循环神经网络的前向循环门参数和后向循环门参数;掩蔽效应层的掩蔽效应公式如下:式中,mt(f)为掩蔽效应的比例;分别为语义信息和情感信息的真实值。本实施例选用softplus函数作为激活函数可使双向循环神经网络的准确率更高,双向循环神经网络的损失函数值更低,同时可以避免梯度消失的问题。选择门参数层和掩蔽效应层对初始语义能量谱和初始情感能量谱进行输出处理,可使得最终输出的语义能量谱和情感能量谱与输入的能量谱数据范围完全相同。本实施例中,对双向循环神经网络进行训练时,双向循环神经网络的结构设置如表2所示。表2双向循环神经网络的结构设置信息名称详细信息训练数据集mir1k输入输出特征快速傅里叶变换后的能量谱快速傅里叶变化采样点数和步幅采样点数:1024,步幅:128批处理大小64dropout率0.85总迭代次数20000学习率0.001模型层数4输入层节点512输出层节点1024隐藏层节点1024激活函数隐藏层,输出层:softplus函数损失函数mse(均方误差)函数本发明提供的语音情感识别方法,首先将声音数据中的相位数据和频率进行分离,其实质上就是一个降噪处理,以降低后续处理的难度和保证最终识别结果的精确度;然后利用双向循环神经网络将该能量谱中的语义和情感进行分离,双向循环神经网络能快速、准确地将能量谱中的语义和情感分离,这是进一步的降噪处理,将语义作为噪声去除,以降低情感特征提出和情感识别的难度和保证最终识别结果的精确度;再将该情感与该相位数据进行反向快速傅里叶变化,获得仅拥有情感的情感数据;接着对该情感数据进行情感特征提取并对感情特征进行标记;最后利用支持向量机对语音情感进行分类。本发明提供的语音情感识别方法,将单声道的音频进行语义和情感的切割,产生只拥有情感信息的音频,用来进行情感特征的提取,并且在支持向量机分类中引入群智能算法,提供了最优的核函数,进一步的提高了分类的效果。本发明提供的语音情感识别方法可用于对柏林情感数据集,casia汉语情感语料库,iemocap语料库等中的音频文件进行情感识别。图3a为直接采用默认核参数的支持向量机对casia汉语情感语料库中的声音数据进行情感识别的结果图,从图可知,情感识别的总识别率92.0833%。图3b为利用双向循环神经网络对casia汉语情感语料库中的声音数据进行语义与情感的分离并采用默认核参数的支持向量机对声音数据进行情感识别的结果图,从图可知,情感识别的总识别率96.6667%。图3c为直接采用最优核参数的支持向量机对casia汉语情感语料库中的声音数据进行情感识别的结果图,从图可知,情感识别的总识别率97.9167%。图3d为利用双向循环神经网络对casia汉语情感语料库中的声音数据进行语义与情感的分离并采用最优核参数的支持向量机对声音数据进行情感识别的结果图,从图可知,情感识别的总识别率98.3333%。图4a为直接采用默认核参数的支持向量机对柏林数据集中的声音数据进行情感识别的结果图,从图可知,情感识别的总识别率82.8571%。图4b为利用双向循环神经网络对柏林数据集中的声音数据进行语义与情感的分离并采用默认核参数的支持向量机对声音数据进行情感识别的结果图,从图可知,情感识别的总识别率87.619%。图4c为直接采用最优核参数的支持向量机对柏林数据集中的声音数据进行情感识别的结果图,从图可知,情感识别的总识别率87.619%。图4d为利用双向循环神经网络对柏林数据集中的声音数据进行语义与情感的分离并采用最优核参数的支持向量机对声音数据进行情感识别的结果图,从图可知,情感识别的总识别率91.4286%。图3a~图4d中,方块中的百分数值表示通过对应方法预测的结果与实际情况相符程度,数值越大,相符程度越高。本发明提出还一种语音情感识别系统,包括:数据集构建模块,用于构建语音情感数据集;所述语音情感数据集包括被标记的声音数据;相位数据和能量谱获取模块,用于获取所述声音数据的相位数据和能量谱,将所述相位数据和能量谱输入预先设置的情感识别模型;语义和情感分离模块,用于利用所述能量谱对所述双向循环神经网络进行训练,并利用训练好的双向循环神经网络对所述能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;情感特征获取模块,用于根据所述情感能量谱和所述相位数据,得到情感特征;支持向量机训练模块,用于利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型;语音情感识别模块,用于将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的
技术领域:
均包括在本发明的专利保护范围内。当前第1页1 2 3 

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips