一种基于双通道语音转图像式情感识别方法与流程

2021-01-28 15:01:24|

332|

起点商标网

本发明涉及情感识别
技术领域：
，尤其涉及一种基于双通道语音转图像式情感识别方法。
背景技术：
：随着机器人技术的不断发展，机器人应用任务的不断增多，人机交互任务也日趋复杂，仅仅依靠被动地接受用户的指令和控制远远不够，如果不能主动地理解用户的目的和意图，则无法推断用户的心理状态，较为缺乏感知和引导的能力。利用情感识别模型，赋予机器人拥有像人一样的情感认知能力，能够根据人的行为举止对其情感状态进行推断，理解人的行为和意图，从而实现高效、自然、和谐的智能人机交互。情感识别是一个跨学科的研究领域，近年来受到越来越多的关注，比如可以通过语音信号、面部表情信号和生理参数来进行情感识别。对于语音情感识别，nicholson等提取基频、功率谱和线性预测系数特征，并用onoc(0ne-class-in-one)的网络拓扑结构进行了语音情感识别。park等用动态循环网络模拟人脑的非线性动态特性，他们用基因特征和一个循环神经网络进行4种情感的分析和识别，获得了较好的性能。hozjan等将短时特征和长时特征结合起来，分别对不同的语种进行情感识别。颜永红和周瑜等采用非均匀子带滤波器来挖掘对语音情感有益的信息，加大了各类情感之间的鉴别性，提高了情感识别的性能。zheng等提出了不完全稀疏最小二乘回归算法，改进了传统的最小二乘回归算法，能同时对标记和未标记语音数据进行情感识别。attabi等在语音识别中引入锚模型的思想，改进了识别系统的性能。wang等提出了一种新的傅立叶参数模型，利用语音质量的感知内容和一阶二阶的差异来进行独立于说话人的语音情感识别。abdelwahab等研究探讨如何使用对抗性多任务训练来提取训练域与测试域之间的共同表示，并发现了从未标记的数据中提取尽可能多的有用信息是至关重要的。用于识别的情感特征的优劣以及情感特征提取是否全面直接影响到情感识别的效果。目前语音情感特征主要有语句发音持续时间、基因频率、振幅能量、共振峰、声门波、谐波噪声比等，虽然已经提出了一些语音情感特征，但是大多是基于语音的韵律特征和音质特征，目前还没有一个人工设计的最优特征集。研究者可能会将越来越多的特征组合在一起，这可能会导致维度过高。此外，语音情感特征很容易受到说话者、内容和环境变化的影响。因此，语音情感识别技术的研究尚处于起步阶段，相应的基础理论和方法框架仍很欠缺。技术实现要素：本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于双通道语音转图像式情感识别方法，通过将语音信号转换成图像信号，然后利用深度学习技术，对情感信息进行识别。为解决上述技术问题，本发明所采取的技术方案是：一种基于双通道语音转图像式情感识别方法，包括以下步骤：步骤1、获取不同情感状态下的语音情感信号；所述获取相应情感状态下的语音情感信号的具体方法为：首先利用麦克风接收不同情感状态下的语音数据，再通过计算机以一定采样频率和量化精度进行采样量化获得相应的语音情感信号；步骤2、对获取的语音情感信号进行预加重、分帧加窗和端点检测预处理；所述预加重采用一阶数字预加重滤波器实现，预加重滤波器的系数取值为0.93～0.97；所述分帧加窗为以帧长256点的标准进行分帧，并对分帧后的数据加汉明窗处理；所述端点检测利用基于能量和鉴别信息的语音端点检测算法进行；步骤3、分别将步骤1获取的语音情感信号和步骤2预处理的语音情感信号转变为两个通道图像信号；步骤3-1、获取步骤1中语音情感信号的时域波形图，然后对时域波形图中的像素灰度值进行归一化处理后作为第一通道图像信号；步骤3-2、获取步骤2预处理后语音情感信号的语谱图，然后对语谱图中像素灰度值进行归一化处理后作为第二通道图像信号；所述获取语谱图的具体方法为：将预处理后的语音情感信号进行快速傅里叶变换，得出相应的语谱图；步骤4、用两个残差式深度卷积神经网络自动提取两个通道图像信号的情感特征参数；步骤4-1、提取第一通道图像信号的情感特征参数；步骤4-1-1、建立第一残差式深度卷积神经网络结构；所述第一残差式深度卷积神经网络结构包括卷积层、最大池化层、残差块、平均池化层和全连接层；所述第一残差式深度卷积神经网络结构包括的残差块包括两种类型的子残差块，分别为resnet-34和resnet-50；步骤4-1-2、采用梯度下降算法训练建立好的第一残差式深度卷积神经网络；步骤4-1-3、将第一通道图像信号作为训练好的第一残差式卷积神经网络的输入，其输出即为第一通道图像信号情感特征参数；步骤4-2、提取第二通道图像信号的情感特征参数；步骤4-2-1、建立第二残差式深度卷积神经网络结构；所述第二残差式深度卷积神经网络结构包括卷积层、最大池化层、残差块、平均池化层和全连接层；所述第二残差式深度卷积神经网络结构包括的残差块包括三种类型的子残差块，分别是resnet-34、resnet-50和resnet-101；步骤4-2-2、采用梯度下降算法训练建立好的第二残差式深度卷积神经网络；步骤4-2-3、将第二通道图像信号作为训练好的第二残差式卷积神经网络的输入，其输出即为第二通道图像信号情感特征参数；步骤5、将两个通道图像信号的情感特征参数顺序组合起来获得组合特征参数；步骤6、将组合特征参数作为三层小波神经网络的输入，则其输出即为语音情感信号最终的情感识别结果。采用上述技术方案所产生的有益效果在于：本发明提供的一种基于双通道语音转图像式情感识别方法，(1)将语音信号分别转换成时域波形图和频域语谱图信号，即可利用深度卷积神经网络进行情感特征提取，而且同时考虑时域和频域的信号，能使特征的提取更全面可靠；(2)充分利用了深度学习模型自动提取抽象特征的优势，有效地降低了运算量，提高了情感特征参数的鲁棒性；(3)利用深度卷积神经网络提取情感特征参数，利用浅层的小波神经网络进行最终识别，深浅结合，根据神经网络接收数据的规模不同选择不同类型的神经网络，使识别的效果更好。附图说明图1为本发明实施例提供的一种基于双通道语音转图像式情感识别方法的流程图。具体实施方式下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。一种基于双通道语音转图像式情感识别方法，如图1所示，包括以下步骤：步骤1、获取不同情感状态下的语音情感信号；本实施例中，首先播放影视片段，并利用麦克风接收不同情感状态下的语音数据，再通过计算机以11.025khz的采样频率和16bit的量化精度进行采样量化获得相应的语音情感信号；步骤2、对获取的语音情感信号进行预加重、分帧加窗和端点检测预处理；所述预加重采用一阶数字预加重滤波器实现，预加重滤波器的系数取值为0.93～0.97；所述分帧加窗为以帧长256点的标准进行分帧，并对分帧后的数据加汉明窗处理；所述端点检测利用基于能量和鉴别信息的语音端点检测算法进行；步骤3、分别将步骤1获取的语音情感信号和步骤2预处理的语音情感信号转变为两个通道图像信号；步骤3-1、获取步骤1中语音情感信号的时域波形图，然后对时域波形图像中的素灰度值进行归一化处理，即使图像的像素灰度值为0，方差为1，作为第一通道图像信号；步骤3-2、获取预处理后语音情感信号的语谱图，然后对语谱图中像素灰度值进行归一化处理，即使图像的像素灰度值为0，方差为1，作为第二通道图像信号；所述获取语谱图的具体方法为：将预处理后的语音情感信号进行快速傅里叶变换，得出相应的语谱图；步骤4、用两个残差式深度卷积神经网络自动提取两个通道图像信号的情感特征参数；步骤4-1、提取第一通道图像信号的情感特征参数；步骤4-1-1、建立第一残差式深度卷积神经网络结构；所述第一残差式深度卷积神经网络结构包括卷积层、最大池化层、残差块、平均池化层和全连接层；所述第一残差式深度卷积神经网络结构包括的残差块包括两种类型的子残差块，分别是resnet-34和resnet-50；本实施例中，第一残差式深度卷积神经网络首先经过卷积层，卷积核大小为7×7，步长为2，再经过最大池化层，卷积核大小为3×3，步长为2；其次经过残差块，该残差块包含两种类型的子残差块，分别是resnet-34和resnet-50，此两种子残差块数量均为2；最后经过平均池化层和全连接层；步骤4-1-2、采用梯度下降算法训练建立好的第一残差式深度卷积神经网络；步骤4-1-3、将第一通道图像信号作为训练好的第一残差式卷积神经网络的输入，其输出即为第一通道图像信号情感特征参数；步骤4-2、提取第二通道图像信号的情感特征参数；步骤4-2-1、建立第二残差式深度卷积神经网络结构；所述第二残差式深度卷积神经网络结构包括卷积层、最大池化层、残差块、平均池化层和全连接层；所述第二残差式深度卷积神经网络结构包括的残差块包括三种类型的子残差块，分别是resnet-34、resnet-50和resnet-101；本实施例中，第二残差式深度卷积神经网络首先经过卷积层，卷积核大小为7×7，步长为2，再经过最大池化层，卷积核大小为3×3，步长为2；其次经过残差块，该残差块包含三种类型的子残差块，分别是resnet-34、resnet-50和resnet-101，此三种子残差块数量均为2；最后经过平均池化层和全连接层；步骤4-2-2、采用梯度下降算法训练建立好的第二残差式深度卷积神经网络；步骤4-2-3、将第二通道图像信号作为训练好的第二残差式卷积神经网络的输入，其输出即为第二通道图像信号情感特征参数；步骤5、将第一通道图像信号情感特征参数和第二通道图像信号情感特征参数顺序组合起来获得组合特征参数；本实施例中，第一残差式深度卷积神经网络和第二残差式深度卷积神经网络均输出30个情感特征参数，将这60个情感特征参数顺序组合起来，其中前30个特征为第一通道情感特征参数，后30个为第二通道情感特征参数；步骤6、将组合特征参数作为三层小波神经网络的输入，则其输出即为语音情感信号最终的识别结果；本实施例中，三层小波神经网络输入层有60个神经元，代表60个情感特征参数，输出层有6个神经元，代表6种人类基本情感，即高兴、愤怒、惊奇、悲伤、恐惧和中性；本实施例中，为验证本发明方法的情感识别效果，将采用传统方式进行特征提取并用三层小波神经网络进行识别的语音情感识别结果与本发明的单通道和双通道条件下的语音情感识别结果进行对比。本实施例中，训练样本集和测试样本集均包括6种人类基本情感的1000条语句。采用传统方式进行特征提取并用三层小波神经网络进行识别的情感识别正确率如表1所示；仅采用第一通道图像信号进行识别的情感识别正确率如表2所示；仅采用第二通道图像信号进行识别的情感识别正确率如表3所示；本发明方法情感识别正确率如表4所示。表1传统特征+三层小波神经网络的情感识别正确率情感类别高兴愤怒惊奇悲伤恐惧中性高兴85％8％2％1％4％0％愤怒5％87％1％4％2％1％惊奇0％1％89％0％7％3％悲伤4％1％2％90％3％0％恐惧2％6％6％4％82％0％中性2％3％6％15％2％72％表2仅采用第一通道图像信号进行识别的情感识别正确率表3仅采用第二通道图像信号进行识别的情感识别正确率情感类别高兴愤怒惊奇悲伤恐惧中性高兴95％2％1％0％2％0％愤怒2％85％3％3％7％0％惊奇4％2％92％2％0％0％悲伤7％5％0％88％0％0％恐惧1％3％3％1％90％2％中性2％2％2％3％1％90％表4采用本发明方法进行识别的情感识别正确率情感类别高兴愤怒惊奇悲伤恐惧中性高兴97％1％0％0％0％2％愤怒0％94％0％5％0％1％惊奇2％3％94％1％0％0％悲伤0％1％1％96％2％0％恐惧0％1％1％0％98％0％中性1％2％5％0％0％92％由表1可以看出，仅采用传统方式进行特征提取并用三层小波神经网络进行识别的平均识别正确率是84.2％(该平均识别正确率84.2％是通过表1中高兴的识别正确率85％、愤怒的识别正确率87％、惊奇的识别正确率89％、悲伤的识别正确率90％、恐惧的识别正确率82％和中性的识别正确率72％求和后取平均值得到的)；仅通过采用第一通道图像信号进行识别的平均识别正确率是90.8％；仅通过采用第二通道图像信号进行识别的平均识别正确率是90％。本发明方法的平均识别正确率是95.2％。因此，直接从语音信号中提取传统特征参数，然后送分类器进行识别的识别准确率较低，因为它直接提取语音的韵律特征和音质特征，但这些特征参数并不能全面地代表语音情感特征。而表2、表3和表4的识别结果明显有所提高，这是因为这三种情况均先将语音信号变成图像信号来处理，并采用残差式深度卷积神经网络来提取特征参数，充分利用了深度学习模型可提取抽象特征的优势，有效地提高了特征参数的鲁棒性。尤其是表4采用了双通道的方式进行识别，情感特征参数考虑的更加全面，更加接近人类情感识别的过程。最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。当前第1页1 2 3

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。