语音情感识别方法以及装置与流程

2021-01-28 12:01:16|

240|

起点商标网

本申请涉及语音识别领域，尤其涉及一种语音情感识别方法以及装置。

背景技术：

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，ai基础理论等。

在人工智能中，情感交互在人类信息的沟通中具有重要的意义，研究显示，人类交流中80％的信息都是情感性的信息。因此，情感计算是实现人性化的人机交互过程中必不可少的部分，情感识别与理解技术是人机交互的基础性技术之一。

现有技术中主要通过语音的声学特征对情感状态进行识别，但是，声学特征中混合了大量干扰信息，导致情感状态识别的精度不高。

技术实现要素：

为了解决上述问题，本申请提供了一种语音情感识别方法以及装置，能够有效地提高情感状态识别的精度。

第一方面，提供了一种语音情感识别方法，包括：

通过传感器获取语音数据，其中，所述语音数据包括t个语音帧i1，i2，…，it，t为正整数；

通过处理器将语音帧i1，i2，…，it分别输入声学特征识别模型，从而得到语音帧i1，i2，…，it各自的情感声学特征数据s1，s2，…，st，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

通过处理器将语音帧i1，i2，…，it分别输入音素识别模型，从而得到语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt；

通过处理器，并根据所述语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt，确定所述语音帧i1，i2，…，it各自的音素数据n1，n2，…，nt，其中，音素数据用于表示所述语音数据中的音素的特征；

通过处理器将所述情感声学特征数据s1，s2，…，st和所述音素数据n1，n2，…，nt进行融合，从而得到融合数据r1，r2，…，rt；

通过处理器将所述融合数据r1，r2，…，rt输入情感状态识别模型，从而确定所述语音数据的情感状态。

上述方案中，情感状态识别模型采用了融合数据进行语音数据的情感状态预测，并且，融合数据不仅包括情感声学特征数据，还包括音素数据，即，还利用不蕴含情感状态的相关信息的音素数据辅助进行情感状态的识别，因此，能够有效地提高情感状态识别的效率。

在一些可能的设计中，所述情感声学特征数据s1，s2，…，st和所述音素数据n1，n2，…，nt进行融合，从而得到融合数据r1，r2，…，rt，可以包括：

通过处理器以向量拼接的方式，将情感声学特征数据s1，s2，…，st和音素数据n1，n2，…，nt进行融合从而得到融合数据r1，r2，…，rt。

具体地，可以通过处理器并以以下的向量拼接的方式将情感声学特征数据si和音素数据ni进行数据融合，从而得到融合数据ri，其中，1≤i≤t，并且，i为整数：

ri＝si+ni；

其中，si为从第i帧语音帧提取得到的情感声学特征数据，ni为根据第i帧语音帧计算得到的音素数据。在一种可能的实施方式中，音素数据ni可以表示为：

(pi，xi，yi)，

其中，i为自然数，0<i≤t，pi为第i帧语音帧的音素概率，xi用于表示第i帧语音帧的音素类型，yi用于表示第i帧语音帧的音素时长，音素概率为语音帧属于各个音素的概率组成的数据，音素类型包括元音类型、辅音类型以及静音类型，音素时长为同一音素的持续时长。

在一些可能的设计中，情感预测模型可以表示为：

state＝emoforecast(r)

其中，r为融合数据，r包括r1，r2，…，rt，state为情感状态，emoforecast()为融合数据r与情感状态state的映射关系。

具体地，情感预测模型包括循环神经网络rnn、自注意力模型以及分类器，所述方法包括：

将融合数据r1，r2，…，rt输入rnn，从而得到循环结果h1,h2,…,ht；

将循环结果h1,h2,…,ht输入自注意力模型，从而得到高维情感特征；

将高维情感特征输入分类器，从而确定所述语音数据的情感状态。

更具体地，所述rnn、所述自注意力模型以及所述分类器集成在同一个神经网络，并且，所述rnn、所述自注意力模型以及所述分类器可以分别是所述神经网络中的不同层。

在一些可能的设计中，对所述音素识别模型进行训练时采用的数据为第一训练数据，其中，所述第一训练数据为不蕴含情感状态的相关信息的语音数据；对所述情感状态识别模型进行训练时采用的数据为第二训练数据，其中，所述第二训练数据为蕴含情感状态的相关信息的语音数据。

上述方案中，在训练的过程中，对音素识别模型进行训练时可以采集不蕴含情感状态的相关信息的语音数据，对情感状态识别模型进行训练时需要采集蕴含情感状态的相关信息的语音数据。由于不蕴含情感状态的相关信息的语音数据的采集比较容易，数量也比较多，蕴含情感状态的相关信息的语音数据的采集难度比较高，数量也比较少，因此，本申请能够利用不蕴含情感状态的相关信息的语音数据辅助进行情感状态的识别，有效增加情感状态的识别训练数据的数量，进而能够更好地对情感状态识别模型进行训练，从而提高情感状态识别的准确性。

第二方面，提供了一种情感状态识别模型的训练方法，包括：

获取训练数据，其中，所述训练数据包括p个训练语音帧train1，train2，…，trainp，p为正整数；

将训练语音帧train1，train2，…，trainp分别输入声学特征识别模型，从而得到语音帧训练语音帧train1，train2，…，trainp各自的情感声学特征数据feature1，feature2，…，featurep，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

获取语音帧训练语音帧train1，train2，…，trainp各自所属的音素phoneme1，phoneme2，…，phonemep；

根据所述训练语音帧train1，train2，…，trainp各自的所属的音素phoneme1，phoneme2，…，phonemep，确定所述训练语音帧train1，train2，…，trainp各自的音素数据data1，data2，…，datap，其中，音素数据用于表示训练数据中的音素的特征；

将所述情感声学特征数据feature1，feature2，…，featurep和所述音素数据data1，data2，…，datap进行融合，从而得到融合数据fuse1，fuse2，…，fusep；

获取所述训练数据的情感状态；

通过所述融合数据fuse1，fuse2，…，fusep和所述情感状态对情感状态识别模型进行训练。

在一些可能的设计中，所述情感声学特征数据feature1，feature2，…，featurep和所述音素数据data1，data2，…，datap进行融合，从而得到fuse1，fuse2，…，fusep，可以包括：

通过处理器以向量拼接的方式，将情感声学特征数据feature1，feature2，…，featurep和音素数据data1，data2，…，datap进行融合从而得到融合数据fuse1，fuse2，…，fusep。

具体地，可以通过处理器并以以下的向量拼接的方式将情感声学特征数据featurei和音素数据datai进行数据融合，从而得到融合数据fusei，其中，1≤i≤p，并且，i为整数：

fusei＝featurei+datai；

其中，featurei为从第i帧训练语音帧提取得到的情感声学特征数据，datai为根据第i帧训练语音帧计算得到的音素数据。在一种可能的实施方式中，音素数据datai可以表示为：

(probabilityi，typei，lengthi)，

其中，i为自然数，0<i≤p，probabilityi为第i帧训练语音帧的音素概率，typei用于表示第i帧训练语音帧的音素类型，lengthi用于表示第i帧训练语音帧的音素时长，音素概率为训练语音帧属于各个音素的概率组成的数据，音素类型包括元音类型、辅音类型以及静音类型，音素时长为同一音素的持续时长。

在一些可能的设计中，情感预测模型可以表示为：

state＝emoforecast(fuse)

其中，fuse为融合数据，fuse包括fuse1，fuse2，…，fusep，state为情感状态，emoforecast()为融合数据fuse与情感状态state的映射关系。

第三方面，提供了一种语音情感识别装置，包括：获取模块、声学特征识别模型、音素识别模型、确定模块、融合模块以及情感状态识别模型；

所述获取模块用于获取语音数据，其中，所述语音数据包括t个语音帧i1，i2，…，it，t为正整数；

所述声学特征识别模型用于根据语音帧i1，i2，…，it得到语音帧i1，i2，…，it各自的情感声学特征数据s1，s2，…，st，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

所述音素识别模型用于根据语音帧i1，i2，…，it得到语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt；

所述确定模块用于根据所述语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt，确定所述语音帧i1，i2，…，it各自的音素数据n1，n2，…，nt，其中，音素数据用于表示所述语音数据中的音素的特征；

所述融合模块用于将所述情感声学特征数据s1，s2，…，st和所述音素数据n1，n2，…，nt进行融合，从而得到融合数据r1，r2，…，rt；

所述情感状态识别模型用于根据所述融合数据r1，r2，…，rt确定所述语音数据的情感状态。

在一些可能的设计中，所述融合模块用于通过处理器以向量拼接的方式，将情感声学特征数据s1，s2，…，st和音素数据n1，n2，…，nt进行融合从而得到融合数据r1，r2，…，rt。

具体地，所述融合模块用于以以下的向量拼接的方式将情感声学特征数据si和音素数据ni进行数据融合，从而得到融合数据ri，其中，1≤i≤t，并且，i为整数：

ri＝si+ni；

其中，si为从第i帧语音帧提取得到的情感声学特征数据，ni为根据第i帧语音帧计算得到的音素数据。

更具体地，音素数据ni可以表示为：

(pi，xi，yi)，

在一些可能的设计中，情感预测模型可以表示为：

state＝emoforecast(r)

其中，r为融合数据，r包括r1，r2，…，rt，state为情感状态，emoforecast()为融合数据r与情感状态state的映射关系。

具体地，情感预测模型包括循环神经网络rnn、自注意力模型以及分类器，所述方法包括：

将融合数据r1，r2，…，rt输入rnn，从而得到循环结果h1,h2,…,ht；

将循环结果h1,h2,…,ht输入自注意力模型，从而得到高维情感特征；

将高维情感特征输入分类器，从而确定所述语音数据的情感状态。

第四方面，提供了一种训练设备，包括：获取模块、声学特征识别模型、确定模块、融合模块以及训练模块，

所述获取模块用于获取训练数据，其中，所述训练数据包括p个训练语音帧train1，train2，…，trainp，p为正整数；

所述声学特征识别模型用于将训练语音帧train1，train2，…，trainp分别输入声学特征识别模型，从而得到语音帧训练语音帧train1，train2，…，trainp各自的情感声学特征数据feature1，feature2，…，featurep，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

所述获取模块用于获取语音帧训练语音帧train1，train2，…，trainp各自所属的音素phoneme1，phoneme2，…，phonemep；

所述确定模块用于根据所述训练语音帧train1，train2，…，trainp各自的所属的音素phoneme1，phoneme2，…，phonemep，确定所述训练语音帧train1，train2，…，trainp各自的音素数据data1，data2，…，datap，其中，音素数据用于表示训练数据中的音素的特征；

所述融合模块用于将所述情感声学特征数据feature1，feature2，…，featurep和所述音素数据data1，data2，…，datap进行融合，从而得到融合数据fuse1，fuse2，…，fusep；

所述获取模块用于获取所述训练数据的情感状态；

所述训练模块用于通过所述融合数据fuse1，fuse2，…，fusep和所述情感状态对情感状态识别模型进行训练。

在一些可能的设计中，所述融合模块用于以向量拼接的方式，将情感声学特征数据featur1e，feature2，…，featurep和音素数据data1，data2，…，datap进行融合从而得到融合数据fuse1，fuse2，…，fusep。

具体地，所述融合模块用于以以下的向量拼接的方式将情感声学特征数据featurei和音素数据datai进行数据融合，从而得到融合数据fusei，其中，1≤i≤p，并且，i为整数：

fusei＝featurei+datai；

(probabilityi，typei，lengthi)，

在一些可能的设计中，情感预测模型可以表示为：

state＝emoforecast(fuse)

其中，fuse为融合数据，fuse包括fuse1，fuse2，…，fusep，state为情感状态，emoforecast()为融合数据fuse与情感状态state的映射关系。

第五方面，提供了一种识别设备，包括：处理器和存储器，所述处理器执行所述存储器中的代码执行如第一方面任一项所述的方法。

第六方面，提供了一种训练设备，包括：处理器和存储器，所述处理器执行所述存储器中的代码执行如第二方面任一项所述的方法。

第七方面，提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得所述计算机执行如第一方面任一项或者第二方面任一项所述的方法。

第八方面，提供了一种计算机程序产品，当所述计算机程序产品被计算机读取并执行时，如第一方面任一项或者第二方面任一项所述的方法将被执行。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种人工智能主体框架示意图；

图2是本申请涉及的一种多维情感空间的结构示意图；

图3是本申请涉及的一种音素识别模型的结构示意图；

图4是本申请提供的一种情感预测模型的结构示意图；

图5是本申请提供的一种循环神经网络的结构示意图；

图6是本申请提供的一种语音情感识别方法的流程示意图；

图7是本申请提供的一种语音情感识别装置的结构示意图；

图8是本申请提供的一种识别设备的结构示意图；

图9是本申请提供的一种芯片硬件结构图；

图10是本申请提供的一种云系统的结构示意图；

图11是本申请提供的一种情感状态识别模型的训练方法的流程示意图；

图12是本申请提供的一种训练设备的结构示意图；

图13是本申请提供的一种系统架构的结构示意图。

具体实施方式

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“it价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“it价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(cpu、npu、gpu、asic、fpga等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

本申请提供的语音情感识别方法是人工智能中的一个细分领域，除了具有上述人工智能的普遍性特征之外，还具有语音情感识别本身的独有特征，下面将进行详细的介绍。

为了便于理解，下面先对本申请涉及的语音情感识别方法要识别的情感状态进行详细的介绍。情感状态用于描述人对客观事物所持的态度体验。情感状态的表示方式包括两种：离散表示和维度表示。其中，离散表示为通过兴奋、高兴、欢乐、愉悦、被吸引、平静、放松、中立、宁静、瞌睡、无聊、失望、悲伤、紧张、气恼、害怕、生气、恐惧、愤怒、狂怒等等。维度表示可以将情感状态表示为多维情感空间中的点。例如，如图2所示，多维情感空间可以是激活度-效价空间，其中，横纵是效价，纵轴是激活度。所以，一种情感状态可以表示为激活度-效价空间中的一个点(g1，g2)，g1为该情感状态在横轴上的投影，g2为该情感状态在纵轴上的投影。为了陈述简便，下面将以情感状态为离散表示为例进行说明。

在人机交互领域，语音情感识别系统可以根据语音数据识别用户的情感状态，从而调整应对策略。例如，语音自动服务系统可以通过语音情感识别系统发现情感状态为愤怒的用户，并将他们的电话及时转给人工客服；远程教育系统可以通过语音情感识别系统发现情感状态为无聊的学生，从而及时调整授课重点或者进度；医疗系统可以通过语音情感识别系统识别抑郁症患者的情感状态，从而调整治疗方向等等。

语音情感识别系统可以按照时间顺序从音频中截取出t帧用于进行情感状态识别的语音帧i1，i2，…，it，以作为语音数据。其中，t为自然数。可以理解，上述t帧语音帧中相邻两帧语音帧之间的时间间隔可以是相等的，也可以是不相等的，此处不作具体限定。

语音情感识别系统可以从语音数据中分别提取得到情感声学特征以及音素数据，下面将分别进行详细的介绍。

(1)语音情感识别系统从语音数据中提取情感声学特征数据。

语音情感识别系统将语音数据(包括t帧语音帧i1，i2，…，it)分别输入声学特征识别模型，从而得到t帧语音帧的情感声学特征数据s1，s2，…，st。具体地，语音情感识别系统根据语音帧i1确定情感声学特征数据s1，语音情感识别系统根据语音帧i2确定情感声学特征数据s2，…，语音情感识别系统根据语音帧it确定情感声学特征数据st。其中，情感声学特征数据为从语音帧提取出来的特征数据。在一具体的实施例中，情感声学特征数据可以是根据人耳的生理特性，从语音帧提取出来的多维向量，也就是说，多维向量包含了对应的语音帧的内容信息，例如，梅尔频率倒谱系数1到12维(melfrequencycepstrumcoefficient1–12，mfcc1–12)，基频(fundmentalfrequency，f0)，当前帧包含语音的概率(prob.ofvoicing)，均方根能量(rmsenergy)，过零率(zero-crossingrate)。可选地，情感声学特征数据还可以包括mfcc1–12，f0，prob.ofvoicing，rmsenergy，zero-crossingrate等等特征的一阶差分。举个例子说明，rmsenergy的一阶差分等于第i帧语音帧的rmsenergy减去第i-1帧的rmsenergy。

(2)语音情感识别系统从语音数据中提取音素数据。

语音情感识别系统将语音数据(包括t帧语音帧i1，i2，…，it)分别输入音素识别模型，从而得到t帧语音帧的音素m1，m2，…，mt。具体地，语音情感识别系统根据语音帧i1确定音素m1，语音情感识别系统根据语音帧i2确定音素m2，…，语音情感识别系统根据语音帧it确定音素mt。其中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素等等。音素可以包括元音音素、辅音音素以及静音音素。元音音素包括a、e、i、o、u…等等。辅音音素包括b、f、h、k、t…等等。静音音素即不是元音音素，也不是辅音音素，静音音素可以表示为sil。应理解，上述举例中只以汉语进行举例，但是，在实际应用中，还可以是英语、法语、德语、日语、汉语等等世界上任一种语言，此处不作具体限定。

以第i帧语音帧ii为例，语音情感识别系统将语音帧ii输入音素识别模型，从而得到语音帧ii中包含的音素mi。

音素识别模型可以是分类模型。其中，分类模型中的分类包括：a、e、i、o、u…b、f、h、k、t…等等。也就是说，分类模型中的分类的数量c等于汉语中所有音素的总数c。这里，语音情感识别系统将语音帧ii输入分类模型可以分别计算出语音帧ii属于各个音素的概率(例如，后验概率)pi1,pi2,…,pic，并选择概率最高的音素作为识别结果。

在一具体的实施例中，如图3所示，音素识别模型包括深度神经网络(deepneuralnetworks，dnn)以及隐马尔可夫模型(hiddenmarkovmodel，hmm)。其中，深度神经网络包括输入层、隐藏层以及输出层。

以语音帧ii为例，语音帧ii的音素可以是将语音帧ii输入至音素识别模型中提取得到的。其中，i为自然数，并且，1≤i≤t。

(1)将语音帧ii输入dnn计算得到语音帧ii属于各个音素的观察概率。

输入层：

假设输入层的输入为语音帧ii的声学特征数据ki，输出和输入相等，即，不对输入进行任何处理。其中，声学特征数据ki为对语音帧ii进行声学特征提取得到的数据，例如，可以是mfcc1-12或者更高的维度，此处不作具体限定。为了陈述简便，此处假设输入层不作任何处理，但是，在实际应用中，可以对输入层进行归一化等等处理，此处不作具体限定。

隐藏层：

将输入层输出的语音帧ii的情感声学特征数据si作为隐藏层的输入，假设总共l(l≥2)层隐藏层，设z^l表示第l层的输出结果，当l＝1时，z¹＝si，其中，1≤l≤l，那么，第l层和第l+1层之间的关系为：

a^l+1＝w^lz^l+b^l

z^l+1＝f^l+1(a^l+1)

其中，w^l为第l层的权值向量，b^l为第l层的偏置向量，a^l+1为第l+1层的中间向量，f^l⁺¹为第l+1层的激励函数，z^l+1为第l+1层的隐藏层结果。激励函数可以是sigmoid函数，双曲正切函数，relu函数，elu(exponentiallinearunits)函数等等中的任意一种。

输出层：

假设第l层的第一输出结果z^l具体为(z1,z2,…,zc)，则语音帧i属于第j(1≤j≤c)个音素的观察概率可以是通过softmax函数计算得到：

其中，p'j为第j个音素的观察概率，e为自然数，zj为第l层的输出z^l中的第j个元素，zk为第l层的输出z^l中的第k个元素。可以理解，上述例子中以softmax函数为例进行说明，但是，在实际的应用中，还可以采用逻辑斯谛函数(logistic)函数等等，此处不作具体限定。

由此，音素识别模型可以分别计算出语音帧i属于各个音素的观察概率p'i1,p'i2,…,p'ic。

为了简便起见，上面只陈述了语音帧i属于各个音素的观察概率，实际上，语音帧i1，i2，…，it各自属于各个音素的观察概率的识别均与语音帧ii属于各个音素的观察概率相类似，此处不再展开赘述。

上述f^l+1以及l可以是人为设置的，此处不作具体限定。上述权重向量w^l以及偏置值b^l可以是通过大量已知语音帧的音素标签进行训练后得到的。

(2)语音帧i1，i2，…，it各自属于各个音素的观察概率输入hmm计算得到语音帧i1，i2，…，it各自属于各个音素的后验概率。

(3)根据语音帧i1，i2，…，it各自属于各个音素的后验概率确定语音帧i1，i2，…，it各自所属的音素m1，m2，…，mt。例如，语音帧ii可以选择语音帧ii属于各个音素的后验概率中最大的后验概率对应的音素作为语音帧ii所属的音素mi等等。

应理解，上述音素识别模型仅仅作为一种举例，在实际应用中，音素识别模型还可以是其他的形式，例如，可以是不包括hmm的识别模型等等，此处不作具体限定。

语音情感识别系统根据t帧语音帧的音素m1，m2，…，mt，确定t帧语音帧的音素数据n1，n2，…，nt。音素数据用于表示所述语音数据中的音素的特征。音素数据可以包括音素概率，音素类型以及音素时长。音素概率为语音帧属于各个音素的概率组成的数据，例如，对于语音帧i，其对应的音素概率pi为pi1,pi2,…,pic组成的数据。音素类型可以包括元音类型、辅音类型以及静音类型。其中，当音素为a、e、i、o、u…等等时，该音素为元音类型；当音素为b、f、h、k、t…等等时，该音素属于辅音类型；当音素既不是元音音素，又不是辅音音素时，该音素为静音类型。音素时长为同一音素的持续时长，例如，同一音素的连续帧数。

对于第i帧语音帧，音素数据ni可以表示为(pi，xi，yi)，其中，i为自然数，0<i≤t，pi为第i帧语音帧的音素概率，xi用于表示第i帧语音帧的音素类型。例如，当xi的值为(0,0,1)时，表示第i帧语音帧的音素类型为元音类型，当xi的值为(0,1,0)时，表示第i帧语音帧的音素类型为辅音类型，当xi的值为(1,0,0)时，表示第i帧语音帧的音素类型为静音类型。yi用于表示第i帧语音帧的音素时长。音素概率的计算方式已经在上文中进行清楚的说明，下面将以举例的方式说明音素类型和音素时长的计算方式，假设语音情感识别系统通过音素识别模型对24帧语音帧进行的音素识别的结果为：

silsilsilnniiiisilsilsilhhaaaooosilsilsilsil。

可以看出，第一个音素sil的音素类型为静音类型，音素时长为3帧，第二个音素n的音素类型辅音类型，音素时长为2帧，第三个音素i的音素类型为元音类型，音素时长为4帧，第四个音素sil的音素类型为静音类型，音素时长为3帧，第五个音素h的音素类型为辅音类型，音素时长为2帧，第六个音素a的音素类型为元音类型，音素时长为3帧，第七个音素o的音素类型为元音类型，音素时长为3帧，第八个音素sil的音素类型为静音类型，音素时长为4帧。

在情感声学特征数据和获取音素数据之后，语音情感识别系统可以将情感声学特征数据和音素数据进行数据融合从而得到融合数据。

在一具体的实施方式中，语音情感识别系统可以通过向量拼接的方式，将情感声学特征数据和音素数据进行融合从而得到融合数据(r1，r2，…，rt)。具体地，语音情感识别系统将情感声学特征数据s1和音素数据n1进行向量拼接，从而得到融合数据r1，语音情感识别系统将情感声学特征数据s2和音素数据n2进行向量拼接，从而得到融合数据r2，…，语音情感识别系统将情感声学特征数据st和音素数据nt进行向量拼接，从而得到融合数据rt。可以理解，上述向量拼接仅仅是数据融合的一种示例，在其他的实施方式中，还可以通过其他方法进行数据融合，此处不作具体限定。

以第i帧语音帧ii为例，语音情感识别系统通过以下的向量拼接的方式进行数据融合，从而得到融合数据ri：

ri＝si+ni；

其中，si为从第i帧语音帧提取得到的情感声学特征数据，ni为根据第i帧语音帧计算得到的音素数据。

为了简便起见，上面只陈述了语音帧ii的数据融合，实际上，语音帧i1，i2，…，it各自的数据融合均与语音帧ii的数据融合相类似，此处不再展开赘述。

为了提高识别的准确性，语音情感识别系统还可以将音素类型为静音类型的首尾语音帧去掉，但是，保留音素类型为静音类型的中间语音帧。举个例子说明：假设语音情感识别系统通过音素识别模型对24帧语音帧进行的音素识别的结果为：

silsilsilnniiiisilsilsilhhaaaooosilsilsilsil。

将音素类型为静音类型的首尾语音帧去掉，但是，保留音素类型为静音类型的中间语音帧，可以得到如下结果：

silsilsilnniiiisilsilsilhhaaaooosilsilsilsil。

这里，音素类型为静音类型的首尾语音帧不能反映用户的情感状态，因而，可以将其去掉以提高识别的准确率。但是，音素类型为静音类型的中间语音帧是能够反映用户的情感状态，因此，需要将其保留。

在确定融合数据之后，语音情感识别系统将融合数据(r1，r2，…，rt)输入情感预测模型进行分类，从而得到情感状态。

在一具体的实施例中，情感预测模型可以表示为：

state＝emoforecast(r)

其中，r为融合数据，r包括r1，r2，…，rt。state为情感状态，emoforecast()为融合数据与情感状态的映射关系。emoforecast()可以是通过大量的已知情感状态和已知融合数据进行训练得到的。在一具体的实施例中，情感预测模型可以如图3所示，将融合数据r1，r2，…，rt分别输入情感预测模型，从而得到情感状态。

在一更具体的实施例中，如图4所示，情感预测模型可以包括循环神经网络(recurrentneuralnetworks，rnn)、自注意力模型以及分类器。其中，rnn可以包括双向长短期记忆模型(longshort-termmemory，lstm)等等。

(1)将融合数据(r1，r2，…，rt)输入rnn计算得到循环结果h1,h2,…,ht。其中，rnn包括神经元1，神经元2至神经元t。如图5所示，以下为rnn中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据语音帧i1中的融合数据r1以及初始输出值h0计算得到遗忘值f1：

其中，σ()为sigmoid函数，为偏置值，w1^f为权值矩阵。

然后，根据语音帧i1中的融合数据r1，初始输入值c0，初始输出值h0以及遗忘值f1计算得到输入值c1：

其中，σ()为sigmoid函数，tanh为激活函数，w1ⁱ，w1^c均为权值矩阵，均为偏置值。

最后，根据语音帧i1中的融合数据r1，初始输出值h0以及输入值c1，计算得到h1：

h1＝o1tanh(c1)

其中，σ()为sigmoid函数，tanh为激活函数，w1^o均为权值矩阵，均为偏置值。

在神经元2中：

首先，根据语音帧i2中的融合数据r2以及输出值h1计算得到遗忘值f2：

其中，σ()为sigmoid函数，为偏置值，为权值矩阵。

然后，根据语音帧i2中的融合数据r2，输入值c1，输出值h1以及遗忘值f2计算得到输入值c2：

其中，σ()为sigmoid函数，tanh为激活函数，均为权值矩阵，均为偏置值。

最后，根据语音帧i2中的融合数据r2，输出值h1以及输入值c2计算得到h2：

h2＝o11tanh(c2)

其中，σ()为sigmoid函数，tanh为激活函数，均为权值矩阵，均为偏置值。

……；

在神经元t中：

首先，根据语音帧it中的融合数据rt，以及输出值ht-1计算得到遗忘值ft：

其中，σ()为sigmoid函数，为偏置值，wt^f为权值矩阵。

然后，根据语音帧it中的融合数据rt，输入值ct-1，输出值ht-1以及遗忘值ft计算得到输入值ct：

其中，σ()为sigmoid函数，tanh为激活函数，wtⁱ，wt^c均为权值矩阵，均为偏置值。

最后，根据语音帧it中的融合数据rt，输出值ht-1以及输入值ct确定ht：

ht＝ottanh(ct)

其中，σ()为sigmoid函数，tanh为激活函数，wt^o均为权值矩阵，均为偏置值。

这里，h1,h2,…,ht构成了循环神经网络的输出的循环结果。

可以理解，上述初始输入值c0，初始输出值h0可以是人工设置的，权值矩阵w1^f至wt^f，权值矩阵w1ⁱ至wtⁱ，权值矩阵w1^c至wt^c，偏置值至偏置值至偏置值至偏置值至均是通过大量已知循环神经网络的输出结果与已知融合数据r进行训练得到的。

(2)将循环结果h1,h2,…,ht输入自注意力模型，从而得到高维情感特征，其中，d为情感状态的总数量。其中，自注意力模型包括自注意力子模型以及全连接层。

将循环结果h1,h2,…,ht输入自注意力子模型，从而得到m个注意值a1,a2,…,am：

在循环神经网络计算得到输出结果h1,h2,…,ht之后，自注意力模型根据循环神经网络的输出结果(h1,h2,…,ht)，计算得到m个注意值a1,a2,…,am。下面将以注意值aj为例说明注意值是如何计算得到的，1≤j≤m：

其中，a1j,a2j,…,atj为第j组注意力权重，h1,h2,…,ht为循环神经网络的输出的循环结果。

将m个注意值a1,a2,…,am输入全连接层，从而得到高维情感特征。

(3)将高维情感特征输入softmax分类器，从而得到语音数据(包括t帧语音帧i1，i2，…，it)的属于各个情感状态state1，state2，…，stated的概率。其中，d为情感状态的总数量。上述例子中以softmax分类器为例进行说明，但是，在实际应用中，还可以采用logistic分类器，此处不作具体限定。

由此，语音情感识别系统可以分别计算出语音数据属于各个情感状态的概率，并根据语音数据属于各个情感状态的概率确定语音数据所属的情感状态。

可以理解，上述循环神经网络、自注意力模型以及分类器可以分别是三个不同的神经网络，也可以集成在同一个神经网络中。当循环神经网络、自注意力模型以及分类器集成在同一个神经网络时，循环神经网络、自注意力模型以及分类器可以分别是该神经网络中的不同层。

下面将通过具体的实验数据说明采用本申请的语音情感识别方法能够比现有技术的语音情感识别方法提高识别精度。

使用500说话人语音数据库做实验，其中成人250人，儿童250人，说话人覆盖各年龄段和性别，每人包含200句语音，语音中各情感类型数量均衡。对成人和儿童分别选取200人做训练集，剩余50人做测试集。实验结果如下：

可以看到本申请的语音情感识别方法的准确度能够比现有技术的语音情感识别方法的准确度提高12％左右。

前述的内容详细地介绍了通过训练好的音素识别模型和训练好的情感状态识别模型识别语音数据的情感状态的过程，但是，在进行识别之前，需要分别对未训练好的音素识别模型和未训练好的情感状态识别模型进行训练，从而得到训练好的音素识别模型和训练好的情感状态识别模型。下面将分别对未训练好的音素识别模型和未训练好的情感状态识别模型进行训练。

(1)对未训练好的音素识别模型进行训练的过程具体为：获取大量已知语音帧和大量已知语音帧对应的音素。这里，已知语音帧可以是从不蕴含情感状态的相关信息的语音数据(可以称之为第一训练数据)中提取得到的语音帧。也就是说，已知语音帧可以是在说话者没有感情流露的时候采集到的语音帧。然后，将大量已知语音帧和大量已知语音帧对应的音素多次输入未训练好的音素识别模型进行重复训练，直到音素识别模型能够正确对音素进行识别。对于单次训练来说，因为音素识别模型的输出尽可能的接近真正想要预测的值，所以，可以将某帧已知语音帧输入音素识别模型，从而得到该已知语音帧的预测值，并将该语音帧对应的音素作为真正想要的目标值，比较当前音素识别模型的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层音素识别模型的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为音素识别模型中的各层预先配置参数)，比如，如果音素识别模型的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到音素识别模型能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么音素识别模型的训练就变成了尽可能缩小这个loss的过程。

(2)对未训练好的情感状态识别模型进行训练的过程具体为：获取大量已知融合数据和大量已知融合数据对应的情感状态。这里，已知融合数据可以是从蕴含情感状态的相关信息的语音数据(可以称之为第二训练数据)中计算得到的融合数据(融合数据的计算方法可以参见上文)。然后，将大量已知融合数据和大量已知融合数据对应的情感状态多次输入未训练好的情感状态识别模型进行重复训练，直到情感状态识别模型能够正确对情感状态进行识别。对于单次训练来说，因为情感状态识别模型的输出尽可能的接近真正想要预测的值，所以，可以将某已知融合数据输入情感状态识别模型，从而得到该已知融合数据的预测值，并将该已知融合数据对应的情感状态作为真正想要的目标值，比较当前情感状态识别模型的预测值和真正想要的目标值，再根据两者之间的差异情况来更新音素识别模型中的循环神经网络的每一层的权重向量以及自注意力模型中的注意力权重(当然，在第一次更新之前通常会有初始化的过程，即为情感状态识别模型中的各层预先配置参数)，比如，如果情感状态识别模型的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到情感状态识别模型能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么情感状态识别模型的训练就变成了尽可能缩小这个loss的过程。

在训练的过程中，对音素识别模型进行训练时可以采集不蕴含情感状态的相关信息的语音数据，对情感状态识别模型进行训练时需要采集蕴含情感状态的相关信息的语音数据。由于不蕴含情感状态的相关信息的语音数据的采集比较容易，数量也比较多，蕴含情感状态的相关信息的语音数据的采集难度比较高，数量也比较少，因此，本申请能够利用不蕴含情感状态的相关信息的语音数据辅助进行情感状态的识别，有效增加情感状态的识别训练数据的数量，进而能够更好地对情感状态识别模型进行训练，从而提高情感状态识别的准确性。

参阅图6，图6是本申请提供的一种语音情感识别方法的流程示意图。本实施例的语音情感识别方法，包括：

s101：通过传感器获取语音数据，其中，所述语音数据包括t个语音帧i1，i2，…，it，t为正整数。

s102：通过处理器将语音帧i1，i2，…，it分别输入声学特征识别模型，从而得到语音帧i1，i2，…，it各自的情感声学特征数据s1，s2，…，st，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据。

在本申请具体的实施例中，情感声学特征数据为从语音帧提取出来的特征数据。在一具体的实施例中，情感声学特征数据可以是根据人耳的生理特性，从语音帧提取出来的多维向量，也就是说，多维向量包含了对应的语音帧的内容信息，例如，梅尔频率倒谱系数1到12维(melfrequencycepstrumcoefficient1–12，mfcc1–12)，基频(fundmentalfrequency，f0)，当前帧包含语音的概率(prob.ofvoicing)，均方根能量(rmsenergy)，过零率(zero-crossingrate)。可选地，情感声学特征数据还可以包括mfcc1–12，f0，prob.ofvoicing，rmsenergy，zero-crossingrate等等特征的一阶差分。举个例子说明，rmsenergy的一阶差分等于第i帧语音帧的rmsenergy减去第i-1帧的rmsenergy。

在本申请具体的实施例中，语音情感识别系统将语音数据(包括t帧语音帧i1，i2，…，it)分别输入声学特征识别模型，从而得到t帧语音帧的情感声学特征数据s1，s2，…，st。具体地，语音情感识别系统根据语音帧i1确定情感声学特征数据s1，语音情感识别系统根据语音帧i2确定情感声学特征数据s2，…，语音情感识别系统根据语音帧it确定情感声学特征数据st。

s103：通过处理器将语音帧i1，i2，…，it分别输入音素识别模型，从而得到语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt。

在本申请具体的实施例中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素等等。音素可以包括元音音素、辅音音素以及静音音素。元音音素包括a、e、i、o、u…等等。辅音音素包括b、f、h、k、t…等等。静音音素即不是元音音素，也不是辅音音素，静音音素可以表示为sil。应理解，上述举例中只以汉语进行举例，但是，在实际应用中，还可以是英语、法语、德语、日语、汉语等等世界上任一种语言，此处不作具体限定。

在本申请具体的实施例中，语音情感识别系统将语音数据(包括t帧语音帧i1，i2，…，it)分别输入音素识别模型，从而得到t帧语音帧的音素m1，m2，…，mt。具体地，语音情感识别系统根据语音帧i1确定音素m1，语音情感识别系统根据语音帧i2确定音素m2，…，语音情感识别系统根据语音帧it确定音素mt。

在本申请具体的实施例中，音素识别模型可以是分类模型。其中，分类模型中的分类包括：a、e、i、o、u…b、f、h、k、t…等等。也就是说，分类模型中的分类的数量c等于汉语中所有音素的总数c。这里，语音情感识别系统将语音帧ii输入分类模型可以分别计算出语音帧ii属于各个音素的概率(例如，后验概率)pi1,pi2,…,pic，并选择概率最高的音素作为识别结果。

在一具体的实施例中，音素识别模型包括深度神经网络(deepneuralnetworks，dnn)以及隐马尔可夫模型(hiddenmarkovmodel，hmm)。其中，深度神经网络包括输入层、隐藏层以及输出层。

以语音帧ii为例，语音帧ii的音素可以是将语音帧ii输入至音素识别模型中提取得到的。其中，i为自然数，并且，1≤i≤t。

(1)将语音帧ii输入dnn计算得到语音帧ii属于各个音素的观察概率。

输入层：

隐藏层：

a^l+1＝w^lz^l+b^l

z^l+1＝f^l+1(a^l+1)

输出层：

假设第l层的第一输出结果z^l具体为(z1,z2,…,zc)，则语音帧i属于第j(1≤j≤c)个音素的观察概率可以是通过softmax函数计算得到：

由此，音素识别模型可以分别计算出语音帧i属于各个音素的观察概率p'i1,p'i2,…,p'ic。

上述f^l+1以及l可以是人为设置的，此处不作具体限定。上述权重向量w^l以及偏置值b^l可以是通过大量已知语音帧的音素标签进行训练后得到的。

(2)语音帧i1，i2，…，it各自属于各个音素的观察概率输入hmm计算得到语音帧i1，i2，…，it各自属于各个音素的后验概率。

s104：通过处理器，并根据所述语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt，确定所述语音帧i1，i2，…，it各自的音素数据n1，n2，…，nt，其中，音素数据用于表示所述语音数据中的音素的特征。

在本申请具体的实施例中，音素数据可以包括音素概率，音素类型以及音素时长。音素概率为语音帧属于各个音素的概率组成的数据，例如，对于语音帧i，其对应的音素概率pi为pi1,pi2,…,pic组成的数据。音素类型可以包括元音类型、辅音类型以及静音类型。其中，当音素为a、e、i、o、u…等等时，该音素为元音类型；当音素为b、f、h、k、t…等等时，该音素属于辅音类型；当音素既不是元音音素，又不是辅音音素时，该音素为静音类型。音素时长为同一音素的持续时长，例如，同一音素的连续帧数。

silsilsilnniiiisilsilsilhhaaaooosilsilsilsil。

s105：通过处理器将所述情感声学特征数据s1，s2，…，st和所述音素数据n1，n2，…，nt进行融合，从而得到融合数据r1，r2，…，rt。

在本申请具体的实施例中，语音情感识别系统可以通过向量拼接的方式，将情感声学特征数据和音素数据进行融合从而得到融合数据(r1，r2，…，rt)。具体地，语音情感识别系统将情感声学特征数据s1和音素数据n1进行向量拼接，从而得到融合数据r1，语音情感识别系统将情感声学特征数据s2和音素数据n2进行向量拼接，从而得到融合数据r2，…，语音情感识别系统将情感声学特征数据st和音素数据nt进行向量拼接，从而得到融合数据rt。可以理解，上述向量拼接仅仅是数据融合的一种示例，在其他的实施方式中，还可以通过其他方法进行数据融合，此处不作具体限定。

以第i帧语音帧ii为例，语音情感识别系统通过以下的向量拼接的方式进行数据融合，从而得到融合数据ri：

ri＝si+ni；

其中，si为从第i帧语音帧提取得到的情感声学特征数据，ni为根据第i帧语音帧计算得到的音素数据。

为了简便起见，上面只陈述了语音帧ii的数据融合，实际上，语音帧i1，i2，…，it各自的数据融合均与语音帧ii的数据融合相类似，此处不再展开赘述。

silsilsilnniiiisilsilsilhhaaaooosilsilsilsil。

将音素类型为静音类型的首尾语音帧去掉，但是，保留音素类型为静音类型的中间语音帧，可以得到如下结果：

s106：通过处理器将所述融合数据r1，r2，…，rt输入情感状态识别模型，从而确定所述语音数据的情感状态。

在本申请具体的实施例中，情感状态用于描述人对客观事物所持的态度体验。情感状态的表示方式包括两种：离散表示和维度表示。其中，离散表示为通过兴奋、高兴、欢乐、愉悦、被吸引、平静、放松、中立、宁静、瞌睡、无聊、失望、悲伤、紧张、气恼、害怕、生气、恐惧、愤怒、狂怒等等。维度表示可以将情感状态表示为多维情感空间中的点。例如，多维情感空间可以是激活度-效价空间，其中，横纵是效价，纵轴是激活度。所以，一种情感状态可以表示为激活度-效价空间中的一个点(g1，g2)，g1为该情感状态在横轴上的投影，g2为该情感状态在纵轴上的投影。

在本申请具体的实施例中，情感预测模型可以表示为：

state＝emoforecast(r)

其中，r为融合数据，r包括r1，r2，…，rt。state为情感状态，emoforecast()为融合数据与情感状态的映射关系。emoforecast()可以是通过大量的已知情感状态和已知融合数据进行训练得到的。在一具体的实施例中，将融合数据r1，r2，…，rt分别输入情感预测模型，从而得到情感状态。

在一更具体的实施例中，情感预测模型可以包括循环神经网络(recurrentneuralnetworks，rnn)、自注意力模型以及分类器。其中，rnn可以包括双向长短期记忆模型(longshort-termmemory，lstm)等等。

(1)将融合数据(r1，r2，…，rt)输入rnn计算得到循环结果h1,h2,…,ht。其中，rnn包括神经元1，神经元2至神经元t。以下为rnn中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据语音帧i1中的融合数据r1以及初始输出值h0计算得到遗忘值f1：

其中，σ()为sigmoid函数，为偏置值，w1^f为权值矩阵。

然后，根据语音帧i1中的融合数据r1，初始输入值c0，初始输出值h0以及遗忘值f1计算得到输入值c1：

其中，σ()为sigmoid函数，tanh为激活函数，w1ⁱ，w1^c均为权值矩阵，均为偏置值。

最后，根据语音帧i1中的融合数据r1，初始输出值h0以及输入值c1，计算得到h1：

h1＝o1tanh(c1)

其中，σ()为sigmoid函数，tanh为激活函数，w1^o均为权值矩阵，均为偏置值。

在神经元2中：

首先，根据语音帧i2中的融合数据r2以及输出值h1计算得到遗忘值f2：

其中，σ()为sigmoid函数，为偏置值，为权值矩阵。

然后，根据语音帧i2中的融合数据r2，输入值c1，输出值h1以及遗忘值f2计算得到输入值c2：

其中，σ()为sigmoid函数，tanh为激活函数，均为权值矩阵，均为偏置值。

最后，根据语音帧i2中的融合数据r2，输出值h1以及输入值c2计算得到h2：

h2＝o11tanh(c2)

其中，σ()为sigmoid函数，tanh为激活函数，均为权值矩阵，均为偏置值。

……；

在神经元t中：

首先，根据语音帧it中的融合数据rt，以及输出值ht-1计算得到遗忘值ft：

其中，σ()为sigmoid函数，为偏置值，wt^f为权值矩阵。

然后，根据语音帧it中的融合数据rt，输入值ct-1，输出值ht-1以及遗忘值ft计算得到输入值ct：

其中，σ()为sigmoid函数，tanh为激活函数，wtⁱ，wt^c均为权值矩阵，均为偏置值。

最后，根据语音帧it中的融合数据rt，输出值ht-1以及输入值ct确定ht：

ht＝ottanh(ct)

其中，σ()为sigmoid函数，tanh为激活函数，wt^o均为权值矩阵，均为偏置值。

这里，h1,h2,…,ht构成了循环神经网络的输出的循环结果。

将循环结果h1,h2,…,ht输入自注意力子模型，从而得到m个注意值a1,a2,…,am：

其中，a1j,a2j,…,atj为第j组注意力权重，h1,h2,…,ht为循环神经网络的输出的循环结果。

将m个注意值a1,a2,…,am输入全连接层，从而得到高维情感特征。

由此，语音情感识别系统可以分别计算出语音数据属于各个情感状态的概率，并根据语音数据属于各个情感状态的概率确定语音数据所属的情感状态。

参阅图7，图7是本申请提供的一种语音情感识别装置的结构示意图。本实施例的语音情感识别装置，包括：获取模块110、声学特征识别模型120、音素识别模型130、确定模块140、融合模块150以及情感状态识别模型160。

所述获取模块110用于获取语音数据，其中，所述语音数据包括t个语音帧i1，i2，…，it，t为正整数。

所述声学特征识别模型120用于根据语音帧i1，i2，…，it得到语音帧i1，i2，…，it各自的情感声学特征数据s1，s2，…，st，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据。

所述音素识别模型130用于根据语音帧i1，i2，…，it得到语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt。

所述确定模块140用于根据所述语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt，确定所述语音帧i1，i2，…，it各自的音素数据n1，n2，…，nt，其中，音素数据用于表示所述语音数据中的音素的特征。

所述融合模块150用于将所述情感声学特征数据s1，s2，…，st和所述音素数据n1，n2，…，nt进行融合，从而得到融合数据r1，r2，…，rt。

所述情感状态识别模型160用于根据所述融合数据r1，r2，…，rt确定所述语音数据的情感状态。

为了陈述简便，本实施例并没有对语音数据、情感声学特征数据、音素数据、声学特征识别模型、音素识别模型、融合数据、情感状态识别模型、情感状态的概念进行详细的介绍，也没有对语音数据的获取方式、情感声学特征数据的提取方式、音素数据的提取方式、情感声学特征数据和音素数据的融合方式、通过情感状态识别模型进行情感状态预测的方式以及情感状态识别模型的训练方式进行详细的介绍，具体将参见图2至图6以及相关描述。

参阅图8，图8是本申请提供的一种识别设备的结构示意图。本实施例的识别设备包括：一个或多个第一处理器210、传感器220、通信接口230、外部存储器240、第二处理器250以及总线260。其中，第一处理器210、传感器220、通信接口230、外部存储器240以及第二处理器250之间可以通过总线260连接。

第一处理器210包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(centralprocessingunit，cpu)、微处理器、微控制器、主处理器、控制器以及asic(applicationspecificintegratedcircuit，专用集成电路)等等。第一处理器210执行各种类型的数字存储指令，例如存储在存储器230中的软件或者固件程序，它能使识别设备提供较宽的多种服务。例如，第一处理器210能够执行程序或者处理数据，以执行本文讨论的方法的至少一部分。

传感器220可以包括音频采集装置，用于直接获取已有音频、利用音频处理软件捕获截取声音、用音频输入装置(例如，麦克风)录制声音，并将音频转换为音频数据。

通信接口230可以为有线接口(例如以太网接口)，用于与其他识别设备或用户进行通信。

外部存储器240可以包括易失性存储器(volatilememory)，例如随机存取存储器(randomaccessmemory，ram)；存储器也可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-onlymemory，rom)、快闪存储器(flashmemory)、硬盘(harddiskdrive，hdd)或固态硬盘(solid-statedrive，ssd)存储器还可以包括上述种类的存储器的组合。外部存储器240可以存储有程序代码以及程序数据。

其中，所述第一处理器210通过调用外部存储器240中的程序代码，用于执行以下步骤：

通过传感器220获取语音数据，其中，所述语音数据包括t个语音帧i1，i2，…，it，t为正整数；

通过第二处理器250将语音帧i1，i2，…，it分别输入声学特征识别模型，从而得到语音帧i1，i2，…，it各自的情感声学特征数据s1，s2，…，st，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

通过第二处理器250将语音帧i1，i2，…，it分别输入音素识别模型，从而得到语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt；

通过第一处理器210并根据所述语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt，确定所述语音帧i1，i2，…，it各自的音素数据n1，n2，…，nt，其中，音素数据用于表示所述语音数据中的音素的特征；

通过第一处理器210将所述情感声学特征数据s1，s2，…，st和所述音素数据n1，n2，…，nt进行融合，从而得到融合数据r1，r2，…，rt；

通过第二处理器250将所述融合数据r1，r2，…，rt输入情感状态识别模型，从而确定所述语音数据的情感状态。

参阅图9，图9是本申请提供的一种芯片硬件结构图。图8所示的第二处理器可以是图9所示的芯片中实现，也可以说，图6所示的语音情感识别方法中的部分步骤可以在图9所示的芯片中实现，图7所示的语音情感识别装置中的部分功能可以设置在图9所示的芯片中。下面将以芯片为神经网络处理器npu为例进行说明。npu作为协处理器挂载到主cpu(hostcpu)上，由hostcpu分配任务。npu的核心部分为运算电路，通过控制器304控制运算电路303提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路303内部包括多个处理单元(processengine,pe)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵a，权重矩阵b，输出矩阵c。运算电路从权重存储器302中取矩阵b相应的数据，并缓存在运算电路中每一个pe上。运算电路从输入存储器301中取矩阵a数据与矩阵b进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器208accumulator中。

统一存储器306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器305directmemoryaccesscontroller，dmac被搬运到权重存储器302中。输入数据也通过dmac被搬运到统一存储器306中。

biu为businterfaceunit即，总线接口单元310，用于axi总线与dmac和取指存储器509instructionfetchbuffer的交互。

总线接口单元310(businterfaceunit，简称biu)，用于取指存储器309从外部存储器获取指令，还用于存储单元访问控制器305从外部存储器获取输入矩阵a或者权重矩阵b的原数据。

dmac主要用于将外部存储器ddr中的输入数据搬运到统一存储器306或将权重数据搬运到权重存储器302中或将输入数据数据搬运到输入存储器301中。

向量计算单元307多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/fc层网络计算，如pooling(池化)，batchnormalization(批归一化)，localresponsenormalization(局部响应归一化)等。

在一些实现种，向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路303的激活输入，例如用于在神经网络中的后续层中的使用。

控制器304连接的取指存储器(instructionfetchbuffer)309，用于存储控制器304使用的指令；

统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为on-chip存储器。外部存储器私有于该npu硬件架构。

其中，图3和图4所示的音素识别模型以及情感状态识别模型中各层的运算可以由权重存储器302或向量计算单元307执行。此外，声学特征识别模型中的各层的运算可以由权重存储器302或向量计算单元307执行。

参见图10，图10是本申请提供的一种云系统的结构示意图。识别设备410由一个或多个服务器实现，可选的，与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备；识别设备410可以布置在一个物理站点上，或者分布在多个物理站点上。识别设备410可以使用数据存储系统450中的数据，或者调用数据存储系统450中的程序代码实现图6所示的语音情感识别方法，具体地，识别设备410可以执行如下步骤：

识别设备410用于通过传感器获取语音数据，其中，所述语音数据包括t个语音帧i1，i2，…，it，t为正整数；

识别设备410用于通过第二处理器将语音帧i1，i2，…，it分别输入声学特征识别模型，从而得到语音帧i1，i2，…，it各自的情感声学特征数据s1，s2，…，st，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

识别设备410用于通过第二处理器将语音帧i1，i2，…，it分别输入音素识别模型，从而得到语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt；

识别设备410用于通过第一处理器并根据所述语音帧i1，i2，…，it各自的所属的音素m1，m2，…，mt，确定所述语音帧i1，i2，…，it各自的音素数据n1，n2，…，nt，其中，音素数据用于表示所述语音数据中的音素的特征；

识别设备410用于通过第一处理器将所述情感声学特征数据s1，s2，…，st和所述音素数据n1，n2，…，nt进行融合，从而得到融合数据r1，r2，…，rt；

识别设备410用于通过第二处理器将所述融合数据r1，r2，…，rt输入情感状态识别模型，从而确定所述语音数据的情感状态。

用户可以操作各自的用户设备(例如本地设备401和本地设备402)与识别设备410进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与识别设备410进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在另一种实现中，识别设备410的一个方面或多个方面可以由每个本地设备实现，例如，本地设备401可以为识别设备410提供本地数据或反馈计算结果。

需要注意的，识别设备410的所有功能也可以由本地设备实现。例如，本地设备401实现识别设备410的的功能并为自己的用户提供服务，或者为本地设备402的用户提供服务。

参阅图11，图11是本申请提供的一种情感状态识别模型的训练方法的流程示意图。本实施方式的情感状态识别模型的训练方法，包括如下步骤：

s201：获取训练数据，其中，所述训练数据包括p个训练语音帧train1，train2，…，trainp，p为正整数；

s202：将训练语音帧train1，train2，…，trainp分别输入声学特征识别模型，从而得到语音帧训练语音帧trai1n，train2，…，trainp各自的情感声学特征数据featur1e，feature2，…，featurep，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

s203：获取语音帧训练语音帧train1，train2，…，trainp各自所属的音素phoneme1，phoneme2，…，phonemep；

s204：根据所述训练语音帧train1，train2，…，trainp各自的所属的音素phoneme1，phoneme2，…，phonemep，确定所述训练语音帧train1，train2，…，trainp各自的音素数据data1，data2，…，datap，其中，音素数据用于表示训练数据中的音素的特征；

s205将所述情感声学特征数据feature1，feature2，…，featurep和所述音素数据data1，data2，…，datap进行融合，从而得到融合数据fuse1，fuse2，…，fusep；

s206：获取所述训练数据的情感状态；

s207：通过所述融合数据fuse1，fuse2，…，fusep和所述情感状态对情感状态识别模型进行训练。

可以理解，图11所示的训练中的步骤s201至步骤s205的执行过程与图6中的语音情感识别方法中的步骤s101至步骤s105的执行过程相类似，具体请参见图6以及相关描述，此处不再展开描述。

参阅图12，图12是本申请提供的一种训练设备的结构示意图。本实施方式的训练设备包括：获取模块501、声学特征识别模型502、确定模块503、融合模块504以及训练模块505，

所述获取模块501用于获取训练数据，其中，所述训练数据包括p个训练语音帧train1，train2，…，trainp，p为正整数；

所述声学特征识别模型502用于将训练语音帧train1，train2，…，trainp分别输入声学特征识别模型，从而得到语音帧训练语音帧train1，train2，…，trainp各自的情感声学特征数据feature1，feature2，…，featurep，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

所述获取模块501用于获取语音帧训练语音帧train1，train2，…，trainp各自所属的音素phoneme1，phoneme2，…，phonemep；

所述确定模块503用于根据所述训练语音帧train1，train2，…，trainp各自的所属的音素phoneme1，phoneme2，…，phonemep，确定所述训练语音帧train1，train2，…，trainp各自的音素数据data1，data2，…，datap，其中，音素数据用于表示训练数据中的音素的特征；

所述融合模块504用于将所述情感声学特征数据feature1，feature2，…，featurep和所述音素数据data1，data2，…，datap进行融合，从而得到融合数据fuse1，fuse2，…，fusep；

所述获取模块501用于获取所述训练数据的情感状态；

所述训练模块505用于通过所述融合数据fuse1，fuse2，…，fusep和所述情感状态对情感状态识别模型进行训练。

参阅图13，图13是本申请提供的一种系统架构的结构示意图。数据采集设备606用于采集训练数据和情感状态并存入数据库603，训练设备602基于数据库603中维护的训练数据和情感状态生成目标模型/规则601。下面将更详细地描述训练设备602如何基于训练语音数据数据得到目标模型/规则601，目标模型/规则601能够对语音数据进行预测，从而确定所述语音数据的情感状态。具体地，

训练设备602从数据库603获取训练数据，其中，所述训练数据包括p个训练语音帧train1，train2，…，trainp，p为正整数；

训练设备602将训练语音帧train1，train2，…，trainp分别输入声学特征识别模型610，从而得到语音帧训练语音帧train1，train2，…，trainp各自的情感声学特征数据feature1，feature2，…，featurep，其中，情感声学特征数据为根据人耳的生理特性提取出来的数据；

训练设备602获取语音帧训练语音帧train1，train2，…，trainp各自所属的音素phoneme1，phoneme2，…，phonemep。在一具体的实施例中，训练设备602可以通过音素识别模型611对训练语音帧train1，train2，…，trainp进行识别，从而确定各自所属的音素phoneme1，phoneme2，…，phonemep。在另一具体的实施例中，语音帧训练语音帧train1，train2，…，trainp各自所属的音素phoneme1，phoneme2，…，phonemep也可以是人工输入的。

训练设备602根据所述训练语音帧train1，train2，…，trainp各自的所属的音素phoneme1，phoneme2，…，phonemep，确定所述训练语音帧train1，train2，…，trainp各自的音素数据data1，data2，…，datap，其中，音素数据用于表示训练数据中的音素的特征；

训练设备602将所述情感声学特征数据feature1，feature2，…，featurep和所述音素数据data1，data2，…，datap进行融合，从而得到融合数据fuse1，fuse2，…，fusep；

训练设备602获取所述训练数据的情感状态；

训练设备602通过所述融合数据fuse1，fuse2，…，fusep和所述情感状态对情感状态识别模型进行训练，从而生成目标模型/规则601。

在训练时，因为希望情感状态识别模型的输出尽可能的接近真正想要预测的值，所以可以通过比较当前情感状态识别模型的预测值和真正想要的目标值，再根据两者之间的差异情况来更新情感状态识别模型中每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为情感状态识别模型中的各层预先配置参数)，比如，如果情感状态识别模型的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到情感状态识别模型能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么情感状态识别模型的训练就变成了尽可能缩小这个loss的过程。

训练设备602得到的目标模型/规则可以应用不同的系统或设备中。在图13中，执行设备601配置有i/o接口607，与外部设备进行数据交互，“用户”可以通过客户设备604向i/o接口607输入数据。

执行设备601可以调用数据存储系统605中的数据、代码等，也可以将数据、指令等存入数据存储系统605中。

计算模块608使用目标模型/规则601对输入的融合数据进行处理，从而得到该融合数据对应的情感状态。

最后，i/o接口607将处理结果返回给客户设备604，提供给用户。

更深层地，训练设备602可以针对不同的目标，基于不同的数据生成相应的目标模型/规则601，以给用户提供更佳的结果。

在图13中所示情况下，用户可以手动指定输入执行设备601中的数据，例如，在i/o接口607提供的界面中操作。另一种情况下，客户设备604可以自动地向i/o接口607输入数据并获得结果，如果客户设备604自动输入数据需要获得用户的授权，用户可以在客户设备240中设置相应权限。用户可以在客户设备604查看执行设备601输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备604也可以作为数据采集端将采集到的训练数据存入数据库603。

值得注意的，图13仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图13中，数据存储系统605相对执行设备601是外部存储器，在其它情况下，也可以将数据存储系统605置于执行设备601中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、存储盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态存储盘solidstatedisk(ssd))等。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。