一种动物情感识别方法、装置及电子设备与流程

2021-01-28 14:01:54|

267|

起点商标网

本发明涉及语音识别技术领域，尤其涉及一种动物情感识别方法、装置及电子设备。

背景技术：

动物和人一样，也会有喜怒哀乐，拿狗举个例子，当开心的时候回汪汪叫，害怕的时候，嗯嗯叫。现有的方法仅能通过人为经验对动物的声音进行识别，并判断动物的情感变化，无法准确了解动物实际的需求，并及时给与帮助，关爱等。

技术实现要素：

本发明实施例的目的是提供一种动物情感识别方法、装置及电子设备，以解决无法准确了解动物实际的需求，并及时给与帮助，关爱等的问题。

为了解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种动物情感识别方法，包括：

确定待识别音频对应的动物类型；

根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息；其中，所述频谱特征信息包括所述频率序列对应的频域信号序列；

将所述待识别音频的频谱特征信息输入到预置的与所述动物类型对应的情感识别模型，得到所述待识别音频的情感标识；其中，所述情感识别模型为，预先以所述动物类型的训练音频的频谱特征信息为样本，以所述训练音频对应的情感标识为样本标签进行训练得到的。

第二方面，本发明实施例提供了一种动物情感识别装置，包括：

类型获取单元，用于确定待识别音频对应的动物类型；

特征分析单元，用于根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息；其中，所述频谱特征信息包括所述频率序列对应的频域信号序列；

情感识别单元，用于将所述待识别音频的频谱特征信息输入到预置的与所述动物类型对应的情感识别模型，得到所述待识别音频的情感标识；其中，所述情感识别模型为，预先以所述动物类型的训练音频的频谱特征信息为样本，以所述训练音频对应的情感标识为样本标签进行训练得到的。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如第一方面所述的动物情感识别方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述的动物情感识别方法步骤。

由以上本发明实施例提供的技术方案可见，本发明实施例通过确定待识别音频对应的动物类型；根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息；其中，所述频谱特征信息包括所述频率序列对应的频域信号序列；将所述待识别音频的频谱特征信息输入到预置的与所述动物类型对应的情感识别模型，得到所述待识别音频的情感标识。通过本发明实施例，实现了准确识别动物的当前情感，有助于用户与动物进行管理和交流。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的动物情感识别方法的第一种流程示意图；

图2为本发明实施例提供的动物情感识别方法的第二种流程示意图；

图3为本发明实施例提供的动物情感识别装置的模块组成示意图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

本发明实施例提供了一种动物情感识别方法、装置及电子设备。

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明实施例提供一种动物情感识别方法。该方法具体可以包括以下步骤：

步骤s01、确定待识别音频对应的动物类型。

由于不同的动物类型，存在不同的声音特性，因此，在进行情感识别前，需要先确定采集到的待识别音频所对应的动物类型。所述动物类型可以根据实际的需要进行分类，例如，可根据种类分为：猫、狗、鸟等；也可以根据不同品种作进一步细分，将狗分为：金毛、松狮、吉娃娃等；还可以进一步根据生长阶段作再进一步细分。

在实施中，可以由用户根据实际的需要在动物类型选择页面中对动物类型进行选择，或者通过采集动物的图像来自动获取。

步骤s02、根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息；其中，所述频谱特征信息包括所述频率序列对应的频域信号序列。

由于音频的不同，主要取决于频率，频率高的声音听起来短促、尖锐，频率低的声音听起来低沉，每个音频就是由这些不同频率下的不同信号强度组成的。

而不同的动物类型由于生理构造的不同，导致其发出的音频在频率上存在较大的差异，因此，需要预先获取与各动物类型对应的频率序列。

进一步地，所述频率序列为根据所述动物类型对应频率范围，通过预设的频率选取策略得到的。

先确定各个动物类型所可能产生的音频的频率范围或者主要的频率范围，例如，狗产生的音频的频率范围为0～2000hz。

然后根据预设的频率选取策略从该频率范围内选取具有代表性的频率作为所述动物类型对应的频率序列。

所述频率选取策略可以根据实际的需要进行设定，可以采用平均间隔的方式，例如，以每10hz为间隔，选取频率以组成与该动物类型对应的频率序列；也可以采用非平均间隔的方式，选取频率。而所述非平均间隔的方式，具体可选择预设的计算方法得到。

各动物类型对应的频率序列可以是不同的，对应的频率选取策略也可以是不同的。具体的确定方法，可以在对所述情感识别模型的训练过程中，从预设的多个候选频率选取策略中选取一个测试结果最佳的频率选取策略，并用于生成与该动物类型对应的频率序列。

对待识别音频进行预设的频谱特征分析，可得到所述待识别音频对应的频域信号。再根据与所述动物类型对应的频率序列，从中频域信号中选取与所述频率序列中各个频率对应的频域信号，以组成频域信号序列作为所述待识别音频的频谱特征信息。

步骤s03、将所述待识别音频的频谱特征信息输入到预置的与所述动物类型对应的情感识别模型，得到所述待识别音频的情感标识；其中，所述情感识别模型为，预先以所述动物类型的训练音频的频谱特征信息为样本，以所述训练音频对应的情感标识为样本标签进行训练得到的。

预先采集大量所述动物类型的训练音频，并对每个训练音频标记对应的情感标识。

根据所述动物类型对应的频率序列，对每个训练音频进行频谱特征分析，从而得到每个训练音频的频谱特征信息。将该动物类型的各训练音频的频谱特征信息作为样本，对预先构建的神经网络模型进行训练，从而得到该动物类型对应的情感识别模型。在实际的训练过程中，可将所有的训练音频分为训练集和测试集，由训练集对模型进行训练，再由测试集对每次训练后的模型进行测试。

所述神经网络模型可以根据实际的需要进行设定，本发明实施例仅以三层神经网络为例进行举例说明，分别由输入层、隐藏层和输出层组成，其中，所述输入层包括第一节点数的输入节点，隐藏层包括第二节点数的隐藏节点，所述输出层包括第三节点数的输出节点，采用反向传播对神经网络模型进行训练。

所述输出层的每个输出节点可以对应的一个情感标识。

进一步地，所述情感标识的数量可以根据实际的需要进行设定，本发明实施例仅给出了其中的一种举例说明，所述情感标识包括：开心、愤怒、悲伤、惊恐和哀求。且各情感标识可用一个数字进行表征，例如，开心对应于0，愤怒对应于1，悲伤对应于2，惊恐对应于3，哀求对应于4。

将待识别音频的频谱特征信息输入到训练完成后的情感识别模型中，输出得到所述待识别音频对应的情感标识，从而实现了对于发出该待识别音频的动物的情感识别。

进一步的，如图2所示，上述步骤s02的具体处理方式可以多种多样，以下再提供一种可选的处理方式，具体可以参见下述步骤s021-s022的处理。

步骤s021、从所述待识别音频中截取预设时间长度的有效音频片段。

由于动物发出的声音往往是简短的，所以在上述频谱特征分析的开始阶段，可以先从待识别音频中截取预设时间长度的有效音频片段，例如，1秒的有效音频片段。所述有效音频片段的截取方法可以根据实际的需要进行设定，例如，可根据所述待识别音频中的信号强度，截取平均信号强度最大的音频片段，或者，截取信号强度大于预设强度阈值开始后的音频片段。

步骤s022、对所述有效音频片段进行预设的快速傅里叶变换，并根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息。

通过快速傅里叶变换fft，可以将有效音频片段的时域信号，转换为频域信号，即得到各频率对应的信号强度。再根据该动物类型的频率序列，可以从转换后的频率列表中提取出与所述频率序列对应的频域信号序列，作来所述待识别音频的频谱特征信号。

上述步骤s022的具体处理方式可以多种多样，以下再提供一种可选的处理方式，具体可以参见下述步骤s0221-s0224的处理。

步骤s0221、将所述有效音频片段分割为预设分段数量的音频子片段。

对所述有效音频片段进行预设的快速傅里叶变换的过程中，可以先根据预设的分段数量对所述有效音频片段进行分割，得到多个音频子片段。例如，可以将1秒的有效音频片段，分成10段分别为100毫秒的音频子片段。

步骤s0222、根据预设的采样频率，对所述音频子片段的时域信号序列进行所述预设的快速傅里叶变换，得到所述音频子片段的频域信号序列。

然后，根据预设的采样频率，得到每个音频子片段的时域信号序列。例如，所述采样频率为44100/s，采样精度为16位浮点数，则每个100毫秒的音频子片段将对应由4410个时域信号组成的时域信号序列。

对每个音频子片段的时域信号序列进行快速傅里叶变换，转换得到所述音频子片段的频域信号序列。通过转换得到的频域信号序列可根据快速傅里叶变换的参数设定，包括设定的频率范围内各频率对应的频域信号，例如，包括0～4095hz范围内各频率对应的频域信号。各频域信号的信号强度的取值范围可以为0～1之间的浮点数，用于表示对应频率下的声音强度。

步骤s0223、根据所述动物类型对应的频率序列，从所述音频子片段的频域信号序列中提取出与所述频率序列对应的频域信号序列。

例如，预先设定了狗所对应的频率序列包括在0～2000hz范围内，以平均间隔方式选取的200个频率，则所述音频子片段与该频率序列对应的频域信号序列也同样包括200个频域信号。

步骤s0224、将各音频子片段的与所述频率序列对应的频域信号序列进行拼接，得到所述待识别音频的频谱特征信息。

根据各音频子的排序，将各频率序列对应的频域信号序列进行拼接，从而得重叠所述待识别音频的频谱特征信息。例如，将上述例子中各音频子片段与该频率序列对应的频域信号序号进行拼接，可以得到所述待识别音频的频谱特征信息包括2000个频域信号。

所述频谱特征信息中包含的频域信号的数量与情感识别模型的输入层的第一节点数相同。

由以上本发明实施例提供的技术方案可见，本发明实施例通过从所述待识别音频中截取预设时间长度的有效音频片段；将所述有效音频片段分割为预设分段数量的音频子片段；根据预设的采样频率，对所述音频子片段的时域信号序列进行所述预设的快速傅里叶变换，得到所述音频子片段的频域信号序列；根据所述动物类型对应的频率序列，从所述音频子片段的频域信号序列中提取出与所述频率序列对应的频域信号序列；将各音频子片段的与所述频率序列对应的频域信号序列进行拼接，得到所述待识别音频的频谱特征信息，实现了准确识别动物的当前情感，有助于用户与动物进行管理和交流。

对应上述实施例提供的动物情感识别方法，基于相同的技术构思，本发明实施例还提供了一种动物情感识别装置，图3为本发明实施例提供的动物情感识别装置的模块组成示意图，该动物情感识别装置用于执行图1至图2描述的动物情感识别方法，如图3所示，该动物情感识别装置包括：类型获取单元301、特征分析单元302、和情感识别单元303。

所述类型获取单元301用于确定待识别音频对应的动物类型；所述特征分析单元302用于根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息；其中，所述频谱特征信息包括所述频率序列对应的频域信号序列；所述情感识别单元303用于将所述待识别音频的频谱特征信息输入到预置的与所述动物类型对应的情感识别模型，得到所述待识别音频的情感标识；其中，所述情感识别模型为，预先以所述动物类型的训练音频的频谱特征信息为样本，以所述训练音频对应的情感标识为样本标签进行训练得到的。

进一步地，上述特征分析单元，包括：音频截取模块和特征提取模块。

所述音频截取模块，用于从所述待识别音频中截取预设时间长度的有效音频片段；

所述特征提取模块，用于对所述有效音频片段进行预设的快速傅里叶变换，并根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息。

进一步地，上述所述特征提取模块，包括：第一提取模块、第二提取模块、第三提取模块和第四提取模块。

所述第一提取模块用于将所述有效音频片段分割为预设分段数量的音频子片段；

所述第二提取模块用于根据预设的采样频率，对所述音频子片段的时域信号序列进行所述预设的快速傅里叶变换，得到所述音频子片段的频域信号序列；

所述第三提取模块用于根据所述动物类型对应的频率序列，从所述音频子片段的频域信号序列中提取出与所述频率序列对应的频域信号序列；

所述第四提取模块用于将各音频子片段的与所述频率序列对应的频域信号序列进行拼接，得到所述待识别音频的频谱特征信息。

本发明实施例提供的动物情感识别装置能够实现上述动物情感识别方法对应的实施例中的各个过程，为避免重复，这里不再赘述。

需要说明的是，本发明实施例提供的动物情感识别装置与本发明实施例提供的动物情感识别方法基于同一发明构思，因此该实施例的具体实施可以参见前述动物情感识别方法的实施，重复之处不再赘述。

对应上述实施例提供的动物情感识别方法，基于相同的技术构思，本发明实施例还提供了一种电子设备，该电子设备用于执行上述的动物情感识别方法，图4为实现本发明各个实施例的一种电子设备的结构示意图，如图4所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器401和存储器402，存储器402中可以存储有一个或一个以上存储应用程序或数据。其中，存储器402可以是短暂存储或持久存储。存储在存储器402的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器401可以设置为与存储器402通信，在电子设备上执行存储器402中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源403，一个或一个以上有线或无线网络接口404，一个或一个以上输入输出接口405，一个或一个以上键盘406。

具体在本实施例中，电子设备包括有处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现以下方法步骤：

确定待识别音频对应的动物类型；

根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息；其中，所述频谱特征信息包括所述频率序列对应的频域信号序列；

本申请实施例还提供一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下方法步骤：

确定待识别音频对应的动物类型；

根据所述动物类型对应的频率序列，得到所述待识别音频的频谱特征信息；其中，所述频谱特征信息包括所述频率序列对应的频域信号序列；

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，电子设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、装置或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。