HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

情绪识别的处理方法、装置、介质及电子设备与流程

2021-01-28 13:01:24|227|起点商标网
情绪识别的处理方法、装置、介质及电子设备与流程

本申请涉及智能设备技术领域,尤其涉及一种情绪识别的处理方法、装置、介质及电子设备。



背景技术:

随着智能设备的技术发展,用户在家庭中使用手机、电脑、智能家居设备等的场景也越来越多,智能设备除了能够满足基础功能的需求,还可以与用户之间进行交互,对用户的生活有进一步的影响。

基于上述,随着人机交互技术的发展,智能设备也能够对用户的情绪进行识别,提高交互效率。由于在特定情绪状态下,用户会产生特定的面部肌肉运动和表情模式,如心情愉悦时嘴角上翘,眼部会出现环形褶皱,愤怒时会皱眉,睁大眼睛等。因此目前常用的对用户进行情绪识别的方式是通过对面部表情进行识别实现的,即采用图像识别的方法来实现。

然而,用户可以通过伪装面部表情来演示情绪,导致该识别方式不能保证情绪识别的可靠性,识别结果的准确度较低。



技术实现要素:

本申请实施例提供一种情绪识别的处理方法、装置、设备以及存储介质,以解决现有的情绪识别方式不能保证情绪识别的可靠性,识别结果的准确度较低的问题。

第一方面,本申请实施例提供一种情绪识别的处理方法,应用于电子设备,所述方法包括:

采集获取用户的语音数据;

根据所述语音数据,获取所述用户的身份信息以及当前情绪信息;

根据所述身份信息和所述当前情绪信息,获取所述用户在预设时段内的情绪变化情况;

若所述情绪变化状况指示所述用户的情绪存在风险,则向监护人推送提醒消息,所述提醒消息用于提醒监护人所述用户的情绪存在风险。

在一种具体的实现方式中,所述根据所述语音数据,获取所述用户的身份信息,包括:

对所述语音数据进行声纹识别处理,得到第一声纹信息;

根据所述第一声纹信息和预先获取的多个用户的声纹信息与身份信息之间的对应关系,获取所述第一声纹信息对应的身份信息。

在一种具体的实现方式中,根据所述语音数据,获取所述用户的当前情绪信息,包括:

对所述语音数据进行情绪检测,得到情绪检测结果;

对所述语音数据进行语音识别处理,获取所述语音数据对应的文本信息;

根据所述文本信息中的至少一个情绪关键词和/或所述文本信息的语义,以及所述情绪检测结果,分析确定所述用户的当前情绪信息。

在一种具体的实现方式中,所述根据所述身份信息和所述当前情绪信息,获取所述用户在预设时段内的情绪变化情况,包括:

根据所述身份信息,获取本地存储的所述用户在预设时间段内的多个时刻的情绪信息;

根据所述多个时刻的情绪信息和所述当前情绪信息,分析获取所述用户在所述预设时间段内的情绪变化情况;

或者,

向服务器发送情绪变化获取请求,所述情绪获取请求包括所述身份信息和所述当前情绪信息;

接收所述服务器返回的所述情绪变化情况。

在一种具体的实现方式中,所述方法还包括:

若所述情绪变化情况指示所述用户的情绪存在风险,则根据预设的情绪安抚策略进行情绪安抚操作。

在一种具体的实现方式中,所述采集获取用户的语音数据,包括:

通过麦克风采集所处环境中的声音,并对所述声音进行语音增强处理,得到处理后的声音;

对所述处理后的声音进行语音活动检测vad,确定所述处理后的声音中是否包含语音,获取用户的所述语音数据。

在一种具体的实现方式中,所述根据所述语音数据,获取所述用户的身份信息以及当前情绪信息之前,所述方法还包括:

接收用户输入的每个用户的身份信息,并根据操作录制每个用户的语音信息;

对每个用户的语音信息进行声纹识别处理,得到每个用户对应的声纹信息;

存储每个用户的身份信息以及对应的声纹信息。

在一种具体的实现方式中,所述方法还包括:

根据用户的操作,设置监护信息;所述监护信息包括至少一个监护设备的标识信息和/或至少一个监护人的联系方式。

本申请实施例第二方面提供一种情绪识别的处理装置,包括:

采集模块,用于采集获取用户的语音数据;

处理模块,用于根据所述语音数据,获取所述用户的身份信息以及当前情绪信息;

所述处理模块还用于根据所述身份信息和所述当前情绪信息,获取所述用户在预设时段内的情绪变化情况;

推送模块,用于若所述情绪变化状况指示所述用户的情绪存在风险,则向监护人推送提醒消息,所述提醒消息用于提醒监护人所述用户的情绪存在风险。

可选的,所述处理模块具体用于:

对所述语音数据进行声纹识别处理,得到第一声纹信息;

根据所述第一声纹信息和预先获取的多个用户的声纹信息与身份信息之间的对应关系,获取所述第一声纹信息对应的身份信息;

可选的,所述处理模块具体用于:

对所述语音数据进行情绪检测,得到情绪检测结果;

对所述语音数据进行语音识别处理,获取所述语音数据对应的文本信息;

根据所述文本信息中的至少一个情绪关键词和/或所述文本信息的语义,以及所述情绪检测结果,分析确定所述用户的当前情绪信息。

可选的,所述处理模块具体用于:

根据所述身份信息,获取本地存储的所述用户在预设时间段内的多个时刻的情绪信息;

根据所述多个时刻的情绪信息和所述当前情绪信息,分析获取所述用户在所述预设时间段内的情绪变化情况;

可选的,所述装置还包括:

发送模块,用于向服务器发送情绪变化获取请求,所述情绪获取请求包括所述身份信息和所述当前情绪信息;

接收模块,用于接收所述服务器返回的所述情绪变化情况。

可选的,所述处理模块还用于:

若所述情绪变化情况指示所述用户的情绪存在风险,则根据预设的情绪安抚策略进行情绪安抚操作。

可选的,所述采集模块具体用于:

通过麦克风采集所处环境中的声音,并对所述声音进行语音增强处理,得到处理后的声音;

对所述处理后的声音进行语音活动检测vad,确定所述处理后的声音中是否包含语音,获取用户的所述语音数据。

可选的,所述装置还包括:

接收模块,用于接收用户输入的每个用户的身份信息;

所述采集模块还用于根据操作录制每个用户的语音信息;

所述处理模块还用于对每个用户的语音信息进行声纹识别处理,得到每个用户对应的声纹信息;

存储模块,用于存储每个用户的身份信息以及对应的声纹信息。

可选的,所述处理模块还用于:

根据用户的操作,设置监护信息;所述监护信息包括至少一个监护设备的标识信息和/或至少一个监护人的联系方式。

本申请实施例第三方面提供一种电子设备,包括:

存储器、处理器、音频采集装置;以及,

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来第一方面任一项所述的情绪识别的处理方法。

本申请第四方面提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面任一项所述的情绪识别的处理方法。

本申请实施例提供的一种情绪识别的处理方法、装置、设备和存储介质,电子设备采集获取用户的语音数据,根据语音数据,获取用户的身份信息以及当前情绪信息,根据身份信息和所述当前情绪信息,获取用户在预设时段内的情绪变化情况,若情绪变化状况指示所述用户的情绪存在风险,则向监护人推送提醒消息,提醒监护人所述用户的情绪存在风险。通过对语音数据的分析,确认用户的身份以及情绪信息,结合一段时间内的情绪信息,可以得到特定用户的情绪变化情况,对情绪识别更精准。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请根据一示例实施例示出的情绪识别的处理方法实施例一的流程示意图;

图2是本申请根据一示例实施例示出的情绪识别的处理方法实施例二的流程示意图;

图3是本申请根据一示例实施例示出的情绪识别的处理方法实施例三的流程示意图;

图4是本申请根据一示例实施例示出的一种情绪检测系统框图;

图5是本申请根据一示例实施例示出的一种语音识别流程框图;

图6是本申请根据一示例实施例示出的一种声纹识别流程框图;

图7是本申请根据一示例实施例示出的滚动视图的处理装置实施例一的结构示意图;

图8是本申请根据一示例实施例示出的滚动视图的处理装置实施例一的结构示意图;

图9是本申请根据一示例实施例示出的滚动视图的处理装置实施例三的结构示意图;

图10是本申请申请根据一示例实施例示出的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对现有技术提供的应用在看护机器人中的情绪识别方案,需要拍摄被看护的老人的动作,还要拍摄到面部图像等结合起来才能判断出情绪情况,并在该过程中并没有对拍摄的用户的身份进行识别,如果有其他用户的声音,图像等信息被采集到,则会导致识别结果不准确等问题。

针对上述存在的问题,本申请提供的一种情绪是被的处理方法,结合用户的身份识别,同时可以对一段时间内的情绪变化进行分析,有效提高情绪识别的精确度。

下面通过几个具体实施方式对该方案进行说明。

图1是本申请根据一示例实施例示出的情绪识别的处理方法实施例一的流程示意图。如图1所示,该方案应用在手机、平板电脑、家庭中的智能音箱,智能电视机等智能家电,或者还可以是监控设备,例如摄像头等电子设备中,本实施例提供的情绪识别的处理方法,包括:

步骤s101、采集获取用户的语音数据。

在本步骤中,电子设备为了能够对所处环境中的用户的情绪进行识别分析,需要获取到环境中的用户的语音数据,具体的获取方式一般是通过电子设备的声音采集模块进行语音采集,例如:可以通过麦克风采集获取环境中的声音。一般来说,如果使用环境中只有用户说话的声音,则直接采集声音就可以得到该用户的语音数据。然而,在具体的应用场景中,环境复杂程度较高,除了用户的语音,还有可能包括其他的环境声音以及噪音等,因此在在即获取到声音之后,可以对声音进处理得到上述语音数据。

一种具体的实现方式中,电子设备通过麦克风采集所处环境中的声音,并对所述声音进行语音增强处理,得到处理后的声音,对所述处理后的声音进行语音活动检测(voiceactivitydetection,vad),确定所述处理后的声音中是否包含语音,获取用户的所述语音数据。

该方案的含义是,在采集到声音之后,可以对声音进行增强提高质量,之后需要进行语音活动检测,确定是不是语音数据,或者包括不包括语音数据,如果包括则获取出语音数据。也可以使用麦克风阵列技术,采集电子设备的使用环境中各位成员的说话声,然后通过语音活动检测的方式进行处理,如果不是语音数据则放弃,如果是语音数据则进行增强降低环境噪声的干扰,确保采集的语音数据的质量满足要求,具体的先增强还是先语音活动检测本方案不做限制。

步骤s102、根据语音数据,获取用户的身份信息以及当前情绪信息。

在本步骤中,在获取到语音数据之后,电子设备可以根据该语音数据对用户的身份进行识别,获取该用户的身份信息,同时根据语音数据进行情绪检测,获取用户在说这些语音的当下的情绪信息,也就是上述的当前情绪信息。

根据语音数据获取用户的身份信息,需要预先获取每个不同的用户的声音的特征,例如:音量、频率等,然后根据获取到的语音数据进行对比识别,得到该用户的身份。情绪检测的方案一般是通过一定的算法进行检测,比如比较经典的基于crnn网络结构的语音情绪识别,将语音数据转换成情绪特征,然后融入神经网络中进行计算,然后进行分类判断,得到情绪信息,也可以是其他的情绪检测方案,对此不做限制。

步骤s103、根据身份信息和当前情绪信息,获取用户在预设时段内的情绪变化情况。

在本步骤中,电子设备已经识别处理了用户的身份信息以及当前情绪信息之后,此时已经可以了解用户的大致情绪,确定情绪是否存在风险,但是一般来说,每个用户都有偶然的提高音量,或者情绪低落的时候,如果时时刻刻提醒,则会降低用户的体验,带来一定的不变,因此在本方案中,电子设备可以结合当前情绪信息,以及一段时间段内的情绪信息,获取到用户在一段时间内的情绪变化情况,综合的对用户的情绪进行分析。

步骤s104、若情绪变化状况指示用户的情绪存在风险,则向监护人推送提醒消息,提醒消息用于提醒监护人用户的情绪存在风险。

在本步骤中,如果电子设备获取到该用户在一段时间内的情绪都比较失落,或者负面,或者处于不正常的状态,则确定存在一定的风险,这时候就需要向监护人发送提醒消息,提醒监护人注意关注该用户的状况,避免出现意外情况。

一般来说,推送提醒消息的方式可以是发送短信息,或者通过应用程序推送提醒信息,也可以是进行通话,还可以是直接显示提醒信息的内容,播放提醒信息的内容等方式,对此本方案不做限制。

另外,在该方案的具体实现中,应理解,为了能够与监护人取得联系,则电子设备需要与监护人或者监护人的设备之间进行通讯,因此,电子设备需要在设置中提供相应的操作,以便用户在设置过程中能够对监护人的信息进行设置,具体的,电子设备接收用户的操作,根据用户的操作,设置监护信息;所述监护信息包括至少一个监护设备的标识信息和/或至少一个监护人的联系方式。例如:可以设置监护人的电话号码,监护人的设备标识,或者监护人的微信号等。

本实施例提供的情绪识别的处理方法,电子设备采集获取用户的语音数据,根据语音数据,获取用户的身份信息以及当前情绪信息,根据身份信息和所述当前情绪信息,获取用户在预设时段内的情绪变化情况,若情绪变化状况指示所述用户的情绪存在风险,则向监护人推送提醒消息,提醒监护人所述用户的情绪存在风险。通过对语音数据的分析,确认用户的身份以及情绪信息,结合一段时间内的情绪信息,可以得到特定用户的情绪变化情况,对情绪识别更精准。

图2是本申请根据一示例实施例示出的情绪识别的处理方法实施例二的流程示意图。如图2所示,在上述实施例一的具体实现中,根据所述语音数据,获取所述用户的身份信息可以具体实现为:

s201:对语音数据进行声纹识别处理,得到第一声纹信息。

在本步骤中,电子设备为了能够获取到用户的身份,首先需要对语音数据进行声纹识别处理,获取该语音数据中的声纹特征,也就是上述的第一声纹信息。

s202:根据第一声纹信息和预先获取的多个用户的声纹信息与身份信息之间的对应关系,获取第一声纹信息对应的身份信息。

在该方案中,为了能够根据声纹信息区分不同的用户的身份,首先需要在系统中预先存储声纹信息以及身份信息之间对应关系,即需要进行预先设置,设置用户的身份信息,并将对应的声纹信息进行存储。

具体的,电子设备可以在设置功能中提供专门的接口,以供用户对用户的身份信息进行设置,一般来说用户可以直接输入每个用户的身份信息以及对应的声纹信息进行存储即可,在后续使用过程中,电子设备获取到第一声纹信息之后,与存储的多个声纹信息之间一一进行比对,获取匹配的声纹信息对应的身份信息即可。

然而,对用户来说,输入声纹信息具有一定的困难,因此可以在设置功能中接收用户输入的每个用户的身份信息(同时提醒用户录制对应的语音),并根据操作录制每个用户的语音信息,电子设备对每个用户的语音信息进行声纹识别处理,得到每个用户对应的声纹信息,然后存储每个用户的身份信息以及对应的声纹信息。

本实施例提供的情绪识别的处理方法,通过声纹识别技术,确认当前用户的身份,避免将周围其他人的情绪误检为自身的,对于多人则可以分别检测、记录各自的情绪变化情况。

图3是本申请根据一示例实施例示出的情绪识别的处理方法实施例三的流程示意图。如图3所示,在上述实施例一的具体实现中,根据所述语音数据,获取所述用户的当前情绪信息可以具体实现为:

s301:对语音数据进行情绪检测,得到情绪检测结果。

在本步骤中,电子设备可以通过提取用户的情绪特征和语音特征,断出用户的情绪变化,包括高兴、悲伤、愤怒等情绪,具体实现中可以基于神经网络的情绪检测算法,对语音数据进行情绪检测。结合信号处理手段,分析说话语音的音调变化,语速快慢,说话抑扬顿挫、结巴等信息,判断出当前用户的情绪状态,得到情绪检测结果。

s302:对语音数据进行语音识别处理,获取所语音数据对应的文本信息。

在本步骤中,除了对语音数据进行情绪检测,还可以对该语音数据进行语音识别,就是将一段语音信号转换成相对应的文本信息,主要的处理包含特征提取、声学模型,语言模型以及字典与解码四大部分,此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量,声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分,而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率,最后根据已有的字典,对词组序列进行解码,得到最后可能的文本信息。

s303:根据文本信息中的至少一个情绪关键词和/或文本信息的语义,以及情绪检测结果,分析确定用户的当前情绪信息。

在根据上述两部得到文本信息以及情绪检测结果之后,电子设备可以集合文本信息以及情绪检测结果,对用户当前的情绪信息进行分析,一般来说,在应用文本信息的过程中,可以获取其中的词语,然后从中获取出用来表示情绪的情绪关键词,或者也可以对文本信息整体的语义进行理解,然后根据语义和/或情绪关键词,综合的获取用户的当前情绪信息。

本实施例提供的情绪识别的处理方法,除了使用传统的情绪识别算法之外,还综合使用了语音识别,语义理解等技术,从多个角度提升情绪识别的准确性。

在上述任一实施例中,电子设备根据身份信息以及当前情绪信息,获取用户在预设时段内的情绪变化情况的实现方式至少包括以下两种:

第一种方式,根据所述身份信息,获取本地存储的所述用户在预设时间段内的多个时刻的情绪信息;根据所述多个时刻的情绪信息和所述当前情绪信息,分析获取所述用户在所述预设时间段内的情绪变化情况。

在电子设备中预先设置不同情绪状态对应的情绪信息的变化情况,例如:变化曲线等,然后获取该用户在预设时间段内的多个时刻的情绪信息,得到该用户在该时间段内的情绪变化情况,与预设的多个情绪状态的变化情况进行比对,确定用户的情况变化情况。

第二种方式,电子设备向服务器发送情绪变化获取请求,所述情绪获取请求包括所述身份信息和所述当前情绪信息,接收所述服务器返回的所述情绪变化情况。

将身份信息与当前情绪信息发送给云端服务器进行进行综合分析,得到情绪变化情况之后返回电子设备。

电子设备在获取到用户在一段时间内的情况变化情况之后,若所述情绪变化情况指示所述用户的情绪存在风险,则根据预设的情绪安抚策略进行情绪安抚操作,也可以在安抚的同时向监护人发送提醒消息。

本方案结合情绪变化,以及对说话人说话内容转成文字,结合自然语言理解技术,不仅仅可以安抚情绪,而且可以分析家庭矛盾双方的情绪变化情况和言语冲击程度,为后续家庭成员复盘关系提供技术支撑。

在上述几个实施例的基础上,可以知道本方案属于智能设备领域,特别是智能家居设备,对家庭成员情绪检测、分析技术,从家庭成员的说话声中,对其当前情绪状态进行监测和分析,并给出相应的决策反馈。通过采集场景中的用户的语音,提取其中的情绪特征和语音特征,通过深度神经网络进行智能分析,识别用户身份以及其当前的情绪状态,在系统中记录,并进行综合分析,提高情绪识别的精确度,并及时向监护人提醒,避免出现意外,提高用户体验。,下面通过一个具体实例对本方案进行详细说明。

本方案中以上述方案应用在家庭中的门禁或者室内摄像头中,基于云端智能语音检测技术,将采集的语音通过情绪识别、声纹识别和语音识别三大模块进行判决和分析,将各模块检测识别上传到智能分析模块做综合决策,图4是本申请根据一示例实施例示出的一种情绪检测系统框图。如图4所示,该情绪检测系统中包括语音增强,vad,情绪检测、声纹识别,语音识别以及智能分析模块几个模块。具体的功能如下:

系统通过麦克分阵列,实时采集所处环境的声音,并通过麦克风阵列技术,对语音进行消噪、去混响等处理,提高语音质量,即进行语音增强处理。

经过前端阵列处理后的声音,经过vad模块,进行有无语音检测,当只有检测到语音(人声,不包含环境声音)的时候,当前采集的数据才送入后续智能算法检测,否则不做任何处理。

经过vad模块判决为语音的数据,分别进行情绪检测,声纹识别和语音识别,对用户的情绪、身份、说话内容逐一进行检测和识别。

系统首先判断当前用户是家庭成员中的哪一位,分析其说话语音中的情绪,诸如“高兴”,“悲伤”,“愤怒”,“平静”等;然后通过语音识别模块将说话语音内容识别成文字,并检测其中是否有“高兴”,“难过”等关键词,以及自然语义理解技术,进一步检测当前用户的情绪。

智能分析模块,将接收上述几个处理方式的识别结果,包含用户身份,用户情绪,说话内容情绪判决等信息,判断当前用户的情绪状态是否在可控范围内,如果是,则根据情绪安抚策略,对当前用户进行友好的提醒;如果检测到当前用户长时间情绪异常,或者情绪波动变化异常激烈的时候,则不仅仅做出有好的提示,并会将其情绪检测情况,通告给家庭其他成员,尤其是有监督权的成员,帮助其了解这一情况,以便在最佳时间内提供帮助。

该系统的方案中,从情绪检测和语音识别技术角度出发,识别出当前用户的情绪状态,通过声纹识别技术确认用户的身份,上述信息会被送到云端的智能分析系统中,系统会综合判断当前情绪状态,并根据不同状态做出不同的决策。

该系统主要包括六个主要模块:

1、语音增强模块

语音增强的目的是从带噪语音中提取尽可能纯净的原始语音,提高语音质量和可懂度,作为后续智能语音检测算法输入。

2、人声检测(vad)模块

vad模块主要的功能是对音频输入是否存在语音进行判决,该模块将在系统启动后一直处于工作状态。可以有效地降低后续模块的负荷,达到有效降低系统整体功耗的目的。

本方案中vad模块采用深度神经网络,相比于传统的能量vad或是高斯模型在性能上有显著的提升。

3、情绪检测模块

本方案中可以使用基于深度学习的神经网络分类进行判定的。比较经典是基于crnn网络结构的语音情绪识别系统,前端通过捕捉声谱图信息,转换为情绪特征,然后融入神经网络进行计算,最终通过softmax层进行分类判断,也可以采用其他的模型进行情绪检测。

4、语音识别模块

语音识别,就是将一段语音信号转换成相对应的文本信息。图5是本申请根据一示例实施例示出的一种语音识别流程框图。如图5所示,主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来;特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。

如图5所示,该语音识别的至少需要经过如下几个步骤:

1)预处理

首尾端的静音切除,降低对后续步骤造成的干扰,静音切除的操作一般称为vad。

2)语音分帧

把声音切开成小段,每小段称为一帧,使用移动窗函数来实现,不是简单的切开,各帧之间一般是有交叠的。通常做法是按照一定时间例如25ms的帧长,帧移提取语音输入信号fbank梅尔标度滤波器组(mel-scalefilterbank)特征,并对所得特征在时间维度上按照一定窗长进行拼接堆叠,作为后续检测模型的特征输入。

3)特征提取

主要算法有线性预测倒谱系数(linearpredictioncepstrumcoefficient,lpcc)和mel倒谱系数(melfrequencycepstrumcoefficient,mfcc),目的是把每一帧波形变成一个包含声音信息的多维向量。

4)声学模型

通过对语音数据进行训练获得,输入是特征向量,输出为音素信息;字典:字或者词与音素的对应,简单来说,中文就是拼音和汉字的对应,英文就是音标与单词的对应。

5)语言模型

通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。

6)解码

通过声学模型,字典,语言模型对提取特征后的音频数据进行文字输出。

5、声纹识别模块

声纹之所以能被识别,是因为每个人的口腔、鼻腔与声道结构都存在唯一的差异性。图6是本申请根据一示例实施例示出的一种声纹识别流程框图,如图6所示,声纹识别系统是一个典型的模式识别的框架,为了让计算机认识一个用户的身份,需要目标用户首先提供一段训练语音,这段语音经过特征提取和模型训练等一系列操作,会被映射为用户的声纹模型,例如图中示出的模型库中的三个用户的声纹模型。在验证阶段,一个身份未知的语音也会经过一系列的操作被映射为测试特征,测试特征会与目标模型进行某种相似度的计算后得到一个置信度的得分,这个得分通常会与人工设定的期望值进行比较,高于这个期望值,认为测试语音对应的身份与目标用户身份匹配,通过验证;反之则拒绝掉测试身份。因此,识别性能好坏的关键在于对语音中身份信息的建模能力与区分能力,同时对于身份无关的其余信息具有充分的抗干扰能力和鲁棒性。

6、智能分析模块

情绪检测模块,语音识别模块,声纹识别模块的分析结果汇总到智能分析模块,该模块结合当前用户一段历史事件以来的情绪变化情况,综合判断此时用户的情绪是否处于正常状态,如果是,则不做任何反馈,如果有轻微风险性,则根据已有的安抚策略,对用户进行有好的安抚,将其情绪进行稳定下来;如果安抚没有效果,或者当前用户的情绪已经到了比较糟糕的地步,则会用户的情绪状态通知监护人,并告知其近期一段的情绪变化情况和分析结果,帮助监护人对用户进行情绪上的安抚和稳定,将不可控的风险及时扼杀掉。

本申请提供的技术方案中,除了使用传统的情绪识别算法之外,还综合使用了语音识别,语义理解等技术,从多个角度提升情绪识别的准确性。还通过声纹识别技术,确认当前用户的身份,避免将周围其他人的情绪误检为自身的,对于多人则可以分别检测、记录各自的情绪变化情况。

另外,本方案中结合情绪变化,以及对用户说话内容转成文字,结合自然语言理解技术,不仅仅可以安抚单人情绪,而且可以分析家庭矛盾双方的情绪变化情况和言语冲击程度,为后续家庭成员复盘关系提供技术支撑。

该方案可以部署在任何的能够采集语音的电子设备中,几乎不需要额外的硬件支持,省却安装复杂的各类型传感器等设备,降低了部署成本。同时,安全监测无需用户进行任何配合,系统会自动进行检测并给出相应提示,可以大大提升用户体验。

图7是本申请根据一示例实施例示出的滚动视图的处理装置实施例一的结构示意图。如图7所示,本实施例提供的情绪识别的处理装置10,包括:

采集模块11,用于采集获取用户的语音数据;

处理模块12,用于根据所述语音数据,获取所述用户的身份信息以及当前情绪信息;

所述处理模块12还用于根据所述身份信息和所述当前情绪信息,获取所述用户在预设时段内的情绪变化情况;

推送模块13,用于若所述情绪变化状况指示所述用户的情绪存在风险,则向监护人推送提醒消息,所述提醒消息用于提醒监护人所述用户的情绪存在风险。

本实施例提供的情绪识别的处理装置,用于执行前述任一方法实施例的技术方案,其实现原理和技术效果类似,电子设备采集用户的语音数据之后,根据语音数据确定用户的身份信息以及当前情绪信息,并根据该身份信息以及当前情绪信息,获取到用户的在一段时间内的情绪变化情况,从而通过该情绪变化情况,在出现风险时像监护人推送提醒消息,通过确定用户的身份,并结合一段时间内的变化情况进行分析,提高情绪识别的精确度。

在上述实施例的基础上,该情绪识别的处理装置10的具体实现中,所述处理模块12具体用于:

对所述语音数据进行声纹识别处理,得到第一声纹信息;

根据所述第一声纹信息和预先获取的多个用户的声纹信息与身份信息之间的对应关系,获取所述第一声纹信息对应的身份信息。

可选的,所述处理模块12具体用于:

对所述语音数据进行情绪检测,得到情绪检测结果;

对所述语音数据进行语音识别处理,获取所述语音数据对应的文本信息;

根据所述文本信息中的至少一个情绪关键词和/或所述文本信息的语义,以及所述情绪检测结果,分析确定所述用户的当前情绪信息。

可选的,所述处理模块12具体用于:

根据所述身份信息,获取本地存储的所述用户在预设时间段内的多个时刻的情绪信息;

根据所述多个时刻的情绪信息和所述当前情绪信息,分析获取所述用户在所述预设时间段内的情绪变化情况;

图8是本申请根据一示例实施例示出的滚动视图的处理装置实施例一的结构示意图。如图8所示,该情绪识别的处理装置10还包括:

发送模块14,用于向服务器发送情绪变化获取请求,所述情绪获取请求包括所述身份信息和所述当前情绪信息;

接收模块15,用于接收所述服务器返回的所述情绪变化情况。

在上述任一实施例的基础上,所述处理模块12还用于:

若所述情绪变化情况指示所述用户的情绪存在风险,则根据预设的情绪安抚策略进行情绪安抚操作。

可选的,所述采集模块11具体用于:

通过麦克风采集所处环境中的声音,并对所述声音进行语音增强处理,得到处理后的声音;

对所述处理后的声音进行语音活动检测vad,确定所述处理后的声音中是否包含语音,获取用户的所述语音数据。

图9是本申请根据一示例实施例示出的滚动视图的处理装置实施例三的结构示意图。如图9所示,所述装置10还包括:

接收模块14,用于接收用户输入的每个用户的身份信息;

所述采集模块11还用于根据操作录制每个用户的语音信息;

所述处理模块12还用于对每个用户的语音信息进行声纹识别处理,得到每个用户对应的声纹信息;

存储模块16,用于存储每个用户的身份信息以及对应的声纹信息。

在上述任一实施例的基础上,所述处理模块12还用于:

根据用户的操作,设置监护信息;所述监护信息包括至少一个监护设备的标识信息和/或至少一个监护人的联系方式。

上述任一实施例提供的情绪识别的处理装置,用于执行前述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不再赘述。

图10是本申请申请根据一示例实施例示出的电子设备的结构示意图。如图10所示,本实施例提供的一种电子设备20包括:

存储器21、处理器22;以及,音频采集装置23

存储器21,用于存储所述处理器的可执行指令,该存储器21还可以是flash(闪存);

其中,所述处理器22配置为经由执行所述可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地,存储器21既可以是独立的,也可以跟处理器22集成在一起。

当所述存储器21是独立于处理器22之外的器件时,所述电子设备还可以包括:

总线24,用于连接所述处理器22以及所述存储器21。

本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的情绪识别的处理方法。

本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的情绪识别的处理方法。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips