HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

婴儿啼哭检测方法及装置与流程

2021-01-28 12:01:17|209|起点商标网
婴儿啼哭检测方法及装置与流程

本发明属于语音识别技术领域,尤其涉及一种婴儿啼哭检测方法及装置。



背景技术:

啼哭是婴儿的本能反应,尤其是对于小于两周岁的婴儿,由于他们还不具备语言表达能力,啼哭是他们表达感情、对外界刺激做出反应的最重要方式,因此,当婴儿啼哭时,看护人需要及时地去照看。然而,在现实环境中,看护人不可能每时每刻都在看护,尤其是在婴儿睡着时,往往会从事一些其他的工作,如做家务、看电视等,如果此时婴儿发生了啼哭,看护人尤其是老年人,往往会听不见,不能及时地进行照看,可能会导致婴儿受到一些意想不到的伤害,给整个家庭带来悲伤。

目前,已有一些用于婴儿啼哭检测的技术,主要原理是基于婴儿啼哭时的音量较高和音频频率较大的特点,通过统计一段时间内的外部音频的特征,判断婴儿是否处于啼哭状态。

发明人在实现本申请的过程中,发现现有技术的方案至少存在以下问题:婴儿啼哭声音较小,距离稍远,识别率会严重下降;正常语音中也存在一些与婴儿啼哭类似的声音,使得误识别较严重。



技术实现要素:

本发明实施例提供一种婴儿啼哭检测方法及装置,用于至少解决上述技术问题之一。

第一方面,本发明实施例提供一种婴儿啼哭检测方法,包括:响应于接收的音频信号,经由婴儿啼哭声音分类器输出婴儿啼哭声音的置信度,其中,所述婴儿啼哭声音分类器通过对至少一个婴儿啼哭的声音基于深度学习模型进行训练得到;判断所述婴儿啼哭声音的置信度是否小于预设的置信度阈值;若所述婴儿啼哭声音的置信度不小于预设的所述置信度阈值,输出婴儿啼哭检测成功信号。

第二方面,本发明实施例提供一种婴儿啼哭检测装置,包括:第一输出模块,配置为响应于接收的音频信号,经由婴儿啼哭声音分类器输出婴儿啼哭声音的置信度,其中,所述婴儿啼哭声音分类器通过对至少一个婴儿啼哭的声音基于深度学习模型进行训练得到;判断模块,配置为判断所述婴儿啼哭声音的置信度是否小于预设的置信度阈值;第二输出模块,配置为若所述婴儿啼哭声音的置信度不小于预设的所述置信度阈值,输出婴儿啼哭检测成功信号。

第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的婴儿啼哭检测方法的步骤。

第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的婴儿啼哭检测方法的步骤。

本申请的方法及装置提供的方案通过麦克风阵列对婴儿啼哭声音进行增强,可以解决婴儿啼哭远场识别的问题,以及采用深度学习模型,可以对海量婴儿啼哭声音以及相似婴儿啼哭声音进行训练,可以进一步提升婴儿啼哭模型的识别性能。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种婴儿啼哭检测方法的流程图;

图2为本发明一实施例提供的一种婴儿啼哭检测方法的工作流程框图;

图3为本发明一实施例提供的一种婴儿啼哭检测装置的框图;

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

请参考图1,其示出了本申请的婴儿啼哭检测方法一实施例的流程图,本实施例的婴儿啼哭检测方法可以适用于具备语言模型或者实时语音对话功能的终端,如智能语音电视、智能音箱以及其他现有的支持智能语音识别的智能终端等。

如图1所示,在步骤101中,响应于接收的音频信号,经由婴儿啼哭声音分类器输出婴儿啼哭声音的置信度,其中,婴儿啼哭声音分类器通过对至少一个婴儿啼哭的声音基于深度学习模型进行训练得到;

在步骤102中,判断婴儿啼哭声音的置信度是否小于预设的置信度阈值;

在步骤103中,若婴儿啼哭声音的置信度不小于预设的置信度阈值,输出婴儿啼哭检测成功信号。

在本实施例中,对于步骤101,婴儿啼哭检测装置响应于接收的音频信号,经由婴儿啼哭声音分类器输出婴儿啼哭声音的置信度,其中,婴儿啼哭声音分类器通过对至少一个婴儿啼哭的声音基于深度学习模型进行训练得到。之后,对于步骤102,婴儿啼哭检测装置判断婴儿啼哭声音的置信度是否小于预设的置信度阈值,其中,置信度可以是规整到0到1的数值,数值越大,置信度越高,则婴儿啼哭声音的概率越大。然后,对于步骤103,若婴儿啼哭声音的置信度不小于预设的置信度阈值,婴儿啼哭检测装置输出婴儿啼哭检测成功信号。

本实施例提供的方案通过基于深度学习模型将多种类型的婴儿啼哭声音作为期望声音对婴儿啼哭声音分类器进行训练,可以使得婴儿啼哭声音分类器的识别性能得到提升,从而实现了输出婴儿啼哭声音的置信度准确度高的效果。

进一步地,基于深度学习模型将至少一个相似婴儿啼哭的声音作为反例对婴儿啼哭声音分类器进行训练。这样,可以对婴儿啼哭相似的声音进行分析,并通过采集大量的相似音频作为反例加入到模型训练中,减低模型对婴儿啼哭相似声音的误识别。

具体地相似婴儿啼哭的反例可以是动物叫声,如猫叫等,另外,从频谱上看,音乐背景旋律也比较相似。

在一个优选的实施例中,婴儿啼哭检测装置可以响应于实时采集的音频信号,基于麦克风阵列对音频信号进行信号增强。

本实施例提供的方案中的麦克风阵列可以是由多个麦克风组成的阵列,与单麦克风相比,其优势是可以获取语音的空间信息,可以实现空间滤波,对方向性的噪声具有良好的抑制作用,可以抑制非期望方向的信号,同时对目标声音的信号保留,达到信号增强的效果,麦克风阵列语音增强算法有多种,我们采用波束形成算法,对空间不同方向进行语音信号增强,处理的多路信号分别输入分类器,空间不同方向肯定覆盖了声源的位置,从而采用麦克风阵列对婴儿啼哭声音进行增强的方式,可以解决婴儿啼哭远场识别的问题。

其中,麦克风阵列包括:双麦克风阵列、线性四麦克风阵列、环形四麦克风阵列、环形六麦克风阵列。

具体地,婴儿啼哭检测装置响应于接收的婴儿啼哭检测成功信号,系统发送检测成功信息至用户。其中,发送检测成功信息包括发送手机短信或语音播报。

在一个具体的应用场景中,父母在厨房做饭,故事机陪着孩子在房间玩,当孩子啼哭时,故事机接收的婴儿啼哭检测成功信号并进行语音播报,从而提醒在厨房的父母,孩子在啼哭。

在另一个具体的应用场景中,父母短时间外出,房间内的孩子醒来后在啼哭,智能音箱接收婴儿啼哭检测成功信号后,通过网络将信息发送至家长的手机,以便通知父母尽快赶回家中。

在一个具体的实施例中,若婴儿啼哭声音的置信度不小于预设的置信度阈值,婴儿啼哭检测装置停止采集音频信号。这样,能够实现避免重复采集婴儿啼哭声音,造成反复发送检测成功信息给用户的问题。

进一步地,在需要重新检测婴儿啼哭声音的时候,用户可以对婴儿啼哭检测装置进行再次唤醒。

需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:婴儿啼哭声音较小,距离稍远,识别率会严重下降;正常语音中也存在一些与婴儿啼哭类似的声音,对这些干扰语音识别率不高,误识别较严重。

发明人还发现:解决远场识别,提高识别精度的不仅对需要对婴儿啼哭声音特性有深刻了解,还要具备麦克风阵列信号处理增强,深度学习等方面的知识。一般本行业的从业人员很难同时具备以上知识。

本申请的方案主要从以下几个方面入手进行设计和优化来提高识别精度,解决不能够进行远场识别,距离远,识别率下降的问题:

(1)通过麦克风阵列对婴儿啼哭声音进行增强,解决婴儿啼哭远场识别的问题

(2)通过深度学习模型,对海量婴儿啼哭声音以及相似婴儿啼哭声音进行训练,进一步提升婴儿啼哭模型的识别性能。

请参阅图2,其示出了本申请的婴儿啼哭检测方法的工作流程框图。

如图2所示,第一步:多麦克风阵列采集音频;

第二步:对多麦克风阵列采集的音频进行信号处理,目的是对婴儿啼哭的声音进行增强;

第三步:经过增强的婴儿啼哭声音,输入基于深度学习的婴儿啼哭声音分类器模型,模型输出一段声音可以是婴儿啼哭声音的置信度;

第四步:判断模型输出的婴儿啼哭声音置信度是否大于一个预先设定的阈值,其中,置信度可以是规整到0到1的数值,数值越大,置信度越高,则婴儿啼哭声音的概率越大,如果大于或等于阈值,则婴儿啼哭声音检测成功,系统发送检测成功的信号;否则不成功,则麦克风阵列继续采集音频。

发明人在实现本申请的过程中,还采用过如下备选方案,并总结了该备选方案的优点和缺点。

beta版本:最初的版本,采用大量的婴儿各种状态下的啼哭对深度学习模型进行训练,得到婴儿啼哭相似的声音检测,误识别率较高,虽然可用,但是一定程度上影响系统最终的性能。

请参考图3,其示出了本发明一实施例提供的婴儿啼哭检测装置的框图。

如图3所示,婴儿啼哭检测装置200,包括第一输出模块210、判断模块220以及第二输出模块230。

其中,第一输出模块210,配置为响应于接收的音频信号,经由婴儿啼哭声音分类器输出婴儿啼哭声音的置信度,其中,婴儿啼哭声音分类器通过对至少一个婴儿啼哭的声音基于深度学习模型进行训练得到;判断模块220,配置为判断婴儿啼哭声音的置信度是否小于预设的置信度阈值;第二输出模块230,配置为若婴儿啼哭声音的置信度不小于预设的置信度阈值,输出婴儿啼哭检测成功信号。

应当理解,图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块,在此不再赘述。

值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如第一输出模块可以描述为响应于接收的音频信号,经由婴儿啼哭声音分类器输出婴儿啼哭声音的置信度的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如判断模块也可以用处理器实现,在此不再赘述。

在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的婴儿啼哭检测方法;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

响应于接收的音频信号,经由婴儿啼哭声音分类器输出婴儿啼哭声音的置信度,其中,婴儿啼哭声音分类器通过对至少一个婴儿啼哭的声音基于深度学习模型进行训练得到;

判断婴儿啼哭声音的置信度是否小于预设的置信度阈值,其中,置信度是规整到0到1的数值,数值越大,置信度越高,则婴儿啼哭声音的概率越大;

若婴儿啼哭声音的置信度不小于预设的置信度阈值,输出婴儿啼哭检测成功信号。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据婴儿啼哭检测装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至婴儿啼哭检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项婴儿啼哭检测方法。

图4是本发明实施例提供的电子设备的结构示意图,如图4所示,该设备包括:一个或多个处理器310以及存储器320,图4中以一个处理器310为例。婴儿啼哭检测方法的设备还可以包括:输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器320为上述的非易失性计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例婴儿啼哭检测方法。输入装置330可接收输入的数字或字符信息,以及产生与婴儿啼哭检测装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

作为一种实施方式,上述电子设备应用于婴儿啼哭检测装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:

响应于接收的音频信号,经由婴儿啼哭声音分类器输出婴儿啼哭声音的置信度,其中,婴儿啼哭声音分类器通过对至少一个婴儿啼哭的声音基于深度学习模型进行训练得到;

判断婴儿啼哭声音的置信度是否小于预设的置信度阈值,其中,置信度是规整到0到1的数值,数值越大,置信度越高,则婴儿啼哭声音的概率越大;

若婴儿啼哭声音的置信度不小于预设的置信度阈值,输出婴儿啼哭检测成功信号。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips