HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音增强方法和装置、电子设备和存储介质与流程

2021-01-28 12:01:56|308|起点商标网
语音增强方法和装置、电子设备和存储介质与流程

本公开涉及语音增强技术,尤其是一种语音增强方法和装置、电子设备和存储介质。



背景技术:

随着移动互联网的发展,语音识别越来越重要,它是很多其他应用能够实现的基础。例如,通过语音识别技术,可以实现语音通话、音视频通话、语音即时消息交互、语音拨号、语音导航等应用。语音识别结果越准确,以语音识别为基础的应用的效果就会越好。

然而,由于受到周围环境、传输媒介等的影响,使接收端接收到的语音信号并非纯净的原始语音信号,而是受噪声污染的带噪语音信号,噪声往往会对语音信号造成干扰,从而降低语音识别率和通话质量。

为了提高语音识别率和通话质量,通常采用语音增强技术来降低、消除带噪语音信号中的噪声并增强语音信号,来获取干净的语音信号。



技术实现要素:

为了解决现有技术存在的其中一个技术问题,提出了本公开。本公开的实施例提供了一种语音增强方法和装置、电子设备和存储介质。

根据本公开实施例的一个方面,提供了一种语音增强方法,包括:

获取待处理语音;

确认所述待处理语音的来源用户是否注册用户;

若所述待处理语音的来源用户是注册用户,获取所述来源用户的语音增强参数;

基于所述来源用户的语音增强参数对所述待处理语音进行语音增强。

根据本公开实施例的另一个方面,提供了一种语音增强装置,包括:

第一获取模块,用于获取待处理语音;

确认模块,用于确认所述获取模块获取的所述待处理语音的来源用户是否注册用户;

第二获取模块,用于根据所述确认模块的确认结果,若所述待处理语音的来源用户是注册用户,获取所述来源用户的语音增强参数;

语音增强模块,用于基于所述第二获取模块获取的所述来源用户的语音增强参数,对所述待处理语音进行语音增强。

根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的语音增强方法。

根据本公开实施例的又一个方面,提供了一种电子设备,所述电子设备包括:

处理器;

用于存储所述处理器可执行指令的存储器;

所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例所述的语音增强方法。

基于本公开上述实施例提供的语音增强方法和装置、电子设备和存储介质,获取待处理语音后,确认待处理语音的来源用户是否注册用户,若该来源用户是注册用户,获取该来源用户的语音增强参数,并基于该来源用户的语音增强参数对待处理语音进行语音增强。本公开实施例个性化用户的语音增强参数,针对每个注册用户的待处理语音,获取该注册用户的语音增强参数对其待处理语音进行语音增强,可以适用于各种噪声来源和应用场合、例如低信噪比环境、人声干扰环境等,提升了语音增强效果,能够很好的消除噪声,从而提升语音质量,有助于后续提升语音识别率和通话质量。

下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的场景图。

图2是本公开一示例性实施例提供的语音增强方法的流程示意图。

图3是本公开另一示例性实施例提供的语音增强方法的流程示意图。

图4是本公开又一示例性实施例提供的语音增强方法的流程示意图。

图5是本公开再一示例性实施例提供的语音增强方法的流程示意图。

图6是本公开又一示例性实施例提供的语音增强方法的流程示意图。

图7是本公开又一示例性实施例提供的语音增强方法的流程示意图。

图8是本公开实施例中获取注册用户的噪声数据和语音数据的一示例性实施例流程示意图。

图9是本公开实施例中获取注册用户的噪声数据和语音数据的另一示例性实施例流程示意图。

图10是本公开实施例中对神经网络的训练的一示例性实施例流程示意图。

图11是本公开一示例性实施例提供的语音增强装置的结构示意图。

图12是本公开另一示例性实施例提供的语音增强装置的结构示意图。

图13是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。

应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。

还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。

还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。

另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。

还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中,本公开发明人通过研究发现:由于噪声来源众多,随应用场合不同而特性各异,且具有随机性,采用一种固定的语音增强技术不能很好的消除噪声,尤其在低信噪比环境、人声干扰环境中,现有技术采用固定的语音增强技术使得语音增强效果有限,不能很好的消除噪声。

本公开实施例个性化用户的语音增强参数,基于注册用户的语音增强参数对其待处理语音进行语音增强,可以适用于各种噪声来源和应用场合(例如低信噪比环境、人声干扰环境等),以便提升语音增强效果,能够很好的消除噪声,从而提升语音质量,有助于后续提升语音识别率和通话质量。

本公开实施例中的噪声,可以包括除所需语音信号以外的所有干扰信号。

示例性系统

图1是本公开所适用的场景图。本公开实施例可以应用于语音通话、语音即时消息、以及其他应用(例如,语音拨号、语音导航,语音搜索等)。如图1所示,由音频采集模块(例如麦克风等)采集得到原始音频信号,基于本公开实施例进行语音增强,能够很好的消除噪声,从而提升语音质量;基于语音增强处理得到的语音,可以进行语音识别,得到较为准确的语音识别结果。基于该语音识别结果,可以实现语音通话、语音即时消息、以及各种其他应用。例如,在语音识别结果为“请呼叫xxx”时,电子设备通过语音呼叫功能模块搜索姓名为xxx的电话号码并发起呼叫。

采用本公开实施例后,可以对各种噪声来源和应用场合(例如低信噪比环境、人声干扰环境等)的原始音频信号进行语音增强处理,能够很好的消除噪声,从而提升语音质量,有助于后续提升各种应用中的语音识别率和通话质量。

示例性方法

图2是本公开一示例性实施例提供的语音增强方法的流程示意图。本实施例可应用在电子设备上,如图2所示,该语音增强方法包括如下步骤:

步骤201,获取待处理语音。

其中,可以由音频采集模块(例如麦克风等)进行音频信号采集,得到待处理语音。

步骤202,确认上述待处理语音的来源用户是否注册用户。

若所述待处理语音的来源用户是注册用户,执行步骤203。

步骤203,获取上述来源用户的语音增强参数。

在本公开实施例的一些实施方式中,语音增强参数例如可以包括但不限于以下任意一项或多项信息:先验信噪比,后验信噪比,等等,本公开实施例对语音增强参数的具体参数不做限制。

步骤204,基于上述来源用户的语音增强参数对待处理语音进行语音增强。

基于本公开上述实施例提供的语音增强方法,获取待处理语音后,确认待处理语音的来源用户是否注册用户,若该来源用户是注册用户,获取该来源用户的语音增强参数,并基于该来源用户的语音增强参数对待处理语音进行语音增强。本公开实施例个性化用户的语音增强参数,针对每个注册用户的待处理语音,获取该注册用户的语音增强参数对其待处理语音进行语音增强,可以适用于各种噪声来源和应用场合、例如低信噪比环境、人声干扰环境等,提升了语音增强效果,能够很好的消除噪声,从而提升语音质量,有助于后续提升语音识别率和通话质量。

在本公开实施例的一些实施方式中,用户可以通过提供注册信息的方式进行注册,通过注册的用户即为注册用户,其注册信息可以存储的用户信息数据库中,则用户信息数据库中不存在注册信息的用户即为未注册用户。其中,注册用户的注册信息,例如可以包括但不限于以下任意一项或多项信息:用户标识(id),声纹,人脸特征,等等。其中的用户id唯一标识一个用户,例如可以是用户账户、编号等等,本公开实施例对此不做限制。

本实施例中,用户通过提供注册信息的方式进行注册后,后续便可以通过查询是否存在用户注册信息的方式确认某用户是否为注册用户,以便针对注册用户的待处理语音获取该用户的语音增强参数进行语音增强,从而提升语音增强效果。

图3是本公开另一示例性实施例提供的语音增强方法的流程示意图。如图3所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:

步骤2021,采集待处理语音对应的图像。

其中,可以由图像传感器(例如摄像头等)进行图像采集,图像传感器具体可以与音频采集模块同时分别进行图像和音频信号的采集,得到待处理语音对应的图像。

步骤2022,对待处理语音对应的图像进行人脸识别,确认该图像中的人脸是否注册用户的人脸。

在其中一些可选示例中,可以对待处理语音对应的图像进行人脸特征提取,例如,可以通过神经网络进行人脸特征提取,并将提取到的人脸特征与用户信息数据库中的人脸特征进行匹配,若用户信息数据库中存在与提取到的人脸特征匹配的人脸特征,则可以确认该图像中的人脸是注册用户的人脸;否则,若用户信息数据库中不存在与提取到的人脸特征匹配的人脸特征,则可以确认该图像中的人脸不是注册用户(即:未注册用户)的人脸。其中,提取到的人脸特征与用户信息数据库中的人脸特征匹配的标准可以是,二者之间的相似度大于或等于第一预设相似度阈值,例如90%,该第一预设相似度阈值可以根据经验值设定,也可以根据实际需求进行调整,本公开实施例对此不进行限制。

本实施例中,通过图像采集和人脸识别的方式,确定图像中的人脸是否注册用户的人脸、以及对应于哪个注册用户,从而提升了用户识别结果的准确性,有助于准确的获取对应用户的语音增强参数对待处理语音进行语音增强,从而提升语音增强效果,更好的消除噪声,以便提升语音质量。

图4是本公开又一示例性实施例提供的语音增强方法的流程示意图。如图4所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:

步骤2021’,提取待处理语音对应的声纹。

步骤2022’,对待处理语音对应的声纹进行声纹识别,确认待处理语音对应的声纹是否注册用户的声纹。

在其中一些可选示例中,可以对待处理语音进行声纹提取,并将提取到的声纹与用户信息数据库中的声纹进行匹配,若用户信息数据库中存在与提取到的声纹匹配的声纹,则可以确认待处理语音对应的声纹是注册用户的声纹;否则,若用户信息数据库中不存在与提取到的声纹匹配的声纹,则可以待处理语音对应的声纹不是注册用户(即:未注册用户)的声纹。其中,提取到的声纹与用户信息数据库中的声纹匹配的标准可以是,二者之间的相似度大于或等于第二预设相似度阈值,例如95%,该第二预设相似度阈值可以根据经验值设定,也可以根据实际需求进行调整,本公开实施例对此不进行限制。

本实施例中,通过声纹提取和识别的方式,确定待处理语音对应的声纹是否注册用户的声纹、以及对应于哪个注册用户,以便获取对应用户的语音增强参数对待处理语音进行语音增强,从而提升语音增强效果,更好的消除噪声,以便提升语音质量。

图5是本公开再一示例性实施例提供的语音增强方法的流程示意图。如图5所示,在上述任一实施例的基础上,步骤203可包括如下步骤:

步骤2031,分别以待处理语音中的各语音帧作为当前语音帧,获取当前语音帧的频域能量。

在其中一些可选示例中,可以对语音帧进行短时傅里叶变换,提取语音帧的频域信息,获取该语音帧在各频点上的能量,即频域能量。

步骤2032,利用上述来源用户的神经网络,基于当前语音帧的频域能量,输出该来源用户的语音增强参数。

基于上述步骤2031中的可选示例,利用上述来源用户的神经网络,基于当前语音帧在各频点上的能量,可以输出各频点的语音增强参数,例如,先验信噪比和后验信噪比,以便利用各频点的语音增强参数对当前语音帧的各频点信号进行增强。

其中,各注册用户的神经网络可以预先通过该用户的语音数据和噪声数据训练得到,可以根据输入的语音帧的频域能量输出语音增强参数。

本实施例中,针对注册用户,利用该用户的个性化的神经网络,来基于当前语音帧的频域能量获取语音增强参数,可以精确获得该用户的个性化的语音增强参数,并且获取速度快、结果准确,有助于提高语音增强效果,更好的消除噪声,并且效率高。

图6是本公开又一示例性实施例提供的语音增强方法的流程示意图。步骤201到204和图2所示实施例的201到204相同。如图6所示,若待处理语音的来源用户是注册用户,还包括:

步骤205,在基于上述来源用户的语音增强参数对待处理语音进行语音增强的过程中,更新该来源用户的语音增强参数。

相应地,上述实施例的步骤204中,基于更新后的语音增强参数对待处理语音进行语音增强。

本公开实施例中,在基于上述来源用户的语音增强参数对待处理语音进行语音增强的过程中,可以收集注册用户的语音来自适应的更新其语音增强参数,从而可以获得该用户更适应于当前场景的语音增强参数,基于更新后的语音增强参数对待处理语音进行语音增强,可以进一步提升语音增强效果,更好的消除噪声,以便提升语音质量。

另外,再参见图6,基于步骤202,若待处理语音的来源用户不是注册用户,还可以包括:

步骤206,获取预设的语音增强参数。

其中,该预设的语音增强参数可以预先基于经验值设定,并且可以根据实际需求调整。

步骤207,基于预设的语音增强参数对待处理语音进行语音增强。

本实施例中,在待处理语音的来源用户不是注册用户时,采用预设的语音增强参数对待处理语音进行语音增强,也可以实现对待处理语音的语音增强,从而提升语音增强效果。

在其中一些实施方式中,步骤206可以通过如下方式实现:分别以待处理语音中的各语音帧作为当前语音帧,获取当前语音帧的频域能量;利用预设的神经网络,基于当前语音帧的频域能量,输出语音增强参数,即上述预设的语音增强参数。

其中,预设的神经网络可以预先通过至少一个用户的语音数据和噪声数据训练得到,可以根据输入的语音帧的频域能量输出语音增强参数。其中的至少一个用户为非特定用户,可以在各种场景下采集至少一个用户的语音数据和噪声数据来训练初始神经网络模型,得到上述预设的神经网络,这样训练得到的预设的神经网络可针对尽可能多的场景输出较为准确的语音增强参数。

本实施例中,针对未注册用户,利用预设的神经网络,来基于当前语音帧的频域能量获取语音增强参数,可以精确获得语音增强参数,并且获取速度快、结果准确,有助于提高语音增强效果,更好的消除噪声,并且效率高。

进一步可选地,在图6所示实施例中,若待处理语音的来源用户不是注册用户,还可以包括:

步骤208,在满足预设注册条件时,获取来源用户的注册信息,并更新预设的语音增强参数,得到来源用户的个性化的语音增强参数并存储。

相应地,步骤207中,基于该来源用户的个性化的语音增强参数对该来源用户后续的待处理语音进行语音增强,从而提升语音增强效果。

基于该实施例,在满足预设注册条件时,可以实现对未注册用户的注册,由预设的语音增强参数得到该用户的语音增强参数。得到该用户的语音增强参数后,可以基于该用户的语音增强参数对该用户后续的待处理语音进行语音增强,从而提高了该用户的待处理语音的语音增强效果。

图7是本公开又一示例性实施例提供的语音增强方法的流程示意图。如图7所示,在其中一些实施方式中,步骤205或者步骤208中,更新来源用户的或者预设的语音增强参数,可以包括:

步骤301,基于预先构建的训练数据集,对来源用户的或者预设的神经网络进行训练,得到更新后的神经网络。

其中,训练数据集包括由来源用户(可以是注册用户或者未注册用户)的噪声数据和语音数据混合生成的带噪信号。

步骤302,获取当前语音帧的频域能量。

步骤303,利用更新后的神经网络,基于当前语音帧的频域能量,输出语音增强参数作为更新后的语音增强参数。

本实施例中,可以基于预先构建的训练数据集,对注册用户的神经网络、或者未注册用户的预设的神经网络进行训练,从而实现对注册用户或者未注册用户采用的神经网络的自适应更新,利用更新后的神经网络,可以获得更准确、更适用于当前场景的语音增强参数,从而可以进一步提升语音增强效果,更好的消除噪声,以便提升语音质量。

在其中一些实施方式中,可以通过如下方式预先构建训练数据集:

获取来源用户的噪声数据和语音数据,即噪声帧数据和语音帧数据;

根据来源用户的噪声数据和语音数据构建训练数据集。

其中的训练数据集包括至少一组带噪信号、噪声数据和语音数据。每组中的带噪信号由该组中的噪声数据和语音数据按照一定方式生成。

其中一些可选示例中,可以将噪声数据和语音数据按照一定方式进行混合,生成至少一个带噪信号。例如,将同一噪声数据和语音数据以不同的信噪比进行时域叠加,得到至少一个带噪信号,其中,将噪声数据和语音数据进行叠加的信噪比范围例如可以是[-10db,20db],本公开实施例对此不进行限制。

基于本实施例,实现了训练数据集的构建,以便用于对神经网络的训练或者更新。

图8是本公开实施例中获取注册用户的噪声数据和语音数据的一示例性实施例流程示意图。如图8所示,在上述实施方式的其中一些可选示例中,若待处理语音的来源用户是注册用户,获取来源用户的噪声数据和语音数据,可以包括:

步骤401,获取来源用户的视频图像。

步骤402,响应于从当前视频图像检测到来源用户发生唇动,获取当前视频图像对应的音频段。

其中的音频段包括当前视频图像对应的当前音频帧,和位于当前音频帧之前的至少一个语音帧和/或位于当前音频帧之后的至少一个语音帧,例如,位于当前音频帧之前0.5秒左右范围内的语音帧和/或位于当前音频帧之后0.5秒左右范围内的语音帧。

在本公开的一些实施方式中,可以通过各种算法检测用户是否发生唇动。例如,在一个可选示例中,可以通过一个神经网络检测视频图像中的嘴唇关键点,通过比较视频中两帧图像(可以是连续的两帧图像或者间隔若干帧的两帧图像)中的嘴唇关键点位置是否发生变化,来确定用户是否发生唇动。或者,在另一个可选示例中,还可以通过一个神经网络检测视频图像中的嘴唇关键点来确定上、下嘴唇,通过比较视频中两帧图像(可以是连续的两帧图像或者间隔若干帧的两帧图像)中上、下嘴唇之间的距离是否变化,来确定用户是否发生唇动。本公开实施例对检测用户是否发生唇动的算法不做限制。

步骤403,分别以音频段中的各语音帧作为待测语音帧,利用来源用户的语音判定模型对待测语音帧进行声纹认证打分,得到声纹认证分数。

其中,语音判定模型用于判断音频为语音还是为噪声。在其中一些实施方式中,语音判定模型可以高斯混合模型和通用背景模型(gmm-ubm)、神经网络等实现。其中的神经网络可以是卷积神经网络(cnn)、循环神经网络(rnn)等。本公开实施例不对语音判定模型的具体实现进行限制。

本公开实施例中,来源用户的语音判定模型,可以利用该来源用户的语音数据和噪声数据对初始语音判定模型训练得到。

步骤404,基于待测语音帧的声纹认证分数和后验信噪比,确定待测语音帧为噪声还是语音,并分别作为语音数据或者噪声数据。

在其中一些可选示例中,可以在声纹认证分数大于预设分数阈值,且后验信噪比大于预设信噪比阈值时,确定待测语音帧为语音;可以在声纹认证分数不大于预设分数阈值,和/或后验信噪比或绝对能量不大于预设信噪比阈值(例如0db)时,确定该待测音频为噪声。

在其中一些可选示例中,可以在声纹认证分数不大于预设分数阈值时,可以计算该待测语音帧的能量,并在一段时间内进行平滑,得到该待测语音帧的长时噪声能量,然后通过如下方式计算该待测语音帧的后验信噪比:后验信噪比=待测语音帧的能量/(长时噪声能量+固定偏移值),其中,固定偏移值可以为大于零的预设常数。

基于本实施例,在待处理语音的来源用户是注册用户时,通过唇动检测来获取对应的音频段,并基于该注册用户的语音判定模型来判定、收集该注册用户噪声数据和语音数据,以便构建训练数据集对该注册用户的神经网络进行更新、获取更准确的语音增强参数。

可选地,再参见图8,在另一些可选示例中,还可以包括:

步骤405,响应于超过预设时间未从当前视频图像检测到来源用户发生唇动,按照预设方式采集音频段。

例如,在其中一些可选示例中,可以超过预设时间未从当前视频图像检测到来源用户发生唇动时,进行音频采集,得到音频段。或者,在另一些可选示例中,可以在超过预设时间未从当前视频图像检测到来源用户发生唇动时,进行音频检测,在检测到音频时,进行音频采集,得到音频段。

然后针对按照预设方式采集的音频段,执行步骤403-步骤404的操作。

基于本实施例,在待处理语音的来源用户是注册用户时,若未检测到唇动,按照预设方式采集音频段,并基于该注册用户的语音判定模型来判定、收集该注册用户噪声数据和语音数据,以便构建训练数据集对该注册用户的神经网络进行更新、获取更准确的语音增强参数。

图9是本公开实施例中获取注册用户的噪声数据和语音数据的另一示例性实施例流程示意图。如图9所示,在上述实施方式的另一些可选示例中,若待处理语音的来源用户不是注册用户,获取来源用户的噪声数据和语音数据,可以包括:

步骤501,获取来源用户的视频图像。

步骤502,响应于从当前视频图像检测到来源用户发生唇动,获取当前视频图像对应的音频段。

其中,音频段包括当前视频图像对应的当前音频帧,和位于当前音频帧之前的至少一个语音帧和/或位于当前音频帧之后的至少一个语音帧,例如,位于当前音频帧之前0.5秒左右范围内的语音帧和/或位于当前音频帧之后0.5秒左右范围内的语音帧。

在本公开的一些实施方式中,可以通过各种算法检测用户是否发生唇动。例如,在一个可选示例中,可以通过一个神经网络检测视频图像中的嘴唇关键点,通过比较视频中两帧图像(可以是连续的两帧图像或者间隔若干帧的两帧图像)中的嘴唇关键点位置是否发生变化,来确定用户是否发生唇动。或者,在另一个可选示例中,还可以通过一个神经网络检测视频图像中的嘴唇关键点来确定上、下嘴唇,通过比较视频中两帧图像(可以是连续的两帧图像或者间隔若干帧的两帧图像)中上、下嘴唇之间的距离是否变化,来确定用户是否发生唇动。本公开实施例对检测用户是否发生唇动的算法不做限制。

步骤503,分别以音频段中的各语音帧作为待测语音帧,利用预设语音判定模型对待测语音帧进行声纹认证打分,得到声纹认证分数。

本公开实施例中,预设语音判定模型,可以利用预先采集的至少一个用户的语音数据和噪声数据对初始语音判定模型训练得到。

步骤504,基于待测语音帧的声纹认证分数和后验信噪比,确定待测语音帧的类型,基于待测语音帧的类型来确定待测语音帧是噪声数据还是语音数据。

在其中一些可选示例中,可以在声纹认证分数大于预设分数阈值,且后验信噪比大于预设信噪比阈值时,确定待测语音帧为语音;可以在声纹认证分数不大于预设分数阈值,和/或后验信噪比或绝对能量不大于预设信噪比阈值(例如0db)时,确定该待测音频为噪声。

在其中一些可选示例中,可以在声纹认证分数不大于预设分数阈值时,可以计算该待测语音帧的能量,并在一段时间内进行平滑,得到该待测语音帧的长时噪声能量,然后通过如下方式计算该待测语音帧的后验信噪比:后验信噪比=待测语音帧的能量/(长时噪声能量+固定偏移值),其中,固定偏移值可以为大于零的预设常数。

基于本实施例,在待处理语音的来源用户不是注册用户时,通过唇动检测来获取对应的音频段,并基于预设语音判定模型来判定、收集该用户的噪声数据和语音数据,以便构建训练数据集对预设神经网络进行训练、更新。

另外,与图8所示实施例类似地,在图9所示实施例中,响应于超过预设时间未从当前视频图像检测到来源用户发生唇动,按照预设方式采集音频段。然后针对按照预设方式采集的音频段,执行步骤503-步骤504的操作。

基于本实施例,在待处理语音的来源用户不是注册用户时,若超过预设时间未检测到唇动,按照预设方式采集音频段,并基于预设语音判定模型来判定、收集该来源用户噪声数据和语音数据,以便构建训练数据集对该预设的神经网络进行训练得到该来源用户的神经网络。

其中,在上述实施方式的一些可选示例中,满足预设注册条件,可以包括:声纹认证分数大于第一预设阈值。且后验信噪比大于第二预设阈值的待测语音帧的累计长度达到第三预设阈值(例如,达到4秒)。

另外,在上述实施例的另一些实施方式中,满足预设注册条件时,还可以基于来源用户的语音数据和噪声数据,对预设语音判定模型训练,得到来源用户个性化的语音判定模型,后续便可以利用适合该用户的个性化的语音判定模型,更准确的判定一段音频是否该用户的语音还是噪声。

图10是本公开实施例中对神经网络的训练的一示例性实施例流程示意图。如图10所示,在上述实施方式的另一些可选示例中,对神经网络的训练,可以包括:

步骤601,获取训练数据集中至少一个带噪信号的频域能量;分别获取至少一个带噪信号对应的噪声数据和语音数据的先验信噪比、以及至少一个带噪信号的后验信噪比,作为标准先验信噪比和标准后验信噪比。

在其中一些可选示例中,可以对带噪信号进行短时傅里叶变换,提取该带噪信号的频域信息,获取该带噪信号在各频点上的能量,即带噪信号的频域能量。同样,按照类似的方式可以分别计算带噪信号对应的噪声数据和语音数据的频域能量。

在其中一些可选示例中,可以通过如下方式获取带噪信号在各频点上的先验信噪比:语音数据的频域能量/噪声数据的频域能量。

在其中一些可选示例中,可以通过如下方式获取带噪信号在各频点上的后验信噪比:后验信噪比=带噪信号的频域能量/噪声数据的频域能量。

基于上述方式,针对每个带噪信号可以计算得到至少一组带噪信号的频域信息、先验信噪比和后验信噪比,即,分别对应于各频点的带噪信号的频域信息、先验信噪比和后验信噪比。

步骤602,利用神经网络,基于至少一个带噪信号的频域能量,输出先验信噪比和先验信噪比。

基于上述步骤601中的示例,可以将至少一个带噪信号在各频点的频域能量输入神经网络,经神经网络输出至少一个带噪信号在各频点的先验信噪比和后验信噪比。

步骤603,基于神经网络输出的先验信噪比和先验信噪比、以及标准先验信噪比和标准后验信噪比,对神经网络进行训练。

基于上述步骤601-步骤602中的示例,可以根据神经网络输出的至少一个带噪信号在各频点的先验信噪比和后验信噪比、与对应的标准先验信噪比和标准后验信噪比之间的差异,对神经网络的网络参数进行调整。

其中,上述步骤602-603可以迭代执行,直至满足训练完成条件,例如,神经网络输出的至少一个带噪信号在各频点的先验信噪比和后验信噪比、与对应的标准先验信噪比和标准后验信噪比之间的差异小于预设差异,或者,对神经网络迭代执行训练的次数达到预设次数。

示例性装置

图11是本公开一示例性实施例提供的语音增强装置的结构示意图。该语音增强装置可以设置于终端设备、服务器等电子设备中,执行本公开上述任一实施例的语音增强方法。如图11所示,该语音增强装置包括:第一获取模块701,确认模块702,第二获取模块703和语音增强模块704。其中:

第一获取模块701,用于获取待处理语音。

确认模块702,用于确认第一获取模块701获取的待处理语音的来源用户是否注册用户。

第二获取模块703,用于根据确认模块702的确认结果,若待处理语音的来源用户是注册用户,获取该来源用户的语音增强参数。

在本公开实施例的一些实施方式中,语音增强参数例如可以包括但不限于以下任意一项或多项信息:先验信噪比,后验信噪比,等等,本公开实施例对语音增强参数的具体参数不做限制。

语音增强模块704,用于基于第二获取模块703获取的来源用户的语音增强参数,对待处理语音进行语音增强。

基于本公开上述实施例提供的语音增强装置,获取待处理语音后,确认待处理语音的来源用户是否注册用户,若该来源用户是注册用户,获取该来源用户的语音增强参数,并基于该来源用户的语音增强参数对待处理语音进行语音增强。本公开实施例个性化用户的语音增强参数,针对每个注册用户的待处理语音,获取该注册用户的语音增强参数对其待处理语音进行语音增强,可以适用于各种噪声来源和应用场合、例如低信噪比环境、人声干扰环境等,提升了语音增强效果,能够很好的消除噪声,从而提升语音质量,有助于后续提升语音识别率和通话质量。

在本公开实施例的一些实施方式中,注册用户的注册信息,例如可以包括但不限于以下任意一项或多项信息:用户id,声纹,人脸特征,等等。其中的用户id唯一标识一个用户,例如可以是用户账户、编号等等,本公开实施例对此不做限制。

在本公开实施例的一些实施方式中,确认模块702可以包括:采集单元,用于采集待处理语音对应的图像;人脸识别单元,用于对采集单元采集的图像进行人脸识别,确认该图像中的人脸是否注册用户的人脸。

在本公开实施例的一些实施方式中,确认模块702可以包括:提取单元,用于提取待处理语音对应的声纹;声纹识别单元,用于对提取单元提取的待处理语音对应的声纹进行声纹识别,确认改待处理语音对应的声纹是否注册用户的声纹。

图12是本公开另一示例性实施例提供的语音增强装置的结构示意图。如图12所示,在本公开上述图12所示实施例的基础上,第二获取模块703可以包括:第一获取单元7031,用于分别以待处理语音中的各语音帧作为当前语音帧,获取当前语音帧的频域能量;第二获取单元7032,用于利用来源用户的神经网络,基于第一获取单元7031获取到的当前语音帧的频域能量,输出该来源用户的语音增强参数。

另外,再参见图12,在本公开又一示例性实施例提供的语音增强装置中,还可以包括:更新模块705,用于根据确认模块702的确认结果,若待处理语音的来源用户是注册用户,在基于来源用户的语音增强参数对待处理语音进行语音增强的过程中,更新来源用户的语音增强参数。相应地,该实施例中,语音增强模块704,具体用于基于更新后的语音增强参数对待处理语音进行语音增强。

另外,再参见图12,在本公开又一示例性实施例提供的语音增强装置中,还可以包括:第三获取模块706,用于根据确认模块702的确认结果,若待处理语音的来源用户不是注册用户,获取预设的语音增强参数,相应地,该实施例中,语音增强模块704,具体用于基于预设的语音增强参数对待处理语音进行语音增强。

可选地,若待处理语音的来源用户不是注册用户,第二获取模块703中的第一获取单元7031,用于分别以待处理语音中的各语音帧作为当前语音帧,获取当前语音帧的频域能量;第二获取模块703中的第二获取单元7032,用于利用预设的神经网络,基于第一获取单元7031获取到的当前语音帧的频域能量,输出预设的语音增强参数。

可选地,在上述示例性实施例中,更新模块705,还用于根据确认模块702的确认结果,若待处理语音的来源用户不是注册用户,在满足预设注册条件时,获取来源用户的注册信息,并更新预设的语音增强参数,得到来源用户的语音增强参数并存储。

另外,再参见图12,在本公开又一示例性实施例提供的语音增强装置中,更新模块705包括:训练单元7051,用于基于预先构建的训练数据集,对来源用户的或者预设的神经网络进行训练,得到更新后的神经网络,其中,训练数据集包括由来源用户的噪声数据和语音数据混合生成的带噪信号;第三获取单元7052,用于获取当前语音帧的频域能量;第四获取单元7053,用于利用更新后的神经网络,基于当前语音帧的频域能量,输出语音增强参数作为更新后的语音增强参数。

可选地,再参见图12,更新模块705还可以包括:数据集构建单元7054,用于预先构建训练数据集。在其中一些实施方式中,该数据集构建单元7054可以包括:获取子单元,用于获取来源用户的噪声数据和语音数据;构建子单元,用于根据来源用户的噪声数据和语音数据构建训练数据集。

在上述实施方式的其中一些可选示例中,若待处理语音的来源用户是注册用户,获取子单元具体用于:获取来源用户的视频图像;响应于从当前视频图像检测到来源用户发生唇动,获取当前视频图像对应的音频段;音频段包括当前视频图像对应的当前音频帧,和位于当前音频帧之前的至少一个语音帧和/或位于当前音频帧之后的至少一个语音帧;分别以音频段中的各语音帧作为待测语音帧,利用来源用户的语音判定模型对待测语音帧进行声纹认证打分,得到声纹认证分数;其中,来源用户的语音判定模型,预先通过来源用户的语音数据和噪声数据对预设语音判定模型训练得到;通用语音判定模型,预先通过预设语音数据和预设噪声数据训练得到;基于待测语音帧的声纹认证分数和后验信噪比,确定待测语音帧为噪声还是语音,并分别作为语音数据或者噪声数据。

可选地,在上述可选示例中,获取子单元还可用于:响应于超过预设时间未从当前视频图像检测到来源用户发生唇动,按照预设方式采集音频段;针对按照预设方式采集的音频段,开始执行分别以音频段中的各语音帧作为待测语音帧,利用来源用户的语音判定模型对待测语音帧进行声纹认证打分,得到声纹认证分数的操作。

在上述实施方式的另一些可选示例中,若待处理语音的来源用户不是注册用户,获取子单元具体用于:获取来源用户的视频图像;响应于从当前视频图像检测到来源用户发生唇动,获取当前视频图像对应的音频段;音频段包括当前视频图像对应的当前音频帧,和位于当前音频帧之前的至少一个语音帧和/或位于当前音频帧之后的至少一个语音帧;分别以音频段中的各语音帧作为待测语音帧,利用预设语音判定模型对待测语音帧进行声纹认证打分,得到声纹认证分数;基于待测语音帧的声纹认证分数和后验信噪比,确定待测语音帧为噪声还是语音,并分别作为语音数据或者噪声数据。

在上述可选示例中,满足预设注册条件,例如可以是:声纹认证分数大于第一预设阈值、且后验信噪比大于第二预设阈值的待测语音帧的累计长度达到第三预设阈值。

另外,再参见图12,在本公开又一示例性实施例提供的语音增强装置中,还可以包括:训练模块,用于在满足预设注册条件时,基于来源用户的语音数据和噪声数据,对预设语音判定模型训练,得到来源用户的语音判定模型。

可选地,再参见图12,在另一些实施方式中,训练单元7051可以包括:第五获取单元,用于获取训练数据集中至少一个带噪信号的频域能量;分别获取至少一个带噪信号对应的噪声数据和语音数据的先验信噪比、以及至少一个带噪信号的后验信噪比,作为标准先验信噪比和标准后验信噪比;第六获取单元,用于利用神经网络基于至少一个带噪信号的频域能量,输出先验信噪比和先验信噪比;训练子单元,用于基于神经网络输出的先验信噪比和先验信噪比、以及标准先验信噪比和标准后验信噪比,对神经网络进行训练。

示例性电子设备

下面,参考图13来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。

图13图示了根据本公开实施例的电子设备的框图。如图13所示,电子设备包括一个或多个处理器801和存储器802。

处理器801可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。

存储器802可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器801可以运行所述程序指令,以实现上文所述的本公开的各个实施例的语音增强方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中,电子设备还可以包括:输入装置803和输出装置804,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如,在该电子设备是第一设备或第二设备时,该输入装置803可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置803可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。

此外,该输入设备803还可以包括例如键盘、鼠标等等。

该输出装置804可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图13中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音增强方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音增强方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips