HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

身份认证方法和装置、存储介质和电子设备与流程

2021-01-28 16:01:46|307|起点商标网
身份认证方法和装置、存储介质和电子设备与流程

本公开涉及声音识别领域,具体地,涉及一种身份认证方法和装置、存储介质和电子设备。



背景技术:

声纹认证是目前广泛应用的一种身份认证方式。由于性别、年龄、口音、习惯等的差异,每个人的发音都有其独特的特点,从而人们可以通过听取别人说话来辨认不同的说话人,这种特点也是声纹认证的应用前提。与指纹认证、人面认证等方式相类似,声音也可以通过一定的处理,从中提取出个体独特性的“声纹”,来用于比对、认证。

由于声纹的提取涉及到大量的读音的处理习惯,因此,在传统的声纹认证中,需要在特征学习阶段收集大量的用户语音,以提取用户对各种文字语调、文字读音、词组节奏等的处理特征,这样,在认证阶段可以对用户说出的任意或指定语音进行特征比对,以精确地对用户进行认证。但是这种方法需要用户在注册时上传大量的语音,对用户而言很花费时间且不够便捷。另一种声纹认证方式可以解决该问题,即在注册时和认证时都使用同一音频,这样,在特征学习阶段可以只学习这句音频中的发音习惯,由于在认证时不会涉及到其他文字和词组,因此,可以便捷地对用户语音进行学习和辨认,但是,这种方法中,由于认证时使用的音频是固定的,可以提前录制或伪造,安全性能不够高。



技术实现要素:

本公开的目的是提供一种身份认证方法和装置、存储介质和电子设备,以解决上述的技术问题。

为了实现上述目的,本公开的第一方面,提供一种身份认证方法,所述方法包括:

响应于第一用户的身份认证请求,随机生成认证文本内容并将所述认证文本内容提供给所述第一用户,其中,所述认证文本内容包括预设文本内容,所述预设文本内容是与注册用户录入的注册语音内容相匹配的文本内容;获取所述第一用户基于所述认证文本内容所输入的认证语音内容;在确定所述认证语音内容与所述认证文本内容相匹配的情况下,从所述认证语音内容中提取与所述预设文本内容相匹配的目标语音片段;根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果。

可选的,所述响应于第一用户的身份认证请求,随机生成认证文本内容并将所述认证文本内容提供给所述第一用户,包括:响应于所述第一用户的身份认证请求,随机从注册语音内容中提取得到注册语音片段;识别所述注册语音片段的文本内容,并将该文本内容作为所述预设文本内容;向所述第一用户提供包括所述预设文本内容的认证文本内容。

可选的,所述方法还包括:响应于第二用户的身份注册请求,向所述第二用户提供预设注册文本内容;获取所述第二用户基于所述认证文本内容所输入的语音内容;在所述第二用户输入的语音内容与所述预设注册文本内容相匹配的情况下,将所述第二用户输入的语音内容作为所述第二用户的所述注册语音内容,将所述预设注册文本内容作为所述预设文本内容。

可选的,所述方法还包括:响应于第三用户的身份注册请求,获取所述第三用户输入的语音内容;识别所述第三用户输入的语音内容的文本内容;将所述第三用户输入的语音内容作为所述注册语音内容,将识别得到的所述文本内容作为所述预设文本内容。

可选的,所述方法还包括:响应于第四用户的身份注册请求,获取所述第四用户输入的语音内容;从所述第四用户输入的语音内容中随机提取多个语音片段,作为多个预设语音片段,并从与所述第四用户输入的语音内容的文本内容中,提取与多个所述预设语音片段一致的多段文本内容,作为多个所述预设文本内容,并将所述预设语音片段和与该预设语音片段一致的所述预设文本内容对应存储;所述响应于第一用户的身份认证请求,随机生成认证文本内容并将所述认证文本内容提供给所述第一用户,包括:响应于第一用户的身份认证请求,随机从多个所述预设文本内容中抽取一个所述预设文本内容,并基于该预设文本内容随机生成认证文本内容;所述根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果,包括:从多个所述预设语音片段中,确定与用于生成所述认证文本内容的预设文本内容所对应存储的预设语音片段,并判断所述目标语音片段的声音特征与和所述预设语音片段的声音特征是否一致,若所述目标语音片段的声音特征与和所述预设语音片段的声音特征一致,则确定所述第一用户为已注册用户;其中,所述第四用户输入的语音内容的文本内容,是通过识别所述第四用户输入的语音内容所得到的,或者,所述第四用户输入的语音内容的文本内容,是在获取所述第四用户输入的语音内容前,作为预设注册文本内容提供给所述第四用户的。

可选的,所述响应于第一用户的身份认证请求,随机生成认证文本内容并将所述认证文本内容提供给所述第一用户,包括:响应于所述第一用户的身份认证请求,根据所述身份认证请求中的用户标识,确定与所述用户标识对应的所述预设文本内容,并向所述第一用户展示包括所述预设文本内容的所述认证文本内容;所述根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果,包括:判断所述目标语音片段的声音特征与和所述用户标识对应的注册语音内容的声音特征是否一致;若所述目标语音片段的声音特征与和所述用户标识对应的注册语音内容的声音特征一致,则确定所述第一用户为与所述用户标识相符的已注册用户。

可选的,所述认证文本内容还包括随机生成的随机文本内容;所述方法还包括:在确定所述第一用户通过身份认证后,记录所述随机文本内容,并从历史记录的所有随机文本内容中随机确定一目标文本内容作为所述第一用户下一次身份认证的所述预设文本内容;以及从所述认证语音内容中提取所述目标文本内容对应的语音片段,并将该语音片段作为所述第一用户的所述注册语音内容。

可选的,所述根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果,包括:判断是否存在与所述目标语音片段的声音相似度大于相似度阈值的注册语音内容;若存在与所述目标语音片段的声音相似度大于相似度阈值的注册语音内容,则确定所述第一用户为已注册用户。

本公开的第二方面,提供一种身份认证装置,包括:提供模块,用于响应于第一用户的身份认证请求,随机生成认证文本内容并将所述认证文本内容提供给所述第一用户,其中,所述认证文本内容包括预设文本内容,所述预设文本内容是与注册用户录入的注册语音内容相匹配的文本内容;获取模块,用于获取所述第一用户基于所述认证文本内容所输入的认证语音内容;提取模块,用于在所述认证语音内容与所述认证文本内容相匹配的情况下,从所述认证语音内容中提取与所述预设文本内容相匹配的目标语音片段;处理模块,用于根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果。

可选的,所述提供模块,用于响应于所述第一用户的身份认证请求,随机从注册语音内容中提取得到注册语音片段;识别所述注册语音片段的文本内容,并将该文本内容作为所述预设文本内容;向所述第一用户提供包括所述预设文本内容的认证文本内容。

可选的,所述装置还包括第一注册模块,用于响应于第二用户的身份注册请求,向所述第二用户提供预设注册文本内容;获取所述第二用户基于所述认证文本内容所输入的语音内容;在所述第二用户输入的语音内容与所述预设注册文本内容相匹配的情况下,将所述第二用户输入的语音内容作为所述第二用户的所述注册语音内容,将所述预设注册文本内容作为所述预设文本内容。

可选的,所述装置还包括:第二注册模块,用于响应于第三用户的身份注册请求,获取所述第三用户输入的语音内容;识别所述第三用户输入的语音内容的文本内容;将所述第三用户输入的语音内容作为所述注册语音内容,将识别得到的所述文本内容作为所述预设文本内容。

可选的,所述装置还包括:第三注册模块,用于响应于第四用户的身份注册请求,获取所述第四用户输入的语音内容;从所述第四用户输入的语音内容中随机提取多个语音片段,作为多个预设语音片段,并从与所述第四用户输入的语音内容的文本内容中,提取与多个所述预设语音片段一致的多段文本内容,作为多个所述预设文本内容,并将所述预设语音片段和与该预设语音片段一致的所述预设文本内容对应存储;所述提供模块,用于响应于第一用户的身份认证请求,随机从多个所述预设文本内容中抽取一个所述预设文本内容,并基于该预设文本内容随机生成认证文本内容;所述处理模块,用于所述根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果,包括:从多个所述预设语音片段中,确定与用于生成所述认证文本内容的预设文本内容所对应存储的预设语音片段,并判断所述目标语音片段的声音特征与和所述预设语音片段的声音特征是否一致,若所述目标语音片段的声音特征与和所述预设语音片段的声音特征一致,则确定所述第一用户为已注册用户;其中,所述第四用户输入的语音内容的文本内容,是通过识别所述第四用户输入的语音内容所得到的,或者,所述第四用户输入的语音内容的文本内容,是在获取所述第四用户输入的语音内容前,作为预设注册文本内容提供给所述第四用户的。

可选的,所述提供模块,还用于响应于所述第一用户的身份认证请求,根据所述身份认证请求中的用户标识,确定与所述用户标识对应的所述预设文本内容,并向所述第一用户展示包括所述预设文本内容的所述认证文本内容;所述处理模块,用于判断所述目标语音片段的声音特征与和所述用户标识对应的注册语音内容的声音特征是否一致;若所述目标语音片段的声音特征与和所述用户标识对应的注册语音内容的声音特征一致,则确定所述第一用户为与所述用户标识相符的已注册用户。

可选的,所述认证文本内容还包括随机生成的随机文本内容;所述装置还包括记录模块,用于在确定所述第一用户通过身份认证后,记录所述随机文本内容,并从历史记录的所有随机文本内容中随机确定一目标文本内容作为所述第一用户下一次身份认证的所述预设文本内容;以及从所述认证语音内容中提取所述目标文本内容对应的语音片段,并将该语音片段作为所述第一用户的所述注册语音内容。

可选的,所述处理模块,用于判断是否存在与所述目标语音片段的声音相似度大于相似度阈值的注册语音内容;若存在与所述目标语音片段的声音相似度大于相似度阈值的注册语音内容,则确定所述第一用户为已注册用户。

本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面中任一项所述方法的步骤。

本公开的第四方面,提供一种电子设备,包括存储器和处理器,其中,该存储器上存储有计算机程序,该处理器用于执行所述存储器中的所述计算机程序,以实现本公开第一方面中任一项所述方法的步骤。

通过上述技术方案,至少可以达到以下技术效果:在身份认证时生成包括了用户注册时录制的语音的内容(即预设文本内容)以及随机内容两部分在内的验证文本内容,其中,随机内容可以用于保证认证语音是即时生成而非伪造的,而预设文本内容可以通过声纹比对来确认用户的身份,这样,可以利用较短的注册语音来提取声纹,并在保证认证的精确性的前提下防止验证语音的伪造和假冒。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1是根据一示例性公开实施例示出的一种身份认证方法的流程图。

图2是根据一示例性公开实施例示出的一种身份认证方法的流程图。

图3是根据一示例性公开实施例示出的一种身份认证装置的框图。

图4是根据一示例性公开实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

本公开可以应用于两端的设备,例如,可以在用户端设备展示认证文本内容和获取用户输入的认证语音内容,在用户端或认证端设备进行认证语音内容和认证文本内容的匹配,在认证端设备进行目标语音片段的提取以及声音特征的匹配等,在需要进行远程身份认证时使用,例如网络账户的登陆、网上商品的购买等。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

本公开还可以应用于一个设备,所有的技术内容都在一个设备中完成,例如,防盗门、保险柜的开启、企业打卡、密码盾的身份认证等场景下。

图1是根据一示例性公开实施例示出的一种身份认证方法的流程图,该身份认证方法可以应用于用户设备,例如防盗门、保险箱、手机、电脑等,也可以应用于服务器,如云认证平台等,如图1所示,所述方法包括以下步骤:

s11、响应于第一用户的身份认证请求,随机生成认证文本内容并将所述认证文本内容提供给所述第一用户,其中,所述认证文本内容包括预设文本内容,所述预设文本内容是与注册用户录入的注册语音内容相匹配的文本内容。

身份认证请求可以是包括其他操作请求的,例如,身份认证请求中可以包括针对防盗门、保险柜、安全系统的开启请求,还可以包括针对订单的付款请求,针对其他网络操作的操作请求等,当身份认证请求通过时,这些操作请求也会通过,当身份认证请求不通过时,这些操作请求不被通过。身份认证请求还可以是作为其他操作请求的前提条件实施的,例如,可以设置当身份认证请求通过之后才可以继续向目标端发送操作请求,而身份认证请求和操作请求的通过与否并无必定关联。

认证文本内容是随机生成的,但是所有随机生成的认证文本内容中都包括了预设文本内容,该预设文本内容是与用户注册时录入的注册语音内容相匹配的文本内容。值得说明的是,该预设文本内容可以是和注册时录入的注册语音内容完全一致的,也可以是与注册语音内容的片段一致的。也就是说,认证文本内容包括两部分,一部分是随机生成的随机文本内容,一部分是来自与注册语音内容匹配的文本内容。

例如,在注册时用户录入的注册语音内容是“喜欢猕猴桃”,则该预设文本内容可以是“喜欢猕猴桃”,在生成认证文本内容时,可以随机生成包括“喜欢猕猴桃”在内的文本内容,例如“我不喜欢猕猴桃”“喜欢猕猴桃就对了”“我喜欢猕猴桃才怪咧”“喜欢西瓜和猕猴桃”等,其中的随机文本内容分别为“我不……”“……就对了”“我……才怪咧”“……西瓜和……”,也就是说,随机文本内容在认证文本内容中的位置可以是预设文本内容之前、之后,或者在预设文本内容的两边,或者在预设文本内容的中间。

值得说明的是,用户注册时可能录入了多段注册语音内容,在生成认证文本内容时,可以从多条注册语音内容中提取任意一条注册语音内容及其对应的预设文本内容,并基于该预设文本内容生成认证文本内容。

在一种可能的实施方式中,响应于所述第一用户的身份认证请求,随机从注册语音内容中提取得到注册语音片段;识别所述注册语音片段的文本内容,并将该文本内容作为所述预设文本内容;向所述第一用户提供包括所述预设文本内容的认证文本内容。

例如,在注册时用户录入的注册语音内容是“我不喜欢吃梨,我更喜欢吃苹果”,则该认证文本内容可以是“我不喜欢吃梨,我喜欢吃芒果”,其中,“我不喜欢吃梨”是与注册语音内容相匹配的预设文本内容,是注册语音内容的片段,“我喜欢吃芒果”是随机生成的随机文本内容;该认证文本内容也可以是“我不喜欢吃梨,也不喜欢吃芒果,我更喜欢吃苹果”,其中“我不喜欢吃梨”及“我更喜欢吃苹果”是与注册语音内容相匹配的预设文本内容,“也不喜欢吃芒果”是随机生成的随机文本内容;该认证文本内容还可以是“我不喜欢吃梨,我更喜欢吃苹果和芒果”,包括了作为预设文本内容的完整的注册语音的文本内容,以及随机文本内容“和芒果”。

值得说明的是,用户在注册时可能录入了一段注册语音内容,也可以录入了多段注册语音内容,在随机从注册语音内容中提取注册语音片段时,可以从任意一段注册语音中提取任意的注册语音片段。

本实施例中的方法可以应用于用户终端或服务器中,在向第一用户提供认证文本内容时,在本实施例中的方法应用于服务器的情况下,可以由服务器将认证文本内容发送至用户终端,由用户终端进行展示。在展示认证文本内容时,可以通过文字的方式进行展示,例如,以文本格式向第一用户展示该随机生成的认证文本内容或以包括文字的图片格式向第一用户展示该随机生成的认证文本内容;还可以通过语音的方式进行展示,例如,以语音播报的形式向第一用户展示该认证文本内容,例如向用户播放“请在按下认证按钮后朗读:我不喜欢吃芒果”,或者在文字格式的展示框后增加语音播放的控件,当用户点击该语音播放的控件时,播放该认证文本内容的语音。

值得说明的是,注册语音内容可以是用户注册时录制的指定文本内容的音频,还可以是注册时录制的任意文本内容,可以通过识别用户的音频来创建与注册语音内容对应的文本内容。本公开不限制注册语音内容的获取模式。

在一种可能的实施方式中,该注册文本内容和注册语音内容是通过以下的形式获得的:响应于第二用户的身份注册请求,向所述第二用户展示预设注册文本内容;获取所述第二用户输入的语音内容;在所述第二用户输入的语音内容与所述预设注册文本内容相匹配的情况下,将所述第二用户输入的语音内容作为所述第二用户的所述注册语音内容,将所述预设注册文本内容作为所述预设文本内容。

也就是说,用户在注册时,需要录制系统指定内容的语音作为之后验证身份时的依据,该语音即为注册语音内容,该系统指定内容即为注册文本内容。

在一种可能的实施方式中,该注册文本内容和注册语音内容是通过以下的形式获得的:响应于第三用户的身份注册请求,获取所述第三用户输入的语音内容;识别所述第三用户输入的语音内容的文本内容;将所述第三用户输入的语音内容作为所述注册语音内容,将识别得到的所述文本内容作为所述预设文本内容。

也就是说,用户在注册时,需要录制自己决定的任意内容作为之后验证身份时的依据,该任意内容即注册语音内容,识别该注册语音内容得到的文字内容即为注册文本内容。

在一种可能的实施方式中,可以响应于第四用户的身份注册请求,获取所述第四用户输入的语音内容,并从所述第四用户输入的语音内容中随机提取多个语音片段,作为多个预设语音片段,并从与所述第四用户输入的语音内容的文本内容中,提取与多个所述预设语音片段一致的多段文本内容,作为多个所述预设文本内容,并将所述预设语音片段和与该预设语音片段一致的所述预设文本内容对应存储。

也就是说,可以从用户注册时录入的注册语音内容中随机提取多个语音片段并将这些语音片段与对应的预设文本内容对应存储,这样,可以在认证时直接从库中提取一对预设语音片段和预设文本内容,减少了生成认证文本内容过程中随机提取预设文本内容的时间。其中,第四用户输入的语音内容的文本内容,是通过识别所述第四用户输入的语音内容所得到的,或者,所述第四用户输入的语音内容的文本内容,是在获取所述第四用户输入的语音内容前,作为预设注册文本内容提供给所述第四用户的。

值得说明的是,当身份认证通过后,还可以将用户在认证时提交的认证语音内容种与随机文本内容对应的片段作为注册语音内容加入语音认证库中,在后续的身份认证时,可以从这些认证语音内容对应的随机文本内容中提取新的预设文本内容,以增加语音认证时的认证文本内容的复杂程度,防止针对注册语音内容的预录音和冒用。

在一种可能的实施方式中,所述认证文本内容还包括随机生成的随机文本内容,在确定所述第一用户为已注册用户后,记录所述随机文本内容,并从历史记录的所有随机文本内容中随机确定一目标文本内容作为所述第一用户下一次身份认证的所述预设文本内容;并,从所述认证语音内容中提取所述目标文本内容对应的语音片段,并将该语音片段作为所述第一用户的所述注册语音内容。

例如,用户在注册时录入的语音内容为“我喜欢吃苹果”,在第一次认证时的认证语音内容为“我喜欢吃苹果,我讨厌下雨天”,则可以将“我讨厌下雨天”的语音片段加入注册语音内容中,在后续的认证时,可以生成“我喜欢晴天,我讨厌下雨天”的认证文本内容,并在后续声音特征匹配时,利用用户上一次认证时录制的“我讨厌下雨天”的部分与本次录制的“我讨厌下雨天”进行特征比对;在本次认证通过后,还可以继续将“我喜欢晴天”加入注册语音内容中。

值得说明的是,当注册语音内容达到预设数量阈值之后,可以通过声纹匹配模型基于所有的注册语音内容学习用户的声音特征信息,并在后续的认证过程中,生成随机的认证文本内容,该认证文本内容可以与注册语音内容无关。由于学习样本量足够,声纹匹配模型可以基于大量的样本充分地学习用户的声音特征,则无需通过与原有的语音片段进行逐字的特征对比就可以验证用户的身份。也就是说,在本公开中,认证语音内容可以作为声纹匹配模型的学习样本,通过学习认证语音内容的声音特征,可以使声纹匹配模型的认证准确度上升,可以通过与已有的注册语音内容无关的语音来判别用户的身份。

s12、获取所述第一用户基于所述认证文本内容所输入的认证语音内容。

第一用户输入的认证语音内容可以是由认证设备原本用于其他语音功能的麦克风收集的,也可以是由认证设备为语音认证设置的麦克风收集的,还可以是其他设备或其他麦克风收集之后传输至认证设备的。例如,当本方法应用于防盗门、保险箱等物品上的认证设备时,可以使用原有的防盗门的通话系统的麦克风收集认证语音内容,也可以在保险箱上新设置麦克风收集认证语音内容;当本方法应用于移动终端时,可以通过移动终端的麦克风收集语音内容;当本方法应用于云认证设备、服务器时,可以通过与认证设备通讯连接的移动设备(如手机、智能手表等)原本用于通话的麦克风收集认证语音内容。

s13、在确定所述认证语音内容与所述认证文本内容相匹配的情况下,从所述认证语音内容中提取与所述预设文本内容相匹配的目标语音片段。

认证语音内容可以通过语音识别技术转换为认证文字内容,当认证文字内容于认证文本内容相同(或相似度高于一定阈值)时,可以认为认证语音内容于认证文本内容相匹配。

在确认认证语音内容和认证文本内容相匹配后,可以通过音轨对齐技术从认证语音内容中提取与预设语音片段对齐的片段,作为目标语音片段。(其中,预设语音片段是从注册语音内容中提取的与预设文本内容相匹配的语音片段),或者,可以通过识别认证语音内容中与预设文本内容一致的文字内容所对应的片段,作为目标语音片段。

s14、根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果。

可以将目标语音片段的声音特征与所有的注册语音内容的声音特征进行对比,判断数据库中是否有和目标语音片段的声音特征一致的注册语音内容,当存在时,可以确定该第一用户为已注册的用户。

在一种可能的实施方式中,在确定了目标语音片段后,可以对比目标语音片段与所有的注册语音内容,或与所有的注册语音内容中的预设语音片段的声音特征,当存在于目标语音片段的声音相似度大于相似度阈值的注册语音内容(或从注册语音内容中提取的预设语音片段)时,可以将该注册语音内容作为与目标语音片段的声音特征一致的目标注册语音内容。

值得说明的是,在注册时,用户可能录入了一段注册语音内容,也可能录入了多段注册语音内容;注册语音内容库中可以存有一个用户的注册语音,也可以存有多个用户的注册语音。在注册语音内容库中只有一个用户的一段或多段注册语音内容的情况下,在生成认证文本内容时,可以从所有的注册语音内容中提取任意一段注册语音内容,并将与其匹配的文本内容作为预设文本内容,例如,用户在注册时录入了“我喜欢苹果”和“我讨厌鸭梨”两段内容,则在生成认证文本内容时,可以随意在“我喜欢苹果”和“我讨厌鸭梨”中选择一段内容来生成预设文本内容,在进行匹配时,可以将目标语音片段与库中所有的注册语音内容进行匹配,来判断库中是否有声音特征一致的目标注册语音内容;在注册语音内容库中有多个用户的注册语音内容时,这些注册语音内容的文本内容应该一致或成组,也就是说,所有用户在注册时会录入相同的一段内容,或相同的多段内容,在生成认证文本内容时,可以从所有的注册语音内容中提取任意一段注册语音内容,并将与其匹配的文本内容作为预设文本内容,例如,所有用户在注册时都录入了“我喜欢苹果”和“我讨厌鸭梨”两段内容,则在生成认证文本内容时,可以随意在“我喜欢苹果”和“我讨厌鸭梨”中选择一段内容来生成预设文本内容,在进行匹配时,可以将目标语音片段与库中所有用户的该段注册语音内容进行匹配,来判断库中是否有声音特征一致的目标注册语音内容(例如,当使用“我喜欢苹果”作为预设文本内容时,只匹配所有用户的“我喜欢苹果”的注册语音内容,而不匹配“我讨厌鸭梨”的注册语音内容)。

当采取预先从注册语音内容中随机提取预设语音片段,并将该预设语音片段和对应的预设文本内容对应存储的方式的情况下,认证文本内容中的预设文本内容是直接从库中提取的,因此,可以从多个所述预设语音片段中,确定与用于生成所述认证文本内容的预设文本内容所对应存储的预设语音片段,直接将预设语音片段和目标语音片段的声音特征进行比对,从而更精确地对用户身份进行认证。

其中,注册用户即代表用户身份得到认证。当身份认证请求中包含了其他操作请求时,也可以在确认用户的已注册身份后为其履行该操作。

值得说明的是,可以为每个注册语音内容绑定一个注册用户身份,每个身份可以进行的操作的权限不同,例如,可以为注册语音内容a绑定管理员身份,当第一用户通过身份认证请求确认了注册用户“管理员”的身份时,可以为其执行其操作请求中管理员的权限内容下的操作,为注册语音内容b绑定普通用户身份,当第一用户通过身份认证请求确认了注册用户“普通用户”的身份时,其同步发送的需要“管理员”身份才能执行的操作请求将不被通过。

通过上述技术方案,至少可以达到以下技术效果:在身份认证时生成包括了用户注册时录制的语音的内容(即预设文本内容)以及随机内容两部分在内的验证文本内容,其中,随机内容可以用于保证认证语音是即时生成而非伪造的,而预设文本内容可以通过声纹比对来确认用户的身份,这样,可以利用较短的注册语音来提取声纹,并在保证认证的精确性的前提下防止验证语音的伪造和假冒。

图2是根据一示例性公开实施例示出的一种身份认证方法的流程图,该身份认证方法可以应用于用户设备,例如防盗门、保险箱、手机、电脑等,也可以应用于服务器,如云认证平台等,如图2所示,所述方法包括以下步骤:

s21、响应于所述第一用户的身份认证请求,根据所述身份认证请求中的用户标识,确定与所述用户标识对应的所述预设文本内容,并基于所述预设文本内容随机生成认证文本内容,向所述第一用户提供所述认证文本内容。

其中,所述认证文本内容是随机生成的,且所述认证文本内容包括预设文本内容,所述预设文本内容是与用户录入的注册语音内容相匹配的文本内容。

用户标识可以是用户编号、用户名称等可以唯一确定用户身份的标识信息,用户在注册时可以得到一个用户标识,该用户标识与用户的注册语音内容、注册语音内容的文本内容(或通过注册语音内容得到的预设文本内容)相关联。

身份认证请求可以是包括其他操作请求的,例如,身份认证请求中可以包括针对防盗门、保险柜、安全系统的开启请求,还可以包括针对订单的付款请求,针对其他网络操作的操作请求等,当身份认证请求通过时,这些操作请求也可以同时通过,当身份认证请求不通过时,这些操作请求不被通过。身份认证请求还可以是作为其他操作请求的前提条件实施的,例如,可以设置当身份认证请求通过之后才可以继续向目标端发送操作请求,而身份认证请求和操作请求的通过与否并无必定关联。

认证文本内容是在预设文本内容的基础上随机生成的,也就是说,所有随机生成的认证文本内容中都包括了预设文本内容,该预设文本内容是与用户注册时录入的注册语音内容相匹配的文本内容。值得说明的是,该预设文本内容可以是和注册时录入的注册语音内容完全一致的,也可以是与注册语音内容的片段一致的。也就是说,认证文本内容包括两部分,一部分是随机生成的随机文本内容,一部分是来自与注册语音内容匹配的文本内容。

在生成预设文本内容时,可以提取该用户标识关联的注册语音内容或注册语音内容一致的文本内容,再根据该注册语音内容或该文本内容生成预设文本内容。

例如,在注册时用户录入的注册语音内容是“喜欢猕猴桃”,则该预设文本内容可以是“喜欢猕猴桃”,在生成认证文本内容时,可以随机生成包括“喜欢猕猴桃”在内的文本内容,例如“我不喜欢猕猴桃”“喜欢猕猴桃就对了”“我喜欢猕猴桃才怪咧”“喜欢西瓜和猕猴桃”等,其中的随机文本内容分别为“我不……”“……就对了”“我……才怪咧”“……西瓜和……”,也就是说,随机文本内容在认证文本内容中的位置可以是预设文本内容之前、之后,或者在预设文本内容的两边,或者在预设文本内容的中间。

值得说明的是,用户注册时可能录入了多段注册语音内容,在生成认证文本内容时,可以从多条注册语音内容中提取任意一条注册语音内容及其对应的预设文本内容,并基于该预设文本内容生成认证文本内容。

在一种可能的实施方式中,响应于所述第一用户的身份认证请求,随机从注册语音内容中提取得到注册语音片段;识别所述注册语音片段的文本内容,并将该文本内容作为所述预设文本内容;向所述第一用户提供包括所述预设文本内容的认证文本内容。

例如,在注册时用户录入的注册语音内容是“我不喜欢吃梨,我更喜欢吃苹果”,则该认证文本内容可以是“我不喜欢吃梨,我喜欢吃芒果”,其中,“我不喜欢吃梨”是与注册语音内容相匹配的预设文本内容,是注册语音内容的片段,“我喜欢吃芒果”是随机生成的随机文本内容;该认证文本内容也可以是“我不喜欢吃梨,也不喜欢吃芒果,我更喜欢吃苹果”,其中“我不喜欢吃梨”及“我更喜欢吃苹果”是与注册语音内容相匹配的预设文本内容,“也不喜欢吃芒果”是随机生成的随机文本内容;该认证文本内容还可以是“我不喜欢吃梨,我更喜欢吃苹果和芒果”,包括了作为预设文本内容的完整的注册语音的文本内容,以及随机文本内容“和芒果”。

值得说明的是,用户在注册时可能录入了一段注册语音内容,也可以录入了多段注册语音内容,在随机从注册语音内容中提取注册语音片段时,可以从任意一段注册语音中提取任意的注册语音片段。

本实施例中的方法可以应用于用户终端或服务器中,在向第一用户提供认证文本内容时,在本实施例中的方法应用于服务器的情况下,可以由服务器将认证文本内容发送至用户终端,由用户终端进行展示。在展示认证文本内容时,可以通过文字的方式进行展示,例如,以文本格式向第一用户展示该随机生成的认证文本内容或以包括文字的图片格式向第一用户展示该随机生成的认证文本内容;还可以通过语音的方式进行展示,例如,以语音播报的形式向第一用户展示该认证文本内容,例如向用户播放“请在按下认证按钮后朗读:我不喜欢吃芒果”,或者在文字格式的展示框后增加语音播放的控件,当用户点击该语音播放的控件时,播放该认证文本内容的语音。

值得说明的是,注册语音内容可以是用户注册时录制的指定文本内容的音频,还可以是注册时录制的任意文本内容,可以通过识别用户的音频来创建与注册语音内容对应的文本内容。每个用户注册时输入的注册语音内容的内容可以一致,也可以各自不同。本公开不限制注册语音内容的获取模式。

在一种可能的实施方式中,该注册文本内容和注册语音内容是通过以下的形式获得的:响应于第二用户的身份注册请求,向所述第二用户展示预设注册文本内容;获取所述第二用户输入的语音内容;在所述第二用户输入的语音内容与所述预设注册文本内容相匹配的情况下,将所述第二用户输入的语音内容作为所述第二用户的所述注册语音内容,将所述预设注册文本内容作为所述预设文本内容。

也就是说,用户在注册时,需要录制一段系统指定内容的语音作为之后验证身份时的依据,该语音即为注册语音内容,该系统指定内容即为注册文本内容。

在一种可能的实施方式中,该注册文本内容和注册语音内容是通过以下的形式获得的:响应于第三用户的身份注册请求,获取所述第三用户输入的语音内容;识别所述第三用户输入的语音内容的文本内容;将所述第三用户输入的语音内容作为所述注册语音内容,将识别得到的所述文本内容作为所述预设文本内容。

也就是说,用户在注册时,需要录制自己决定的任意内容作为之后验证身份时的依据,该任意内容即注册语音内容,识别该注册语音内容得到的文字内容即为注册文本内容。

在一种可能的实施方式中,可以响应于第四用户的身份注册请求,获取所述第四用户输入的语音内容,并从所述第四用户输入的语音内容中随机提取多个语音片段,作为多个预设语音片段,并从与所述第四用户输入的语音内容的文本内容中,提取与多个所述预设语音片段一致的多段文本内容,作为多个所述预设文本内容,并将所述预设语音片段和与该预设语音片段一致的所述预设文本内容对应存储。

也就是说,可以从用户注册时录入的注册语音内容中随机提取多个语音片段并将这些语音片段与对应的预设文本内容对应存储,这样,可以在认证时直接从库中提取一对预设语音片段和预设文本内容,减少了生成认证文本内容过程中随机提取预设文本内容的时间。其中,第四用户输入的语音内容的文本内容,是通过识别所述第四用户输入的语音内容所得到的,或者,所述第四用户输入的语音内容的文本内容,是在获取所述第四用户输入的语音内容前,作为预设注册文本内容提供给所述第四用户的。

值得说明的是,当身份认证通过后,还可以将用户在认证时提交的认证语音内容种与随机文本内容对应的片段作为注册语音内容加入语音认证库中,在后续的身份认证时,可以从这些认证语音内容对应的随机文本内容中提取新的预设文本内容,以增加语音认证时的认证文本内容的复杂程度,防止针对注册语音内容的预录音和冒用。

在一种可能的实施方式中,所述认证文本内容还包括随机生成的随机文本内容,在确定所述第一用户为已注册用户后,记录所述随机文本内容,并从历史记录的所有随机文本内容中随机确定一目标文本内容作为所述第一用户下一次身份认证的所述预设文本内容;并,从所述认证语音内容中提取所述目标文本内容对应的语音片段,并将该语音片段作为所述第一用户的所述注册语音内容。

例如,用户在注册时录入的语音内容为“我喜欢吃苹果”,在第一次认证时的认证语音内容为“我喜欢吃苹果,我讨厌下雨天”,则可以将“我讨厌下雨天”的语音片段加入注册语音内容中,在后续的认证时,可以生成“我喜欢晴天,我讨厌下雨天”的认证文本内容,并在后续声音特征匹配时,利用用户上一次认证时录制的“我讨厌下雨天”的部分与本次录制的“我讨厌下雨天”进行特征比对;在本次认证通过后,还可以继续将“我喜欢晴天”加入注册语音内容中。

值得说明的是,当注册语音内容达到预设数量阈值之后,可以通过声纹匹配模型基于所有的注册语音内容学习用户的声音特征信息,并在后续的认证过程中,生成随机的认证文本内容,该认证文本内容可以与注册语音内容无关。由于学习样本量足够,声纹匹配模型可以基于大量的样本充分地学习用户的声音特征,则无需通过与原有的语音片段进行逐字的特征对比就可以验证用户的身份。也就是说,在本公开中,认证语音内容可以作为声纹匹配模型的学习样本,通过学习认证语音内容的声音特征,可以使声纹匹配模型的认证准确度上升,可以通过与已有的注册语音内容无关的语音来判别用户的身份。

s22、获取所述第一用户基于所述认证文本内容所输入的认证语音内容。

第一用户输入的认证语音内容可以是由认证设备原本用于其他语音功能的麦克风收集的,也可以是由认证设备为语音认证设置的麦克风收集的,还可以是认证其他设备或其他麦克风收集之后传输至认证设备的。例如,当本方法应用于防盗门、保险箱等物品上的认证设备时,可以使用原有的防盗门的通话系统的麦克风收集认证语音内容,也可以在保险箱上新设置麦克风收集认证语音内容;当本方法应用于移动终端时,可以通过移动终端的麦克风收集语音内容;当本方法应用于云认证设备、服务器时,可以通过与认证设备通讯连接的移动设备(如手机、智能手表等)原本用于通话的麦克风收集认证语音内容。

s23、在确定所述认证语音内容与所述认证文本内容相匹配的情况下,从所述认证语音内容中提取与所述预设文本内容相匹配的目标语音片段。

认证语音内容可以通过语音识别技术转换为认证文字内容,当认证文字内容于认证文本内容相同(或相似度高于一定阈值)时,可以认为认证语音内容于认证文本内容相匹配。

在确认认证语音内容和认证文本内容相匹配后,可以通过音轨对齐技术从认证语音内容中提取与预设语音片段对齐的片段,作为目标语音片段。(其中,预设语音片段是从注册语音内容中提取的与预设文本内容相匹配的语音片段),或者,可以通过识别认证语音内容中与预设文本内容一致的文字内容所对应的片段,作为目标语音片段。

s24、判断所述目标语音片段的声音特征与和所述用户标识对应的注册语音内容的声音特征是否一致。

在确定了目标语音片段后,可以将该目标语音片段与和用户标识对应的注册语音内容的声音特征进行对比,或者与和用户标识对应的注册语音内容中提取的与预设文本内容一致的片段的声音特征进行对比,当两者的声音相似度大于相似度阈值时,可以认为两者的声音特征一致。

s25、若所述目标语音片段的声音特征与和所述用户标识对应的注册语音内容的声音特征一致,则确定所述第一用户为与所述用户标识相符的已注册用户。

值得说明的是,可以为每个用户标识绑定一个注册用户身份,每个身份可以进行的操作的权限不同,例如,可以为用户标识a12345绑定管理员身份,当第一用户通过身份认证请求确认了注册用户“管理员”的身份时,可以为其执行其操作请求中管理员的权限内容下的操作,为用户标识a11234绑定普通用户身份,当第一用户通过身份认证请求确认了注册用户“普通用户”的身份时,其同步发送的需要“管理员”身份才能执行的操作请求将不被通过。

通过上述技术方案,至少可以达到以下技术效果:在身份认证时生成包括了用户注册时录制的语音的内容(即预设文本内容)以及随机内容两部分在内的验证文本内容,其中,随机内容可以用于保证认证语音是即时生成而非伪造的,而预设文本内容可以通过声纹比对来确认用户的身份,这样,可以利用较短的注册语音来提取声纹,并在保证认证的精确性的前提下防止验证语音的伪造和假冒。

图3是根据一示例性公开实施例示出的一种身份认证装置的框图,如图3所示,该装置300包括提供模块310、获取模块320、提取模块330以及处理模块340。

提供模块310,用于响应于第一用户的身份认证请求,随机生成认证文本内容并将所述认证文本内容提供给所述第一用户,其中,所述认证文本内容包括预设文本内容,所述预设文本内容是与注册用户录入的注册语音内容相匹配的文本内容。

获取模块320,用于获取所述第一用户基于所述认证文本内容所输入的认证语音内容。

提取模块330,用于在所述认证语音内容与所述认证文本内容相匹配的情况下,从所述认证语音内容中提取与所述预设文本内容相匹配的目标语音片段。

判断模块340,用于根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果。

可选的,所述提供模块,用于响应于所述第一用户的身份认证请求,随机从注册语音内容中提取得到注册语音片段;识别所述注册语音片段的文本内容,并将该文本内容作为所述预设文本内容;向所述第一用户提供包括所述预设文本内容的认证文本内容。

可选的,所述装置还包括第一注册模块,用于响应于第二用户的身份注册请求,向所述第二用户提供预设注册文本内容;获取所述第二用户基于所述认证文本内容所输入的语音内容;在所述第二用户输入的语音内容与所述预设注册文本内容相匹配的情况下,将所述第二用户输入的语音内容作为所述第二用户的所述注册语音内容,将所述预设注册文本内容作为所述预设文本内容。

可选的,所述装置还包括:第二注册模块,用于响应于第三用户的身份注册请求,获取所述第三用户输入的语音内容;识别所述第三用户输入的语音内容的文本内容;将所述第三用户输入的语音内容作为所述注册语音内容,将识别得到的所述文本内容作为所述预设文本内容。

可选的,所述装置还包括:第三注册模块,用于响应于第四用户的身份注册请求,获取所述第四用户输入的语音内容;从所述第四用户输入的语音内容中随机提取多个语音片段,作为多个预设语音片段,并从与所述第四用户输入的语音内容的文本内容中,提取与多个所述预设语音片段一致的多段文本内容,作为多个所述预设文本内容,并将所述预设语音片段和与该预设语音片段一致的所述预设文本内容对应存储;所述提供模块,用于响应于第一用户的身份认证请求,随机从多个所述预设文本内容中抽取一个所述预设文本内容,并基于该预设文本内容随机生成认证文本内容;所述处理模块,用于所述根据所述目标语音片段,对所述第一用户进行身份认证并获得身份认证的认证结果,包括:从多个所述预设语音片段中,确定与用于生成所述认证文本内容的预设文本内容所对应存储的预设语音片段,并判断所述目标语音片段的声音特征与和所述预设语音片段的声音特征是否一致,若所述目标语音片段的声音特征与和所述预设语音片段的声音特征一致,则确定所述第一用户为已注册用户;其中,所述第四用户输入的语音内容的文本内容,是通过识别所述第四用户输入的语音内容所得到的,或者,所述第四用户输入的语音内容的文本内容,是在获取所述第四用户输入的语音内容前,作为预设注册文本内容提供给所述第四用户的。

可选的,所述提供模块,还用于响应于所述第一用户的身份认证请求,根据所述身份认证请求中的用户标识,确定与所述用户标识对应的所述预设文本内容,并向所述第一用户展示包括所述预设文本内容的所述认证文本内容;所述处理模块,用于判断所述目标语音片段的声音特征与和所述用户标识对应的注册语音内容的声音特征是否一致;若所述目标语音片段的声音特征与和所述用户标识对应的注册语音内容的声音特征一致,则确定所述第一用户为与所述用户标识相符的已注册用户。

可选的,所述认证文本内容还包括随机生成的随机文本内容;所述装置还包括记录模块,用于在确定所述第一用户通过身份认证后,记录所述随机文本内容,并从历史记录的所有随机文本内容中随机确定一目标文本内容作为所述第一用户下一次身份认证的所述预设文本内容;以及从所述认证语音内容中提取所述目标文本内容对应的语音片段,并将该语音片段作为所述第一用户的所述注册语音内容。

可选的,所述处理模块,用于判断是否存在与所述目标语音片段的声音相似度大于相似度阈值的注册语音内容;若存在与所述目标语音片段的声音相似度大于相似度阈值的注册语音内容,则确定所述第一用户为已注册用户。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

通过上述技术方案,至少可以达到以下技术效果:在身份认证时生成包括了用户注册时录制的语音的内容(即预设文本内容)以及随机内容两部分在内的验证文本内容,其中,随机内容可以用于保证认证语音是即时生成而非伪造的,而预设文本内容可以通过声纹比对来确认用户的身份,这样,可以利用较短的注册语音来提取声纹,并在保证认证的精确性的前提下防止验证语音的伪造和假冒。

图4是根据一示例性实施例示出的一种电子设备400的框图。如图4所示,该电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(i/o)接口404,以及通信组件405中的一者或多者。

其中,处理器401用于控制该电子设备400的整体操作,以完成上述的身份认证方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:wi-fi模块,蓝牙模块,nfc模块等等。

在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic)、数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd)、可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的身份认证方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的身份认证方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的身份认证方法。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 特征提取声音识别
tips